5 July 2007

Les nouvelles navigations, suite …

Filed under: Moteur de recherche — Gabriel @ 9:54

Dans mon précédent billet sur ce même sujet, je rappelais cette évidence que les moteurs de recherche sont un des moyens les plus classiques de navigation. J’aimerai revenir un peu là-dessus car les certitudes méritent d’être revisitées régulièrement pour les valider …

En lisant les résultats d’audience des moteurs de recherche, et notamment le baromètre des moteurs de xiti, on peut noter des évolutions intéressantes. Ainsi, le moins dernier, le big google et toujours numéro 1 a progressé très légèrement (0.4%), le bon second yahoo a nettement reculé (-7.1%) … et le moteur exalead s’est détaché avec une progression très nette (16.1%).

J’en reviens donc à mon propos. Si nous utilisons tous le même moteur, nous trouverons tous la même réponse. Or, vous l’avez constaté. Il est souvent très pertinent d’avoir des avis différents, pas nécessairement opposés, mais juste différents. Les discussions sont alors plus riches, plus intéressantes. C’est le bon sens, non ? Net actuality a publié le mois dernier un billet sur un combat google contre exalead. Le résultat est un match nul !

Alors, régulièrement, faîtes vous plaisir, utilisez un moteur alternatif pour ne pas penser comme tout le monde ! Lorsque vous avez une recherche à faire, prenez le temps de croiser les résultats de différents moteurs. Commenez déjà par en mettre quelques-uns dans vos favoris.

6 January 2007

Le bruit du Web 2.0 : les nouveaux usages pour une recherche pertinente …

Filed under: Moteur de recherche, Web 2.0 — Gabriel @ 3:24

Comme je l’écrivais hier, on peut pratiquement définir le web caché comme étant celui qui échappe aux moteurs de recherche. En effet, même s’ils sont très efficaces, ils n’indexent qu’une petite partie du Web.

En plus, ils ne sont pas à jour immédiatement et il faut parfois attendre très longtemps (plusieurs jours) avant que les précieuses pages recherchées émergent. Et nous savons bien que cette apparition n’a rien de miraculeux … ce serait plutôt un business.

La pertinence selon les moteurs de recherche actuels

Elle dépend de :

  • Critères statistiques mais ne sont pas porteurs de sens
  • Des mots clés rencontrés, pas de la phrase
    • on ne tient pas compte des mots “creux”
    • on s’attache à toutes les occurences différentes des mots (non au groupe flexion)
    • on ne tient pas compte de l’ordre des mots
  • Position relative du mot dans la page, pas dans le texte
    • c’est un titre
    • il est dans le premier quart
  • Indice de popularité
    • c’est le “PageRank” de Google (voir la note en bas)
  • Méta-données
  • et bien sûr du facteur économique
    • Positionnement et référencement payant

Avec l’avénement du Web 2.0, on l’a bien vu, les outils de création de contenu se sont multipliés, ils sont devenus tellement plus faciles d’emploi … que le nombre de rédacteurs augmente plus vite que celui des lecteurs, déjà élevés par ailleurs. Bref, lorsqu’on cherche une information avec un moteur de recherche, on a de plus en plus de réponses. Globalement, l’ensemble des réponses est de plus en plus bruité … de moins en moins pertinent. Et si la loi de Cole était vraie !

Par exemple, considérons le bloging ce phénomène de société (même moi je m’y suis mis) dont les moteurs tiennent déjà le plus grand compte. Comme une forte tendance des blogs est de relayé les petits potins entre copins, une autre d’être plus des chambres d’écho des buzz du moment que des lieux d’une réelle création éditoriale, on sent bien que plus il y aura de Web 2.0 plus il y aura du bruit sur la toile ;-)

Tant que les moteurs de recherche seront sensibles aux statistiques, les agiteurs de la blogosphère qui n’ont rien à dire continueront de causer dans le poste ! et les moteurs seront dans le brouillard.

Emergence de nouvelles stratégies de recherche

Alors il faudra bien en sortir. Déjà des usages mutent. La prise de conscience du Web caché avait déjà eu pour incidence pour pousser les bonnes pratiques suivantes :

D’autres usages se développent. Par exemple, le social-bookmarking est une de ces pratiques. del.icio.us est le site paradigmatique de cette voie du favori pertinent. En offrant la possibilité de créer des réseaux de personnes, il augmente encore le caractère social de son dispositif. J’ai choisi de motoriser mon blog avec WordPress en lisant del.icio.us !

Un autre usage : la folksonomy. C’est un mot-valise issu de la contraction des mots folks (”les gens” en français) et taxonomy (”taxinomie” en français, la science du classement ou le système de classification hiérarchisés). Il s’agit d’une méthode de classification collaborative de contenus Web à l’aide de tags. Réalisée par une communauté d’internautes, son but est de proposer une alternative subjective et sensible aux moteurs automatiques pour faciliter la recherche et l’identification des contenus. Quelques exemples : Technorati pour classer les billets publiés sur les blogs, Flickr pour les photos et del.icio.us pour les favoris …

Et dans la vraie vie ?

Au bureau, je vois progressivement des collègues changer de page Internet par défaut. Ils avaient massivement opté pour Google … maintenant, on trouve del.icio.uc ou netvibes ou …

Et vous ?

Note : PageRank

Le PageRank est un terme anglais qui peut se traduire par « rang de page ». Cet indice de popularité, conçu par Larry Page, est calculé pour toute page Web et est utilisé par le moteur de recherche Google classer les résultats.

Note : Qui sont Larry Page et Sergey Brin ?

Larry Page (né en 1973) et Sergey Mikhaïlovitch Brin (né aussi en 1973) sont les fondateurs du site et du moteur de recherche Google. Le premier est américain, le second est d’origine russe.

4 January 2007

Web caché … la profondeur du puits

Filed under: Moteur de recherche — Gabriel @ 2:31

Caché

En France, nous appelons “web invisible” ou “web caché” ce que les grands bretons et assimilés appellent “deep web” ou “hidden web”.

Cela désigne la partie du web qui est non accessible aux moteurs de recherche classiques et à Google en particulier puisque que c’est le moteur préféré des internautes.

Qu’est-ce qu’on nous cache ?

Il y a encore peu de temps, tout ce que Google ne savait pas indexé était quasi automatiquement caché. Le web invisible comprend par exemple des bases de données, des banques de données et des bibliothèques en ligne gratuites ou payante…

Typologie du cryptoweb

Les chercheurs Chris Sherman et Gary Price ont établi 4 types de web caché. C’est assez éclairant (si je peux m’exprimer ainsi !)

1 - Le Web opaque

Il comprend les pages qui pourraient être indexées par les moteurs mais qui ne le sont pas (limitation d’indexation du nombre de pages d’un site, fréquence d’indexation, liens absents vers des pages ne permettant donc pas un crawling)

2 - Le Web privé

Toutes les pages disponibles mais volontairement exclues (mot de passe, metatags ou fichiers dans la page pour que le robot du moteur ne l’indexe pas) font partie de cette portion de web.

3 - Le Web propriétaire

On trouve là les pages seulement accessibles pour les personnes qui s’identifient (pas d’accès pour robot).

4 - Le web vraiment invisible

Son contenu est non indexé pour des raisons tout simplement techniques. Par exemple, le format est inconnu par le moteur, les pages sont générées dynamiquement …

La profondeur du puits

Selon des estimations, la taille du web caché varie beaucoup et il est donc difficile de faire un chiffrage. Les meilleurs moteurs n’indexeraient que 3 à 10% du web. Mais comment vérifier cela ?