mercredi, octobre 05, 2005

Ce blog a déménagé...

Ce blog se poursuit sur http://emarketing.typepad.com, blog collaboratif sur le thème du marketing internet.Devant les nombreux spams constatés sur le présent blog, les commentaires sont dorénavant désactivés.

vendredi, novembre 19, 2004

Lancement de Google Scholar

Une bonne nouvelle pour les recherches de documents scientifiques et universitaires sur le web (actualités trouvée sur abondance):

Google vient de lancer un site spécialisé sur la recherche de documents scientifiques et universitaires : articles, thèses, livres, abstracts, rapports techniques, citations, etc. Tous ces documents sont issus de laboratoires de recherche, écoles et universités. La page de résultats affiche l’auteur du document proposé ainsi que le nombre de liens pointant vers le fichier, les différentes sources où il est disponible ainsi que les versions successives existant sur le Web.

La syntaxe author: permet de repérer rapidement tous document écrit par une personne en particulier.

Si l’esssentiel des documents disponibles est en anglais, on trouve cependant bon nombre de fichiers dans la langue de Molière... La plupart des documents disponibles semblent être au format PDF. Il semblerait également que le moteur de recherche explore une partie du « Web invisible », grâce à des accords passés entre Google et certains éditeurs américains.


http://scholar.google.com/

Source : Abondance

lundi, novembre 08, 2004

Les criteres "in the site"

Les critères "in the site" sont au nombre de 4 :

- la fréquence de l’ER dans le nom de fichier
- la fréquence de l’ER dans le nom de domaine
- la fréquence de l’ER dans un nom de répertoire
- la fréquence de l’ER dans les paramètres de la page

On considère ces mêmes éléments pour chacun des mots clés constituant l’expression de recherche.

On ajoute également dans cette catégorie les éléments suivants :

- la date de dernière modification de la page
- le poids de la page

Ces 2 derniers critères sont supposés avoir un impact moindre sur la pertinence de l’algorithme de Google. Ils sont cependant inclus dans l’étude par référence à quelques rumeurs présentes sur les forums de référenceurs, et notamment la fameuse « prime à la fraîcheur » qu’attribuerait Google aux contenus récents.

Dans cet article une « expression de recherche » (ER) désigne la requête de l’internaute (à 2 ou plusieurs mots) et un « mot clé » (MC) désigne un élément de cette entité.

Les criteres "off the site"

Les critères "off the site" sont au nombre de 2 :

- le lien textuel de la catégorie DMOZ correspondante
- le nombre de liens externes contenant l’ER dans les textes des liens

L'annuaire DMOZ

DMOZ est le nom de l’annuaire alimenté par des bénévoles au sein de l'ODP (Open Directory Project). Cet annuaire étant libre, il peut être librement utilisé par chacun, c'est le cas notamment de Google.

Dans cet article une « expression de recherche » (ER) désigne la requête de l’internaute (à 2 ou plusieurs mots) et un « mot clé » (MC) désigne un élément de cette entité.

Les criteres "In the page"

Voici la liste des critères "in the page" sélectionnés :

Titre de la page
- la densité de l’expression de recherche dans le titre de la page
- la fréquence de l’ER dans le titre de la page
- la densité des MC dans le titre de la page
- la fréquence des MC dans le titre de la page


Contenu de la page
- la fréquence de l’ER dans les titres et sous-titres (balises )
- la densité de l’ER dans les titres et sous-titres
- la fréquence de l’ER dans le texte en gras
- la densité de l’ER dans le texte en gras
- la fréquence de l’ER dans les balises décrivant les images (balises "ALT")
- la fréquence de l’ER dans les noms des images
- la fréquence de l’ER dans le texte visible de la page Web
- la densité de l’ER dans le texte visible de la page Web
- la proéminence de l’ER dans le texte de la page (le ratio entre la position de l'expression de recherche et la position des autres mots du texte)
- la densité de l’ER dans les liens textuels
- la fréquence de l’ER dans les liens textuels

Balises META
- la fréquence de l’ER dans la balise META DESCRIPTION
- la densité de l’ER dans la balise META DESCRIPTION
- la densité de l’ER dans la balise META KEYWORDS
- la fréquence de l’ER dans la balise META KEYWORDS

On considère les mêmes éléments pour chacun des mots clés constituant l’expression de recherche.

Dans cet article une « expression de recherche » (ER) désigne la requête de l’internaute (à 2 ou plusieurs mots) et un « mot clé » (MC) désigne un élément de cette entité.

Les critères "Off the page"

La première série de critères étudiés, les critères "off the page" peut se résumer à un seul et unique critère :

- le PageRank de la page

Criteres de pertinence de Google

On distingue généralement les 4 catégories de critères suivants :

- les critères dits "off the page" : la quantité et qualité des liens entrants externes représentés par l’algorithme du PageRank.
- les critères dits "in the page" : contenu textuel et codage de la page Web
- les critères dits "off the site" : les intitulés textuels des liens entrants externes
- les critères dits "in the site" : caractéristiques de l'adresse internet (URL)

Références :

Wen, P. (2002). Google search engine ranking algorithm analysis, Pwqsoft Inc., http://www.pwqsoft.com/search-engine-ranking.htm
Webrankinfo, http://www.webrankinfo.com

Les requetes à 2 mots et plus

Les internautes utilisent aujourd'hui de plus en plus de mots lors de leurs requêtes dans les outils de recherche. Le baromètre Adoc de juin 2004 montre ainsi que les requêtes de deux mots ou plus représentent presque la moitié des recherches des internautes. Ce chiffre croit régulièrement, et il donc primordial aujourd'hui de connaître les critères de pertinence de Google sur les recherches à plusieurs mots clés.





Source : baromètre adoc juin 2004

Baromètre Adoc

Hypothèse 4 : Algorithme de Google = modèle linéaire ?

Formulation de l'hypothèse 4 : L'algorithme de Google peut être approximé par un modèle linéaire.

Sedigh et Roudaki (2002) proposent un modèle linéaire afin d’approximer l’algorithme de Google. Le système ainsi construit permet de déterminer avec précision la position d’une page internet qui se situe entre la 2eme et la 87eme position. Cette recherche s’attache à démontrer cette hypothèse et propose d’ordonner ces critères de pertinence par leurs poids respectifs.

Référence :
Papier de Sedigh et Roudaki (2002)

Hypothèse 3 : l'algorithme de Google est fondé sur au plus 20 critères prépondérants

Formulation de l'hypothèse 3 : L’algorithme de Google est basé tout au plus sur une vingtaine de critères prépondérants.

Google admet utiliser plus de 100 facteurs déterminant automatiquement l’ordre d’affichage des résultats de Google. Cependant, la liste de ces critères n’est pas disponible publiquement et aucune recherche ne propose un poids pour chacun de ces facteurs. Il en va donc de la conviction de chaque référenceur de l’importance relative de chacun des critères. En analysant différentes sources énumérant les critères primordiaux de positionnement dans Google, il semble que facteurs déterminants sont identifiés par la communauté des référenceurs. Il est donc légitime de penser que seulement quelques critères ont une influence significative. Cette recherche se propose donc d’identifier ces facteurs et de dresser ainsi une hiérarchie entre chacun d’entre eux.

Hypothèse 2 : le PageRank a une influence minime dans le positionnement

Formulation de l'hypothèse 2 : Le PageRank a une influence minime sur le positionnement des sites Web dans les résultats de Google.

Google met beaucoup en avant son fameux algorithme « PageRank » comme facteur essentiel dans le positionnement d’un site sur une requête donnée. Pourtant, Guigue (2004) montre que le PageRank a une influence minime sur le positionnement et que le contenu reste le facteur prioritaire. Cette recherche tente donc de comparer l’importance du PageRank aux autres critères de positionnement, en accordant une importance particulière au contenu de la page internet.

Le PageRank

PageRank est le nom de l’algorithme utilisé par le moteur de recherche Google, définit par Sergey Brin et Larry Page dans « The anatomy of a large-scale hypertextual web search engine ». Il est basé sur l’hypothèse que l’importance d’une page web peut être jugée par la quantité des liens (internes et externes) et la qualité des liens (PageRank des pages externes, algorithme récursif) pointant vers cette page.

Référence :
Yooda, Impact du page rank sur le positionnement
Actulab, le page rank ne sert à rien

Hypothèse 1 : le référencement d'un site doit se faire en interne

Formulation de l'hypothèse 1 : Il est préférable d'effectuer le référencement d'un site web en interne.

On se pose souvent la question de savoir s’il vaut mieux externaliser le référencement de son site internet. Caron (2004) montre qu’il n’est pas forcément nécessaire de faire appel à un prestataire extérieur et que les référenceurs ne sont pas toujours les intervenants les plus appropriés dans une telle démarche. Cette recherche propose une approximation de l’algorithme de Google par un sytème linéaire et propose un poids de chacun des critères. Une connaissance, même partielle, du codage HTML permet alors d’effectuer le référencement de son site web en interne.

Références :
Annonce de la thèse sur Abondance
La thèse au format PDF

Le projet du blog Google-referencement

Ce blog a pour objectif de trouver une approximation de l'algorithme de Google par un modèle mathématique, supposé dans un premier temps linéaire.

Les phases du projet :

- formulation des hypothèses de travail
- identification des critères de pertinence de l'algorithme de Google
- construction du modèle après tests de positionnement
- obtention d'un classement de pertinence des critères de Google

La recherche en local par Google

Il est possible d'avoir votre propre Google sur votre disque dur depuis quelques semaines. Ca s'appelle Google Desktop et c'est en version Beta pour le moment.

Google Desktop permet d'indexer et de chercher des documents aux formats outlook, AIM, HTML, TXT et formats bureautiques (MS Office).
L'installation est très rapide (400 Ko à télécharger). L'indexation des documents se fait quand votre PC ne travaille pas, et les résultats sont plutôt pertinents.

Un bémol, il n'existe qu'en version anglaise pour le moment.
Au niveau du respect de la vie privée, ce n'est également pas très clair. Voir ici la charte

Si quelqu'un trouve l'algorithme de pertinence dans les sources, qu'il n'hésite pas à nous le signaler :-)


Télécharger Google Desktop

samedi, novembre 06, 2004

L'algorithme de Google cracké ?

L'idée d'un blog Google Référencement a germé après la publication il y a environ 2 ans d'une recherche sur l'algorithme de Google.
En effet, en 2003, deux chercheurs iraniens (en génie électrique!) présentent à la conférence IFAC un papier nommé "Identification of the Dynamics of the Google's Ranking Algorithm". Les chercheurs, Mehdi Roudaki et A. Khaki Sedigh, prétendent avoir trouvé une approximation de l'algorithme de Google par un modèle linéaire.

Le résumé de l'étude (libre traduction de l'article original): Parmi les moteurs de recherche, Google est l'un des plus puissants. Il utilise un algorithme de classement pour ordonner les pages web dans les résultats de recherche. Dans ce papier, il est montré qu'un simple modèle linéaire peut modèliser approximativement le comportement de l'algorithme de Google. La méthode des moindres carrés est utilisée pour identifier le système en question. Les résultats fournis par le modèle sont présentés dans le papier afin de montrer la pertinence du système trouvé.

Après ce papier et une annonce ayant beaucoup fait parlé fin 2002, les 2 chercheurs iraniens se sont montrés très discrets, voir inexistants, sur le web. Peut-être ont-ils trouvé un acheteur pour leur modèle ?

Présentation de l'étude IFAC 2003
La page du projet

Encore un blog sur le referencement ?

Oui, un blog sur le référencement, et plus particulièrement sur Google, le roi des moteurs. Différents articles traitant de Google seront périodiquement diffusés et plus particulièrement :

- sur l'actualité du moteur
- sur l'algorithme du moteur
- sur les meilleures techniques pour être référencé dans Google

L'objectif de ce blog est notamment d'arriver à terme à trouver une approximation mathématique simple de l'algorithme de Google. Les tests et calculs sont en cours. J'espère qu'ils seront publiés un jour sur ce blog "Google Référencement"...
Ce blog appartient à la même famille que Webtransfo.

Stéphane DEGOR

"Webtransfo : mieux transformer sur internet"
"Le blog Google référencement"