free page rank lookup  
 
 

Calcul page rank

Tout sur calcul page rank
 

Le PageRank ou PR est l'algorithme d'analyse des liens concourant au système de classement des pages Web utilisé par le moteur de recherche Google pour déterminer l'ordre dans les résultats de recherche qu'il fournit. De nos jours le PageRank ne fournit qu'un indice parmi tant d'autres dans l'algorithme qui permet de classer les pages du Web dans les résultats de recherche de Google. Ce système a été inventé par Larry Page, cofondateur de Google. Ce mot est une marque déposée.

Fonctionnement

Le principe de base est d'attribuer à chaque page une valeur (ou score) proportionnelle au nombre de fois que passerait par cette page un utilisateur parcourant le graphe du Web en cliquant aléatoirement, sur un des liens apparaissant sur chaque page. Ainsi, une page a un PageRank d'autant plus important qu'est grande la somme des PageRanks des pages qui pointent vers elle (elle comprise, s'il y a des liens internes).

Plus formellement, le déplacement de l'utilisateur est une marche aléatoire sur le graphe du Web, c'est-à-dire le graphe orienté dont les sommets représentent les pages du Web et les arcs les hyperliens. En supposant que l'utilisateur choisisse chaque lien indépendamment des pages précédemment visitées (le réalisme d'une telle hypothèse pouvant être discuté), il s'agit d'un processus de Markov. Le PageRank est alors simplement la probabilité stationnaire d'une chaîne de Markov, c'est-à-dire un vecteur de Perron-Frobenius de la matrice d'adjacence du graphe du Web[1],[2]. La taille (gigantesque) de ce graphe et son évolution dynamique (modifications de pages et hyperliens, connexion ou déconnexion de serveurs Web…) rendent cependant impossible un calcul direct de ce vecteur propre : des algorithmes d'approximation sont utilisés.

De nombreuses corrections et améliorations ont été apportées à cet algorithme, certaines étant décrites dans le brevet déposé le 17 avril 2007[3], d'autres ne restant connues que de Google. En particulier, il est important de garantir que des modifications trop locales du graphe du Web n'entraînent pas d'augmentation disproportionnée du PageRank de certaines pages, ceci afin d'éviter que des utilisateurs (par exemple des sites commerciaux) ne "boostent" artificiellement leur PageRank. Par exemple, dans l'algorithme de base décrit ci-dessus, ajouter de nombreux liens internes sur une page Web (ce qui est très simple à faire pour un particulier) permet d'augmenter son PageRank (cette stratégie ne marche pas avec le PageRank actuel de Google).

Les internautes peuvent obtenir une approximation du classement de chaque page en consultant la zone PageRank de la Google Toolbar, qui indique sa valeur sur une échelle de 0 à 10 (Échelle logarithmique). Il existe aussi de nombreux outils pour l'obtenir sans afficher la toolbar. L'affichage de ce "Pagerank" a été abandonné par Google en 2009 il est remplacé par le "Trustrank".

La course aux liens

Les référenceurs et les webmestres créent quelquefois massivement des liens retour, par échanges de liens ou en inscrivant un site sur une quantité d'annuaires. Google avait autrefois une vision quantitative de la popularité d'une page, cette technique permettait donc de gonfler artificiellement son indice de popularité. Mais Google a réagi : d'une part en instaurant des filtres, tels que la Sandbox. Il détecte et sanctionne les campagnes massives de liens artificiels ; par ailleurs il intègre des critères qualitatifs à l'analyse des liens (sémantique, confiance : indice TrustRank, comportement des utilisateurs).

Futur PageRank

Beaucoup d'outils proposent de calculer le futur classement d'une page après le prochain passage du googlebot. Ces outils ne sont pas fiables car ils se basent uniquement sur la valeur RK du checksum de Google. L'utilité de cette donnée n'est connue que de Google et n'a rien à voir avec un futur Page Rank.

PageRank par Google:

PageRank est un champion de la démocratie : il profite des innombrables liens du Web pour évaluer le contenu des pages Web -- et leur pertinence vis-à-vis des requêtes exprimées. Le principe de PageRank est simple : tout lien pointant de la page A à la page B est considéré comme un vote de la page A en faveur de la page B. Toutefois, Google ne limite pas son évaluation au nombre de « votes » (liens) reçus par la page ; il procède également à une analyse de la page qui contient le lien. Les liens présents dans des pages jugées importantes par Google ont plus de « poids », et contribuent ainsi à « élire » d'autres pages.

Les sites qui se distinguent par leur qualité sont affectés d'une valeur PageRank plus élevée, et Google en tient compte lors de chaque recherche. Bien entendu, les pages jugées « importantes » par Google vont vous laisser indifférent si elles ne répondent pas à vos requêtes... Aussi, pour retrouver les pages qui correspondent au mieux à votre requête, Google complète l'évaluation PageRank par des mécanismes évolués de correspondance de texte. Google ne se contente pas de compter le nombre d'occurrences d'un terme de recherche dans une page : il examine différents aspects du contenu de cette page (et du contenu des pages liées à celle-ci) afin de déterminer si elle correspond à votre requête.