au sommaire
La communauté scientifique a pour pratique d'évaluer l'importance d'un résultat par l'impact qu'aura sa publication, lequel est lui-même mesuré en comptant le nombre de citations par d'autres articles sur une période donnée: c'est le "facteur d'impact" (ou "impact factor"). La technique de comptage manuel ou automatisé aboutissant à des « indices de citation » n'est pas infaillible. Il a pu arriver que certains « papiers », qui ont marqué la physique par exemple, n'aient eu que peu de citations... Parmi les « perles » égarées : le célèbre « Theory of the Fermi interaction » publié par Feynman et Gell-Mann en 1958, n'avait pas été abondamment cité. Il est pourtant à l'origine d'une nouvelle théorie devenue ensuite le « modèle standard » pour les interactions faibles. Pas moins ! GoogleGoogle vient de permettre de l'exhumer... (1)
Le PageRank à la recherche des papiers perdus…
Pour « déterrer » de tels papiers, des chercheurs de l'université de Boston et du laboratoire Brookhaven proposent une nouvelle technique en utilisant l'algorithme dit de « PageRank » du moteur de recherche. Arrêtons-nous un instant sur ses principes. Le PageRank, ou « PR », inventé par les deux fondateurs du moteur Sergueï Brin et Larry PageLarry Page, et qui est en grande partie à l'origine du succès de Google depuis la fin des années 1990, représente la « popularité » d'un site ou d'un document sur la Toile à travers le nombre et le poids des liens qu'il entretient avec d'autres sites. Google compte ainsi le nombre de liens reçus par une page, et analyse leur « poids », c'est-à-dire l'intérêt de la page de provenance. Cela s'apparente à un « vote » permettant au contenu Web mondial d'élire en quelque sorte les sites et les documents les plus intéressants. Le PR se traduit par un nombre entre 0 et 10, qui permet de classer les sites selon leur pertinence à des requêtesrequêtes par mots-clés.
Mathématiquement, supposons qu'une page A reçoive des liens entrants en provenance des pages T1, T2... Tn et émette des liens sortants vers d'autres pages au nombre de C(A). En tenant compte d'un facteur de pondération d, le PageRank est formulé ainsi (et déterminé par un calcul itératif):
PR(A) = (1-d) + d(PR(T1)/C(T1) + ... + PR(Tn)C(Tn))
Les chercheurs américains ont appliqué cet algorithme à un réseau composé de la totalité des articles de Physical Review et de leurs citations entre 1893 et juin 2003. Ils l'ont représenté comme une matrice de 353 268 « nœuds » (les articles publiés durant la période) et de 3 110 839 « liens » (les citations entre articles de la revue).
Les scientifiques ont trouvé que les résultats obtenus par la technique du PageRank sont linéairement corrélés à ceux de la technique classique des indices de citations. Ainsi les articles les plus souvent cités sont aussi ceux qui ont un PR élevé ! Mais ils sont aussi découvert des « anomaliesanomalies » : certains papiers exceptionnels ont un PR excessif comparé à leur indice de citation. Exemple de quelques « classiques » injustement enfouis dans la littérature : un papier de Wigner et Seitz (« On the constitution of metallic sodium ») paru en 1933, qui est une référence sur l'état solideétat solide ; ou l'article de Glauber en 1963 (« PhotonPhoton correlations ») couronné plus tard par un Prix Nobel de physique...
Avec cette applicationapplication inattendue du plus célèbre des moteurs de recherche, qui décidément ne cesse de surprendre, les chercheurs pourraient disposer d'une palette de techniques plus large et plus sûre pour organiser la littérature scientifique ainsi que la recherche d'informations au sein de la massemasse publiée chaque année.
(1) Physics/0604130, Finding Scientific Gems with Google, P. Chen, H.Xie, S.Maslov, S. Redner