Big Brother et les fichiers log

Tech

Moteur de recherche

actualité

• 6 Min

Cela vous intéressera aussi

Début août, une équipe d'AOL Research a mis en ligne, avant de le retirer promptement, un document contenant des millions de données sur les recherches effectuées par ses utilisateurs américains (concernant quelques 658 000 internautes ayant effectué quelques 20 millions de requêtes sur les mois de mars, avril et mai 2006). Téléchargé plusieurs centaines de fois, le fichier a été depuis livré en pâture sur l'internet (il existe même plusieurs moteurs de recherche spécifiques permettant de mener des requêtes sur ces données, notamment AOL Search Database, Datablunder ou Frogspy…).

au sommaire

À lire aussi

Big Brother et les fichiers log

Exemple du fichier divulgué par AOL

Le fichier a déjà été exploité par de nombreux chercheurs et blogueurs (comme BioloGeek), et a livré des premiers résultats généraux assez intéressants, indique SearchNewz :

45 % des clics se font sur le premier résultat de recherche, le second ne totalisant déjà plus que 13 % des clics et ainsi de suite ;
Un fort pourcentage de requête ne porteporte pas sur un sujet, mais sur un nom de domaine ;
Le nombre de requête incomplètes ou mal orthographiées est très important ;
28 % des requêtes sont une reformulation à la suite d'une première recherche infructueuse. En moyenne, les utilisateurs reformulent 2,6 fois leurs requêtes pour accéder à un meilleur résultat...

Pourtant l'essentiel n'était pas dans les résultats généraux.

Avant publication, le fichier avait été rendu anonyme : le nom des abonnés n'était pas visible et avait été remplacé par des numéros d'identification. Une anonymisation qui n'a pas servi à grand-chose : la liste des recherches associées à chaque identifiant a permis à de nombreux pisteurs de retrouver la trace d'internautes, d'identifier leurs numéros de sécurité sociale, leurs adresses parfois, jusqu'à leurs noms pour certains. En observant la seule liste des requêtes quotidiennes, sur plusieurs mois, il n'est souvent pas difficile de comprendre les préoccupations de l'internaute, d'imaginer son intimité, voire de retrouver son identité.

Les journalistes du New York Times sont par exemple parvenus à identifier l'utilisateur "4417749″, une veuve de 62 ans, grâce à la liste de ses requêtes (par exemple : "chienchien qui fait pipi partout", "taxe foncière de Harrisburg, Virginie", "solitude", "Paranoïa", "Thé pour une bonne santé", etc.). Le grand jeu de l'été a ainsi consisté à pister les requêtes les plus étranges, faisant apparaître un formidable "tableau des intentions cachées", comme le soulignent GoogleGoogle Blogoscoped et Chryde. Le Guardian évoque ainsi cet homme, qui a une passion pour le football portugais et vit dans une ville de Floride. Visiblement, il apprend que sa femme a une relation extraconjugale et les requêtes qu'il effectue sur son moteur décrivent l'évolution de sa relation : "Ma femme ne m'aime plus". Il cherche à "interrompre son divorce" puis à prendre une "revanche sur sa femme" avant de regarder les propres symptômessymptômes de son malaise : "manque d'alcoolalcool", "symptômes du manque d'alcool" (à 10 heures du matin) et "problème d'érection". Le 1er avril, il chercha un médium local pour lui "prédire son futur".

Autre exemple frappant ? L'utilisatrice 11110859 à New York qui, le 7 mars, a recherché des "fringues hip-hop". Le 26, elle a cherché "perdre sa virginité" avant de s'interroger pendant plusieurs semaine pour savoir si on "pouvait tomber enceinte même après avoir eu ses règles". Quelques temps plus tard, elle s'interroge à nouveau "pourquoi les gens font-ils mal aux autres ?" Le 19 mai, elle demande : "Comment aimer quelqu'un qui vous maltraite ?", "Que dit Jésus à propos d'aimer ses ennemis ?" Ensuite, elle demandera encore "la direction de la prison de New York" avant de demander au moteur "quels objets a-t-on le droit d'y apporter ?"

On pourrait rapporter beaucoup d'autres histoires sur ces requêtes mises bout à bout. Un site, AOL Psycho, invite même les internautes à décrire collectivement les profils pour repérer les cas les plus "intéressants", les plus emblématiques ou les plus dangereux, c'est selon. Ces tentatives de retracer des parcours individuels font froid dans le dosdos. Bien sûr, pour quelques séquences de recherche éclairantes, la plupart des autres s'avèreront sans doute impossibles à interprêter. Mais le "17556639″ voulait-il vraiment "tuer sa femme", comme il l'a formulé à plusieurs reprises ?

Si quelques chercheurs ont exprimé des réserves éthiques a utiliser un tel fichier, comme l'indique l'International Herald Tribune, d'autres se sont félicités de disposer d'une telle ressource, qui est rarement accessible au commun des chercheurs. Reste que le scandale AOL pose de nombreuses questions laissées sans réponses et notamment sur le rôle et la fonction de l'anonymisation. Car on ne rend pas des données anonymes en masquant seulement le nom de leur utilisateur, comme semblaient le croire certains chercheurs d'AOL.

Les traces de nos requêtes que gardent les moteurs ne sont pas innocentes. Bien sûr, pour les moteurs, ces données servent à fournir des résultats plus pertinents, à personnaliser nos résultats de recherche en fonction de nos habitudes pour nous fournir un meilleur service. Sont-ce des raisons suffisantes pour qu'ils conservent indéfiniment des informations aussi sensibles ?

"Où est le pouvoir totalitaire ?", s'interroge le Guardian, avant de répondre : le vrai pouvoir totalitaire ne repose peut-être pas tant sur la censure, que sur le fait de laisser les citoyens dire et chercher ce qu'ils veulent - et le garder en mémoire.

Il s'agit pourtant d'une question récurrente, à laquelle les réponses apportées ne sont jamais satisfaisantes. Quelle est la valeur réelle, dans le temps, des traces de connexion et de recherche ? Augmente-t-elle avec le temps et les progrès technologiques ? Comment anonymiser les données à l'origine ? Peut-on préserver leur valeur marchande tout en respectant l'intimité de chacun ? Ou se situe l'équilibre ? Faut-il adopter une mesure radicale comme celle que prône Jason Calcanis de Weblogs Inc., récemment rachetée par AOL, à savoir de ne plus garder aucune trace des requêtes effectuées ? Faut-il créer une autorité indépendante qui vérifie la destruction régulière de ce type de données, comme le suggère Bruno Giussani ? L'EFF (Electronic Frontier Foundation) appelle à une politique claire de conservation des données ; "AOL pourrait rendre un grand service à la communauté en ligne en s'engageant à supprimer définitivement les données de requêtes et en poussant les autres entreprises à faire de même", affirme pour sa part Marc Rotenberg, directeur de l'Epic (Electronic Privacy Information Center).

Certes, Google par exemple affirme régulièrement que les données collectées ne seront divulguées nulle part, et qu'en aucun cas les gouvernements (même celui des États-Unis) n'obtiendraient leurs fichiers. Mais comme l'expliquent de nombreuses associations, le mieux serait peut-être que ces données n'existent pas.

Certes, des techniques qui nous permettent d'anonymiser nos données à la source (outils, moteurs "propres", navigateurs) refont surface depuis l'incident AOL, dont certaines sont extrêmement simples. Mais les internautes ne changeront pas si facilement leurs habitudes, et l'on serait en droit d'attendre que les entreprises aillent au-devant de ces attentes. "Les moteurs de recherche doivent comprendre qu'ils disposent d'informations très sensibles, même si cela n'implique pas forcément des données personnellement identifiables", rappelle Ari Schwartz, vice-président du Center for Democracy and Technology.

Assurément, le log - c'est-à-dire, le journal des connexions au serveur -, qui permet d'identifier l'internaute et de tracer l'historique de ses actions, est appelé a prendre de plus en plus d'importance, à mesure que nous utilisons l'internetinternet pour accomplir de plus en plus de choses de la vie de tous les jours. Cette donnée a toujours été capitale pour tous les acteurs de l'internet. Mais il est peut-être temps en tout cas de s'interroger sur son sens, son risque, sa valeur, sa pérennité et sa volatilitévolatilité. Si les gouvernements européens font aux fournisseurs d'accès obligation de conserver les données de connexion - mais pas les contenus des communications -, reste que les contenus de ces données doivent être éclaircies. Car une chose est sûre : si ces données existent, tôt ou tard, quelqu'un en abusera.

En attendant, manifestement, les moteurs de recherche continuent de jouer aux apprentis sorciers avec nos données.