L’anonymat sur Internet semble de plus en plus fragile. Une étude menée par des chercheurs de l’ETH Zurich, avec la participation d’une startup spécialisée en intelligence artificielle et d’un laboratoire de recherche, montre que les modèles de langage avancés peuvent retrouver l’identité d’utilisateurs cachés derrière un pseudonyme. En analysant uniquement des publications publiques, ces systèmes parviennent à relier des comptes anonymes à des personnes réelles. Dans certains cas, dix commentaires suffisent pour remonter jusqu’à l’auteur.
Comment l’IA parvient à révéler l’identité derrière un pseudonyme
Le système développé par les chercheurs fonctionne de manière entièrement automatisée. L’agent d’intelligence artificielle analyse les messages publiés par un utilisateur anonyme et en extrait différents indices d’identité.
Ces indices peuvent inclure des mentions de villes, de métiers, de centres d’intérêt, mais aussi des éléments plus subtils comme le style d’écriture, les expressions locales ou l’utilisation d’un argot régional. Toutes ces informations sont ensuite rassemblées pour construire un profil structuré.
Une fois ce profil établi, l’algorithme parcourt Internet afin de trouver des personnes correspondant à ces caractéristiques. Pour cela, il utilise des techniques d’analyse sémantique qui lui permettent de comparer les données et d’identifier les profils les plus proches.
Dans les faits, ce système agit comme un détective numérique capable d’examiner simultanément des milliers de profils. Contrairement à un enquêteur humain, il peut fonctionner en continu et traiter d’immenses volumes de données en quelques minutes.
Des résultats très élevés lors des tests
Les chercheurs ont testé leur méthode sur des données réelles. Dans un premier scénario, ils ont étudié des comptes pouvant être associés à des profils présents sur la plateforme professionnelle LinkedIn.
Le résultat est particulièrement frappant. L’intelligence artificielle a identifié correctement 67 % des personnes ciblées, avec une précision de 90 %.
Un second test a été mené sur la plateforme Reddit. Dans ce cas, l’algorithme n’avait accès qu’à dix commentaires publiés dans des discussions sur des films. Malgré cette quantité limitée d’informations, il a réussi à identifier les auteurs dans 48 % des cas.
Ces performances contrastent fortement avec les méthodes traditionnelles de dé-anonymisation. Les chercheurs rappellent notamment l’attaque célèbre menée contre le concours Netflix Prize, lors de laquelle des scientifiques avaient réussi à identifier certains utilisateurs grâce à leurs notes de films. Dans des conditions similaires, ces approches classiques obtiennent généralement des résultats proches de zéro.
La baisse spectaculaire du coût de la surveillance massive
La principale inquiétude soulevée par l’étude ne concerne pas seulement la technologie elle-même, mais son coût extrêmement faible.
Selon les chercheurs, identifier une personne avec cet algorithme coûte entre 1 et 4 dollars. L’ensemble des expériences menées dans le cadre de l’étude a coûté moins de 2 000 dollars.
Cette réduction drastique des coûts change profondément la situation. La dé-anonymisation massive devient accessible à presque n’importe qui disposant d’un accès aux outils d’intelligence artificielle et d’un moyen de paiement.
Des entreprises pourraient s’en servir pour améliorer le profilage des utilisateurs, tandis que des individus malveillants pourraient l’exploiter pour surveiller, traquer ou harceler des internautes.
Pendant longtemps, la confidentialité en ligne reposait en grande partie sur un principe simple : le coût et le temps nécessaires pour identifier quelqu’un étaient trop élevés pour être rentables. Peu de personnes étaient prêtes à passer des semaines à enquêter pour découvrir l’identité d’un simple commentateur.
Avec les modèles d’IA modernes, cette barrière disparaît.
Les personnes les plus exposées sont celles pour qui l’anonymat constitue une question de sécurité, notamment les militants, les dissidents politiques, les lanceurs d’alerte ou encore les victimes de violences domestiques.
Un autre test réalisé par les chercheurs illustre ce risque. L’algorithme a réussi à identifier 9 scientifiques sur 125 dans un ensemble d’interviews anonymisées. Pour y parvenir, il s’est appuyé uniquement sur les descriptions de leurs projets de recherche.
Quelles solutions pour protéger son anonymat sur Internet
Les auteurs de l’étude proposent plusieurs pistes pour limiter les risques. Parmi les mesures envisagées figurent la restriction de l’accès aux données via les API, le blocage de la collecte automatisée d’informations ou encore la limitation de l’export massif de bases de données.
Ces mesures peuvent ralentir les tentatives de dé-anonymisation ou en augmenter le coût, mais elles ne suffisent pas à les empêcher totalement.
La méthode la plus fiable reste une forme de sobriété numérique. Les chercheurs recommandent de publier moins d’informations personnelles et de séparer strictement ses identités en ligne.
Concrètement, cela signifie utiliser des comptes distincts pour différents usages, éviter de relier plusieurs plateformes entre elles et modifier volontairement son style d’écriture afin de réduire les traces identifiables.
Cette évolution met en lumière une réalité souvent ignorée. Chaque commentaire, chaque note ou chaque message publié sur Internet laisse une empreinte numérique. L’intelligence artificielle ne fait qu’exploiter ces traces avec une efficacité inédite, rendant l’anonymat en ligne beaucoup plus difficile à préserver.
