Une équipe de scientifiques de Google DeepMind a développé un outil qui ajoute des marques d'eau aux textes générés par des modèles de langage de grande taille (LLMs), améliorant ainsi la capacité à identifier et suivre le contenu créé par l'IA.
Les LLMs sont largement utilisés dans des applications comme les chatbots et l'assistance à l'écriture, mais identifier la source des textes générés par l'IA reste un défi, soulevant des préoccupations quant à la fiabilité de l'information.
Bien que le marquage soit courant dans les images et les vidéos, son application au texte est complexe, car toute altération peut changer le sens et la qualité. Le nouvel outil SynthID-Text utilise un algorithme d'échantillonnage novateur pour biaiser subtilement le choix des mots, intégrant une signature reconnaissable par les logiciels de détection associés.
Dans une étude publiée dans la revue Nature, les chercheurs Sumanth Dathathri et Pushmeet Kohli ont rapporté que SynthID-Text montrait une efficacité améliorée par rapport aux méthodes existantes. Il nécessite peu de puissance de calcul supplémentaire, facilitant ainsi sa mise en œuvre.
La capacité d'identifier le texte synthétique peut aider à atténuer les abus accidentels ou délibérés. Les auteurs soulignent que SynthID-Text préserve la qualité du texte tout en permettant une haute précision de détection, présentant une solution techniquement robuste pour identifier les textes générés par l'IA.
Les experts soulignent la nécessité de telles technologies, car les systèmes actuels pour détecter les documents générés par l'IA ont de faibles taux de précision. Cependant, l'adoption généralisée fait face à des défis, notamment parce que les marques d'eau peuvent être vulnérables aux modifications qui réduisent leur détectabilité.