La intelligence artificielle (IA) transforme l'étude des textes anciens, du déchiffrement des inscriptions inaccessibles depuis 2 000 ans à la décodification des hiéroglyphes inconnus.
L'examen des textes anciens a longtemps été une tâche méticuleuse réservée aux spécialistes en paléographie, linguistique et histoire. Cependant, l'IA révolutionne ce domaine grâce à sa capacité à traiter d'énormes quantités de données et à apprendre des motifs complexes.
Un article récent dans Nature discute de la façon dont certains modèles d'IA mènent cette révolution, réalisant des avancées sans précédent dans l'interprétation des textes anciens et devenant des outils d'impact dans les études historiques.
Bien que les technologies computationnelles pour l'analyse de texte ne soient pas nouvelles, la reconnaissance optique de caractères (OCR) traditionnelle a rencontré d'importantes limitations avec les textes anciens en raison de l'écriture irrégulière, de l'usure des matériaux et des contextes linguistiques uniques.
Le tournant est survenu avec l'apprentissage automatique, une branche de l'IA permettant aux algorithmes d'apprendre à partir des données plutôt que de suivre des règles prédéfinies. Cette méthode entraîne des systèmes avec de grands volumes de données, leur permettant d'identifier des motifs et de faire des prédictions. Pourtant, même cette approche avait des difficultés avec des textes fragmentés ou des langues qui ne sont plus parlées.
L'apprentissage profond a considérablement élargi les possibilités. Cette technique utilise des réseaux neuronaux artificiels inspirés du cerveau humain, analysant les données avec une complexité sans précédent. Dans le domaine des textes anciens, les réseaux neuronaux reconnaissent non seulement les lettres et les mots, mais apprennent également les contextes linguistiques et culturels, améliorant ainsi la précision et la polyvalence.
Un exemple est le modèle Pythia, développé pour interpréter les inscriptions en grec ancien. Pythia a été formée sur plus de 35 000 inscriptions grecques transcrites, lui permettant d'apprendre les motifs d'écriture et les structures linguistiques.
L'IA appliquée aux textes historiques combine plusieurs technologies clés, aboutissant à un outil complet et efficace pour les interprétations difficiles.
Les technologies avancées de reconnaissance optique et de vision par ordinateur ont surmonté les limitations des systèmes OCR traditionnels. Ces outils analysent les caractéristiques physiques des textes, telles que le type d'encre, les coups de pinceau ou les marques d'usure, ce qui est crucial pour interpréter des documents endommagés ou des inscriptions sur des matériaux irréguliers comme la pierre ou la céramique.
Les modèles génératifs et les réseaux antagonistes génératifs (GANs) utilisent deux réseaux neuronaux travaillant ensemble : l'un génère des hypothèses (par exemple, des mots ou lettres manquants), tandis que l'autre évalue leur qualité. Ces outils sont particulièrement utiles pour reconstruire des textes incomplets en proposant plusieurs solutions basées sur des contextes historiques et linguistiques.
Les modèles de traitement du langage naturel (NLP) sont également essentiels pour les textes anciens. Ils identifient les mots et analysent les significations des phrases et leur contexte culturel, aidant à traduire des langues éteintes ou peu documentées, telles que le phénicien et le linéaire A.
La combinaison de ces technologies a un impact profond sur l'archéologie et l'histoire, en particulier dans la restauration des manuscrits endommagés. Des documents auparavant illisibles en raison de leur détérioration, comme un manuscrit romain brûlé inaccessible depuis 2 000 ans, peuvent désormais être analysés par l'IA, qui détecte de faibles traces d'encre et propose des reconstructions complètes.
De plus, l'IA permet la décodification des langues mortes directement à partir de textes inconnus, identifiant des motifs grammaticaux et syntaxiques sans traductions préalables.
Pour les inscriptions fragmentées trouvées sur des sites archéologiques, les algorithmes peuvent reconstruire des mots manquants avec une précision sans précédent, révélant des connexions historiques inattendues entre des cultures apparemment isolées. En analysant de grands ensembles de données, les algorithmes ont identifié des similitudes surprenantes entre des textes de différentes civilisations, suggérant une plus grande interconnexion que ce que l'on pensait auparavant.