Chaque fois qu'une ordonnance est honorée ou qu'un test de laboratoire est facturé, une nouvelle ligne s'ajoute au registre colossal des demandes de remboursement médical. Longtemps considérées comme de simples bruits administratifs, ces données, initialement créées pour la facturation plutôt que pour la recherche, font désormais l'objet d'une attention scientifique majeure. Un nouveau modèle de base, entraîné directement sur les séquences de ces réclamations, parvient à extraire des schémas capables de prévoir l'apparition de maladies et de simuler les résultats d'essais cliniques avec une précision remarquable.
Ce modèle traite l'historique de chaque patient comme une suite temporelle de codes standardisés, englobant les diagnostics, les procédures, les médicaments et les types de visites, à la manière dont les modèles de langage traitent les phrases. En analysant les relations statistiques à travers des millions de trajectoires individuelles, l'outil identifie des signaux précurseurs de pathologies graves. Des conditions telles que l'insuffisance cardiaque, l'insuffisance rénale chronique ou certains types de cancers peuvent ainsi être détectées parfois plusieurs années avant leur manifestation clinique.
L'un des atouts majeurs de cette approche réside dans l'utilisation de données de facturation déjà normalisées et collectées à l'échelle de la population. Cela permet de contourner la fragmentation et les obstacles liés à la protection de la vie privée qui freinent souvent l'exploitation des dossiers de santé électroniques bruts. Les premiers résultats suggèrent également que le modèle peut simuler l'évolution de l'état de santé selon différents parcours de soins. Cette capacité d'émulation d'essais cliniques offre une alternative précieuse aux études traditionnelles, souvent lentes, coûteuses et peu représentatives de la réalité des patients souffrant de comorbidités multiples.
Toutefois, les chercheurs appellent à la prudence. Bien que l'émulation observationnelle à partir des réclamations puisse fournir des estimations d'effet rapidement, elle reste limitée par des facteurs de confusion non observés et par les choix de codage dictés par la facturation. En outre, ces données ne reflètent pas seulement la biologie, mais aussi l'accès aux soins et les incitations financières. Les modèles entraînés sur ces bases risquent d'amplifier les disparités existantes, car les populations ayant un historique d'assurance fragmenté ou un accès limité aux soins pourraient être systématiquement sous-évaluées ou, au contraire, signalées à tort.
Pour illustrer la nature de ces données, on peut comparer un journal intime à un relevé de compte bancaire. Si le journal décrit les sentiments, le relevé indique précisément ce qui a été payé et quand. Les schémas identifiés dans le registre de facturation, comme des visites répétées chez des spécialistes suivies de prescriptions spécifiques ou des hospitalisations d'urgence après des procédures de routine, révèlent des trajectoires que les récits cliniques pourraient omettre. Si les développeurs pharmaceutiques y voient une voie vers une surveillance post-marché accélérée, les régulateurs doivent encore déterminer la fiabilité de ces preuves pour l'étiquetage des produits.
La question de la surveillance et du consentement reste centrale, car ces informations sont collectées en dehors des cadres habituels de la recherche médicale. L'efficacité du modèle varie selon les pathologies et les données démographiques, et sa validation externe demeure limitée. En fin de compte, l'enjeu décisif n'est pas seulement la faisabilité technique de ces prédictions. Il s'agit de savoir si les institutions utiliseront ces outils pour élargir l'accès aux soins préventifs ou pour optimiser la gestion des ressources et des risques au détriment de l'autonomie individuelle des patients.



