GPT-4 ADA génère une fausse base de données médicales

La dernière version de ChatGPT surprend par sa capacité à générer et à traiter des types de textes spécifiques. L'intégration récente de l'ADA (Advanced Data Analysis) à l'IA améliore encore plus ses capacités. GPT-4 ADA permet une accélération considérable de la recherche scientifique. Toutefois, une étude faite par des experts a démontré que cette IA génère des données analytiques factices pour soutenir une hypothèse médicale.

GPT-4 ADA évalue à tort l'efficacité de deux interventions chirurgicales

Grâce à ADA, GPT-4 peut exécuter du code Python pour réaliser des traitements de données scientifiques ou graphiques. Afin de tester l'efficacité de cette IA, des chercheurs aux universités de Cagliari et de Magna Græcia de Catanzaro en Italie l'ont utilisée pour comparer deux interventions chirurgicales dans le cadre du traitement du kératocône. Il s'agit d'une pathologie oculaire qui se caractérise par une déformation progressive de la cornée. Elle entraîne chez le patient une vision floue.

Pour 15 à 20 % des personnes qui souffrent de cette maladie, le traitement nécessite une intervention chirurgicale. Les patients peuvent alors subir une greffe de cornée. Celle-ci peut être réalisée selon deux procédures distinctes. Les praticiens peuvent effectuer soit une kératoplastie pénétrante ou PK, soit une kératoplastie lamellaire antérieure profonde ou DALK (KLAP en français).

La première procédure consiste à retirer toutes les couches endommagées de la cornée et à les remplacer par du tissu sain provenant d'un donneur. La DALK quant à elle est une procédure plus sélective. Seule la partie antérieure de la corne est remplacée.

Les chercheurs ont incité GPT-4 ADA d'étayer l'hypothèse selon laquelle la DALK se révèle plus efficace que la PK. L'IA a alors généré des données qui comprenaient 300 patients dont 160 hommes et 140 femmes. Elle indique que ceux ayant bénéficié d'une DALK ont obtenu de meilleurs résultats tant au niveau de leur acuité visuelle que du test d'imagerie. Cependant, ces conclusions sont à l'encontre des résultats des véritables essais cliniques. C'est ce que révèle un rapport qui date de 2010, basée sur l'examen de 77 patients. D'après cette étude, les résultats obtenus avec la DALK étaient similaires à ceux de la PK jusqu'à deux ans après l'intervention chirurgicale. Le détail des résultats de cette recherche est publié dans la revue JAMA Ophtalmology.

La nécessité d'une mise à jour des outils de contrôle de qualité

La capacité de l'IA à générer des données apparemment authentiques et convaincantes, mais qui sont, en réalité, fausses, suscitent des inquiétudes chez les chercheurs et les éditeurs de revues. Les résultats de cette étude remettent en doute l'intégrité de la recherche.

Afin de mieux comprendre ce jeu de données falsifié, un autre groupe de chercheurs a effectué un examen minutieux. Ceci leur a permis de relever de nombreuses incohérences. Par exemple, il y a un manque de cohérence dans l'attribution du genre des participants par l'IA. Elle a contribué à tort un sexe féminin à des personnes ayant des noms masculins ou inversement. Par ailleurs, les experts n'ont observé aucune corrélation entre les mesures de la capacité visuelle et le test d'imagerie oculaire des patients avant et après l'opération.

Il est donc possible de détecter les erreurs générées par l'IA en effectuant un examen minutieux de données générées. Toutefois, « Si l'on regarde rapidement l'ensemble de données, il est difficile de reconnaître l'origine non humaine de la source de données », a déclaré Giuseppe Giannaccare, le co-auteur de l'étude. Il sera alors nécessaire que les revues revoient et mettent à jour leurs protocoles de contrôle de qualité. C'est crucial pour détecter les données factices générées par l'IA.