GPT-4 est plus efficace que les humains en diagnostic médical

GPT-4 continue de faire preuve de performances remarquables dans différents domaines. Cette fois, l’IA d’OpenAI démontre son savoir-faire dans le secteur médical. Une étude publiée dans le New England Journal of Medecine met en lumière les compétences avérées de cette technologie en matière de diagnostic médical. Et, le résultat est stupéfiant. GPT-4 surpasse largement les capacités des humains dans ce domaine.

GPT-4 contre l’expertise humaine

Pour évaluer l’efficacité de GPT-4, une équipe de chercheurs danois a sélectionné 38 cas cliniques complexes. Chacun de ces cas s’accompagne de diverses informations concernant le patient : ses symptômes, ses antécédents médicaux ainsi que les résultats de ses examens cliniques.

Les chercheurs ont alors demandé à GPT-4 d’identifier le diagnostic pour chacun des cas en répondant à une question à choix multiple. Pour cela, l’IA doit analyser des informations textuelles relatives à ces cas cliniques. Celles-ci proviennent d’une base de données publiées en ligne au cours de six années, entre 2007 et janvier 2023. Pour chaque cas, GPT-4 a la possibilité de choisir parmi six options différentes.

Les scientifiques danois ont par la suite confronté les résultats fournis par l’IA à celles de 248 614 lecteurs humains de revues médicales. Les chercheurs ont également utilisé les réponses de ces lecteurs pour simuler un groupe de 10 000 participants humains.

Les cas cliniques soumis à l’analyse de GPT-4 représentaient une variété étendue de domaines médicaux. Par ailleurs, ils concernaient des patients de diverses tranches d’âges. Cela illustre la complexité de la tâche qui a été imposée à l’IA.

Une précision exceptionnelle, une haute reproductibilité

#GPT4 correctly diagnosed 57% of complex clinical cases, outperforming 99.98% of simulated human readers.

Full article in the new @NEJM_AI https://t.co/X6ioUKma2p

Via @NEJM–#AI Editor in Chief @zakkohane pic.twitter.com/sGaspCdMRI

— Daniel Kraft, MD (@daniel_kraft) November 9, 2023

Les résultats obtenus sont impressionnants. GPT-4 a correctement diagnostiqué 52,7 % des cas, tandis que les lecteurs de revues médicales en ligne ont correctement diagnostiqué seulement, 36 % des cas. L’IA d’OpenAI surpasse aussi 99,98 % de ces lecteurs humains simulés. Elle est plus compétente que les humains pour diagnostiquer des cas cliniques complexes.

La version mise à jour sortie en mars 2023 de GPT-4 affiche une performance accrue. Elle a réussi à diagnostiquer correctement 57 % des cas, contre 36 % pour les lecteurs de revues médicales. Cette version intègre les données en ligne jusqu’à septembre 2021. Et elle s’est avérée particulièrement performante pour les cas qui sont mis en ligne après cette période. Son taux de réussite grimpe à 75 %.

Afin d’évaluer la fiabilité et la reproductibilité de l’IA, les chercheurs ont de plus présenté chaque cas clinique à GPT-4 à cinq reprises. Dans ces conditions, elle a quand même généré des résultats cohérents.

Un outil prometteur, avec des défis à relever

Les chercheurs ont annoncé que l’étude présentait des limites. Par exemple, ils n’ont pas été en mesure de vérifier les compétences médicales des lecteurs. Par ailleurs, les cas cliniques étudiés pourraient ne pas représenter la diversité des situations auxquelles les médecins sont confrontés.

Néanmoins, ils ont affirmé que GPT-4 surpassait toujours et de loin la capacité des humains dans la réalisation de diagnostic médical, même en tenant compte de ces limites. Ainsi, cet outil se positionne comme un précieux soutien au service des médecins.

Les chercheurs ont également insisté sur la nécessité des considérations ethniques. Et ils ont mis l’accent sur la nécessité d’effectuer des études cliniques préliminaires avant de déployer toute technologie future.

Partager l'article :