Microsoft déploie une IA capable de diagnostiquer comme une équipe médicale

"Pas question de remplacer les professionnels de santé", affirme Microsoft. L’IA MAI-DxO a été conçue comme un outil d’assistance, capable d’appuyer le raisonnement clinique dans les cas les plus délicates. Testée sur 304 dossiers complexes, elle a identifié "le bon diagnostic" dans 85,5 % des cas, contre 20 % pour un groupe de médecins expérimentés.

Un test clinique réaliste, loin des QCM traditionnels

Pour éviter les limites des simples QCM, souvent utilisés dans l’évaluation des IA médicales, les chercheurs ont mis en place un nouveau benchmark baptisé SD Bench (pour "Sequential Diagnosis Benchmark"). L’idée affichée dans la nouvelle étude signée par Microsoft est de simuler "un vrai parcours médical" : l’IA reçoit un premier ensemble de symptômes, peut poser des questions, demander des examens et affiner son raisonnement au fil des nouvelles informations. Chaque action (test, analyse, question ) a un coût virtuel, afin de reproduire les contraintes économiques du monde réel, précise l'entreprise .

Ce test grandeur nature a permis de comparer plusieurs modèles d’IA généralistes (GPT, Claude, Llama, Gemini...) avant de leur adjoindre le MAI-DxO, qui agit comme un coordinateur entre eux. Le modèle qui a obtenu les meilleurs résultats combinait MAI-DxO avec OpenAI o3, démontrant que ce système d’orchestration améliore nettement les performances diagnostiques.

Une IA qui raisonne comme un collectif médical

Ce qui rend MAI-DxO "singulier", selon ses concepteurs, c’est sa capacité à simuler le raisonnement d’une équipe de médecins, et non celui d’un expert unique. L’outil choisit quelles informations explorer, dans quel ordre, et sait revoir ses hypothèses à mesure que de nouveaux éléments cliniques apparaissent. Il peut même évaluer la pertinence d’un test, pour éviter les examens inutiles, expliquent les experts.

L’un des points mis en avant est que cette IA " ne se contente pas d’être performante, elle est plus économe en ressources". Les résultats montrent que ses décisions entraînent moins de dépenses en examens, tout en conservant un taux de précision élevé. À l’heure où près de 20 % du PIB américain est absorbé par la santé, dont une large part jugée gaspillée, ce genre d’outil soulève des perspectives concrètes.

Les médecins impliqués dans la comparaison n’ont pas été placés en situation habituelle de travail. Aucun accès aux collègues, à la littérature médicale ou à d’autres technologies, un choix assumé pour mesurer leur performance brute face à celle du système automatisé.

MAI-DxO n’est pas encore destiné à être déployé à grande échelle. Il devra encore faire ses preuves dans des cas courants, en milieu hospitalier réel, avec les patients et les contraintes du quotidien. Mais Microsoft précise avoir entamé des collaborations avec des acteurs de la santé pour tester l’outil dans un cadre rigoureux, avant d’envisager une généralisation.

Dans sa vision, l’IA ne remplacera pas l’intelligence humaine. Elle pourrait en revanche la compléter, la soulager sur les tâches les plus lourdes, et permettre aux soignants de se concentrer là où l’humain reste irremplaçable.