¿Es verdad que Microsoft logró la mayor inteligencia médica del mundo? De acuerdo con un nuevo reporte de la compañía es verdad y para validarlo presentó los resultados de un estudio. Lo más relevante es que afirma que su nuevo modelo de inteligencia artificial (IA) es hasta 4 veces más preciso que los humanos.
El desarrollo de la tecnología nunca se detiene e incluso durante los últimos años se han logrado algunos de los inventos más sorprendentes de la historia. Más allá de ámbitos como el entretenimiento, lo valioso es cuando los esfuerzos se dirigen hacia un campo de enorme trascendencia como la salud.
También lee: Inteligencia Artificial aplicada en Medicina: ¿Cuáles son sus beneficios y desafíos?
Microsoft sorprende con su nuevo modelo de inteligencia médica
El nuevo modelo de IA llamado Microsoft AI Diagnostic Orchestrator (MAI-DxO) ha sorprendido por su capacidad para diagnosticar hasta los casos más complejos. Mediante una prueba se utilizó para leer situaciones reales publicadas en el New England Journal of Medicine.
Como resultado de lo anterior tuvo una precisión del 85% para obtener un diagnóstico correcto. Además su respuesta fue mucho más rápida que la que se obtiene con médicos humanos.
¿Qué casos clínicos se analizaron?
Cada semana, el NEJM, una de las revistas médicas más importantes del mundo, publica un registro de casos del Hospital General de Massachusetts, que presenta la experiencia de atención de un paciente en un formato narrativo y detallado.
Estos casos se encuentran entre los más complejos desde el punto de vista diagnóstico y los más exigentes intelectualmente en la medicina clínica, y a menudo requieren la intervención de múltiples especialistas y pruebas diagnósticas para llegar a un diagnóstico definitivo.
¿Cómo fue entrenada la nueva inteligencia médica de Microsoft?
Para responder a esta pregunta, en Microsoft fueron creados desafíos interactivos de casos basados en los publicados en NEJM, lo que se llama Punto de Referencia de Diagnóstico Secuencial (Punto de Referencia SD).
Este punto de referencia transforma 304 casos recientes del NEJM en consultas diagnósticas graduales donde los modelos, o médicos, pueden formular preguntas y solicitar pruebas de forma iterativa.
A medida que se dispone de nueva información, el modelo o el clínico actualiza su razonamiento, reduciéndolo gradualmente hacia un diagnóstico final. Este diagnóstico puede compararse con el resultado de referencia publicado en el NEJM.
También lee: ¿Cómo funciona la Inteligencia Artificial generativa aplicada en Medicina?
Desarrollo de tecnología médica
A medida que la demanda de atención médica continúa creciendo, los costos aumentan a un ritmo insostenible y miles de millones de personas enfrentan múltiples obstáculos para una mejor salud, incluyendo diagnósticos imprecisos y tardíos. Cada vez más las personas recurren a herramientas digitales para obtener asesoramiento y apoyo médico.
En los productos de consumo de IA de Microsoft, como Bing y Copilot, hay más de 50 millones de consultas relacionadas con la salud cada día. Con esto en mente, a finales del 2024 se lanzó una iniciativa dedicada al bienestar de las personas, liderada por médicos, diseñadores, ingenieros y científicos.
Entre las soluciones existentes se incluyen RAD-DINO que ayuda a acelerar y mejorar los flujos de trabajo de radiología, y Microsoft Dragon Copilot, el pionero asistente de IA basado en la voz para médicos.
Desafíos y puntos de referencia de los casos médicos
Para ejercer la profesión de Medicina en Estados Unidos es necesario aprobar el Examen de Licencia Médica de Estados Unidos (USMLE). Consiste en una evaluación rigurosa y estandarizada de conocimientos clínicos y toma de decisiones.
Las preguntas del USMLE se encuentran entre los primeros criterios utilizados para evaluar los sistemas de IA en medicina. Ofrecen una forma estructurada de comparar el rendimiento de los modelos, tanto entre sí como con el de los profesionales clínicos.
En tan sólo tres años la IA generativa ha avanzado hasta alcanzar puntuaciones casi perfectas en el USMLE y exámenes similares. Sin embargo, estas pruebas se basan principalmente en preguntas de opción múltiple, que priorizan la memorización sobre la comprensión profunda.