La empresa OpenAI, creadora de ChatGPT, presentó su nuevo proyecto llamado HealthBench para utilizar la inteligencia artificial (IA) en la atención médica. Uno de los principales objetivos es evaluar la forma en que los modelos tecnológicos responden a preguntas e interactúan en escenarios reales.
Cada vez es más frecuente utilizar plataformas de IA para resolver cualquier tipo de duda. Uno de los mayores inconvenientes es que dentro del campo médico la información que proporciona no es precisa y muchas veces contiene errores.
¿Cómo funciona HealthBench?
En primer lugar, se trata de un conjunto de datos de código abierto y un marco de evaluación que funciona para medir el rendimiento y la seguridad de los modelos de lenguaje grande (LLM) en el contexto de la salud.
Con respecto al funcionamiento de HealthBench, incluye 5,000 conversaciones multi-turno entre un modelo de lenguaje y un usuario (que puede ser un paciente o un profesional de la salud).
Estas conversaciones fueron diseñadas para ser relevantes, realistas y abarcar una amplia gama de situaciones médicas reales en 49 idiomas diferentes. Todas fueron creadas utilizando tanto la generación sintética como pruebas adversarias realizadas por humanos para simular la comunicación clínica real.
¿Cuáles son sus objetivos?
Cada conversación en HealthBench viene con una rúbrica de evaluación específica escrita por médicos. Estas rúbricas contienen criterios objetivos para evaluar la calidad de las respuestas del modelo. Los criterios capturan atributos importantes como los siguientes.
- Precisión clínica: ¿La información proporcionada es médicamente correcta?
- Claridad de la comunicación: ¿La respuesta es fácil de entender?
- Integridad: ¿Se abordaron todos los aspectos importantes de la pregunta?
- Seguimiento de instrucciones: ¿El modelo respondió a la pregunta específica formulada?
- Conciencia del contexto: ¿La respuesta es apropiada para la situación presentada?
- Potencial de daño: ¿La respuesta podría llevar a acciones perjudiciales?
En total, HealthBench contiene más de 48,000 criterios de evaluación únicos, cada uno con una ponderación según su importancia clínica.
Evaluación automatizada con validación experta: Las respuestas generadas por los LLM para cada conversación se puntúan automáticamente utilizando un modelo de lenguaje avanzado (actualmente GPT-4.1) entrenado para actuar como un calificador.
Para garantizar la confiabilidad de esta evaluación automatizada, OpenAI realizó una meta-evaluación comparando las puntuaciones del modelo con las evaluaciones de médicos expertos y encontrar una alta concordancia.
Además HealthBench permite analizar el rendimiento de los modelos en siete áreas temáticas de la atención médica (por ejemplo, atención de emergencia, manejo de la incertidumbre, salud global) y a través de diferentes ejes que definen las dimensiones del comportamiento evaluado.
De igual forma, HealthBench incluye subconjuntos específicos como el “Consensus subset” con ejemplos validados por múltiples médicos y “HealthBench Hard” con casos desafiantes donde los modelos actuales tienden a tener un rendimiento inferior.
En resumen, HealthBench es una herramienta integral diseñada para evaluar de manera rigurosa y realista la capacidad de los modelos de lenguaje grande para interactuar de manera segura y efectiva en escenarios de atención médica.