ChatGPT Health subestima más de la mitad de las emergencias, según un nuevo estudio

Un estudio de la revista médica Nature Medicine alerta que ChatGPT Health falla al evaluar casos críticos y consultas confusas.

Imagen de una pantalla con la app ChatGPT.

- Foto

AFP

Autor:

Redacción Primicias

Actualizada:

04 mar 2026 - 18:02

La revista científica Nature Medicine publicó un estudio, el 23 de febrero de 2026, donde evaluó el desempeño de ChatGPT Health o Chatgpt Salud, la nueva herramienta médica de inteligencia artificial de OpenAI. El hallazgo principal: el sistema subestimó el 52% de los casos en que los pacientes necesitan atención médica urgente

¿Qué es ChatGPT Health?

OpenAI lanzó ChatGPT Health en enero de 2026. La empresa detrás de la herramienta asegura que busca ofrecer información y preparación para el cuidado de la salud. Los usuarios pueden conectar su historial clínico y aplicaciones de bienestar para que la inteligencia artificial responda en base a sus datos personales.

Según OpenAI, más de 230 millones de personas hacen consultas de salud semanales en ChatGPT. La empresa aclara que el sistema se diseñó para apoyar la asistencia médica, no para sustituirla. "Esta herramienta no se utiliza para el diagnóstico ni para el tratamiento, solo busca resolver dudas cotidianas e identificar patrones de salud a lo largo del tiempo", según su descripción.

Primer análisis independiente de ChatGPT Salud

El estudio titulado "ChatGPT Health performance in a structured test of triage recommendations" es el primer análisis independiente que evalúa esta herramienta. Los investigadores diseñaron 60 escenarios clínicos evaluados por médicos, que abarcaron 21 especialidades.

Cada caso fue estudiado bajo 16 condiciones contextuales distintas, como género, etnia, presencia de barreras de acceso a la atención y situaciones en las que familiares minimizaban los síntomas.

En total, el equipo realizó 960 interacciones con el sistema. Luego, compararon las respuestas de la inteligencia artificial con el consenso de tres médicos reales, respaldados por las guías de 56 sociedades científicas.

Emergencias graves no detectadas

El desempeño general de la herramienta mostró una forma de "U invertida". Esto significa que los errores más peligrosos ocurrieron en los extremos: falló en el 35% de las consultas leves y en el 48% de las situaciones de urgencia.

El dato más preocupante es la subestimación de las urgencias médicas. En situaciones que requerían atención inmediata, el sistema falló el 52% de las veces. Por ejemplo, ante una cetoacidosis diabética (complicación metabólica grave y potencialmente mortal de la diabetes) o una insuficiencia respiratoria inminente, ChatGPT Health sugirió ir al médico en uno o dos días en lugar de enviar al paciente a urgencias. Sin embargo, el sistema sí identificó correctamente emergencias más conocidas, como un derrame cerebral o una anafilaxia (reacción alérgica grave).

El peligro de minimizar los síntomas

El estudio también detectó un "sesgo de anclaje". Esto ocurre cuando la inteligencia artificial se deja influenciar demasiado por un comentario inicial. Cuando los simuladores indicaron que los familiares minimizaban los síntomas del paciente, las recomendaciones de la herramienta cambiaron drásticamente. En la mayoría de estos casos, el sistema bajó la gravedad del diagnóstico y sugirió atención menos urgente.

La étnia, el género o las barreras económicas de los pacientes no afectaron de forma importante a las respuestas del sistema médico.

El estudio concluye que las "emergencias de alto riesgo no detectadas y una activación inconsistente de las medidas de seguridad en situaciones de crisis" representan posibles "problemas de seguridad". Los investigadores advierten que la herramienta debe probarse a fondo antes de usarla masivamente para clasificar pacientes.