Juan Turnes (socio fundador de MedicineAI), siempre atento a las novedades de interés sobre el uso clínico de la inteligencia artificial, nos ha enviado dos recientes originales, uno de ellos todavía en forma de preprint, publicado el 22 de septiembre de 2025, y el otro aparecido pocos días después, el 25 de septiembre en NEJM AI, en los que se analizan con detalle las limitaciones de los actuales benchmarks médicos. El preprint, en concreto, fue detectado a través de una entrada publicada por Manuel Ramos-Casals en LinkedIn, en la que se discutía de manera crítica el fenómeno del “espejismo de la competencia médica”. Ambos trabajos coinciden en señalar un problema que afecta de lleno a la percepción de la preparación real de los modelos de frontera: los exámenes tipo test transmiten una sensación engañosa de competencia clínica que no se sostiene cuando se traslada a escenarios de incertidumbre o práctica asistencial.
El espejismo de preparación

El 22 de septiembre de 2025, Microsoft Research publicó el preprint The Illusion of Readiness: Stress Testing Large Frontier Models on Multimodal Medical Benchmarks, que cuestiona de manera directa la supuesta madurez clínica de los grandes modelos de lenguaje y multimodales.
Su aportación principal es el concepto de “ilusión de preparación”: la elevada puntuación en los benchmarks médicos actuales genera una falsa sensación de competencia clínica, que no se sostiene cuando los modelos se enfrentan a escenarios más próximos a la práctica real.

Tras la publicación de este preprint, Manuel Ramos-Casals comentó sus hallazgos en LinkedIn con la entrada titulada “El espejismo de la competencia médica de los modelos de IA generativa” (29 de septiembre de 2025).
En ella tradujo el concepto de ilusión de preparación al terreno clínico con una formulación muy directa: aprobar un examen tipo MIR o USMLE no significa estar preparado para atender pacientes reales.
En su comentario, Ramos-Casals sintetizó en diez lecciones las limitaciones actuales de los modelos generativos en medicina, que pueden resumirse en cinco ejes principales:
- un examen estático nunca equivale a un escenario clínico,
- la multimodalidad sigue siendo inmadura,
- la robustez es más importante que la precisión teórica,
- los razonamientos inventados son un riesgo real,
- y solo la evaluación guiada por clínicos puede establecer qué comportamientos son fiables.
Tanto el artículo como la reflexión de Ramos-Casals coinciden en un punto esencial: estamos confundiendo éxito en los tests con competencia clínica, y esa confusión es peligrosa.
La necesidad de nuevos marcos de evaluación
Si los modelos son capaces de acertar todas las preguntas de un examen tipo test, pero fracasan cuando se enfrentan a la incertidumbre, la conclusión es inevitable: necesitamos otros instrumentos de medida.
El problema no es solo de precisión numérica, sino de naturaleza epistemológica: la medicina se practica en escenarios abiertos, con información incompleta y cambiante, y los benchmarks actuales no capturan esa complejidad. De ahí la importancia de explorar alternativas que pongan a prueba el razonamiento clínico, no la memorización de respuestas.
En este punto resulta esencial recordar algo que ya hemos señalado en este blog: la necesidad de marcos claros y compartidos para evaluar y comunicar la investigación en IA clínica. La directriz CHART constituye una herramienta clave para homogeneizar el reporte de investigaciones con chatbots sanitarios. En la misma dirección, MedicineAI publicó un editorial subrayando esta necesidad a la luz de los hallazgos de la scoping review de Cabello et al. —Juan Cabello es uno de los fundadores de nuestra asociación—, que mostró de forma contundente la diversidad metodológica existente y la ausencia de estándares sólidos en la literatura sobre IA clínica.
El nuevo horizonte: McCoy y el benchmarking con SCT

En esta línea se sitúa el trabajo de McCoy et al., titulado «Assessment of Large Language Models in Clinical
Reasoning: A Novel Benchmarking Study«, publicado en NEJM AI el 25 de septiembre de 2025, que representa un auténtico punto de inflexión.
Por primera vez se aplica un benchmark público basado en Script Concordance Testing (SCT), , una metodología utilizada desde hace años en la educación médica para valorar cómo los clínicos ajustan sus hipótesis a medida que reciben nueva información.
McCoy y su equipo partieron de una premisa sencilla: los exámenes médicos tradicionales, de opción múltiple, no son capaces de capturar el razonamiento clínico bajo incertidumbre que caracteriza a la medicina real. Por ello, para superar esta limitación, diseñaron un banco de 750 ítems de SCT.
El benchmark fue aplicado a diez modelos de lenguaje de gran escala, desde versiones recientes de GPT hasta alternativas abiertas, y contrastado con los resultados de estudiantes, residentes y especialistas. La clave de corrección se construyó a partir de un panel de expertos, lo que permitió reconocer como válidas distintas respuestas en función del grado de consenso.
Los hallazgos son claros: los LLMs pueden alcanzar o incluso superar el rendimiento de los estudiantes, situarse en algunos casos a la altura de los residentes, pero todavía quedan lejos del nivel de los especialistas. Además, tienden a emitir respuestas más extremas y menos matizadas que los humanos, un rasgo que puede comprometer la seguridad clínica. La aportación más valiosa, sin embargo, es la disponibilidad pública del benchmark, que abre la puerta a comparaciones transparentes y replicables en el futuro.
Valoración desde MedicineAI
El trabajo de McCoy supone un avance metodológico de gran relevancia. Por primera vez disponemos de un recurso público y bien estructurado para evaluar el razonamiento clínico de los modelos de lenguaje, lo que marca un antes y un después en la investigación en este campo. Para MedicineAI, esta apertura es especialmente significativa porque encaja con la filosofía que hemos defendido al analizar CHART y al interpretar la revisión de Cabello: sin estándares claros y compartidos, la evaluación de la IA clínica queda fragmentada y poco comparable.
Nuestro proyecto con Fundación 29 y la Sociedad Española de Patología Digestiva (SEPD), orientado a la evaluación de la conocida aplicación DxGPT en medicina digestiva, se sitúa en esa misma línea, pero con un enfoque complementario: trabajamos con viñetas clínicas estandarizadas en el ámbito digestivo, que no parten de una hipótesis inicial sino que presentan escenarios abiertos, estructurados en dos escalones, y evaluados con métricas que incluyen no solo la presencia del diagnóstico correcto, sino también la pertinencia clínica del conjunto de propuestas.
Al igual que McCoy, aspiramos a construir un benchmark público, que aporte transparencia, facilite la comparación entre modelos y sirva como referencia en un campo donde la fiabilidad y la seguridad no pueden darse por supuestas. Nuestro compromiso es claro: contribuir a que la integración de la IA en la medicina no dependa de la fascinación tecnológica, sino de una evaluación rigurosa, abierta y alineada con las mejores prácticas internacionales.
