Juan Turnes, uno de nuestros socios fundadores, nos envía los primeros resultados publicados de AI Consult, el copiloto clínico basado en GPT-4o que OpenAI y la red de clínicas keniana Penda Health han probado en condiciones reales. La intervención, que se detalla en un preprint de OpenAI y en una correspondencia simultánea en Nature Medicine, muestra una caída significativa de los errores diagnósticos y terapéuticos en casi 40 000 consultas de atención primaria.

El estudio principal compara 39 849 visitas atendidas por 106 clínicos en 15 centros de Penda Health. Los profesionales asignados al brazo IA disponían de AI Consult v2, que analiza la historia clínica en segundo plano y solo interrumpe con alertas verdes, amarillas o rojas cuando detecta riesgos críticos, manteniendo la decisión final en manos del clínico.
Durante el periodo principal, los clínicos con IA cometieron un 16 % menos de errores diagnósticos y un 13 % menos de errores terapéuticos que el grupo control (NNT 18 y 14, respectivamente). En consultas con alertas rojas la reducción alcanzó el 31 % y el 18 % . De extrapolarse a los ~400 000 actos anuales de Penda, evitaría unas 22 000 equivocaciones diagnósticas y casi 29 000 prescripciones incorrectas cada año.
Los autores identifican tres factores de éxito: (1) un modelo capaz, (2) implementación codiseñada con los usuarios y adaptada al contexto keniano, y (3) despliegue activo con mentores, métricas (tasa “left-in-red”) e incentivos que casi duplicaron el aprovechamiento de la herramienta .
No se registró daño atribuible a AI Consult; los eventos adversos graves fueron raros y, en su mayoría, potencialmente prevenibles si se hubiesen atendido las alertas. El estudio no halló diferencias significativas en resultados clínicos a 8 días—por falta de potencia estadística—y la carga asistencial aumentó unos tres minutos por visita en los casos con muchas alertas.
La carta en Nature Medicine sitúa este estudio dentro de un portafolio de tres ensayos que también evalúan un “experto de bolsillo” para trabajadores comunitarios en Nigeria y un sistema de escucha ambiental en Ruanda. El ensayo de Kenia es el primero que medirá un desenlace clínico compuesto (treatment failure) en 9 000 pacientes y uno de los mayores RCT con LLM hasta la fecha .

Valoración de MedicineAI
AI Consult demuestra que un copiloto basado en LLM puede mejorar la seguridad diagnóstica y terapéutica en la práctica diaria cuando se integra bien en el flujo asistencial y se acompaña de estrategias de adopción. Para España, donde la digitalización clínica y la regulación son más exigentes, el caso keniano refuerza tres mensajes:
- Evidencia local: hace falta replicar estudios controlados que midan resultados duros en nuestro sistema de salud antes de escalar estas herramientas.
- Gobernanza y calidad: el modelo “semáforo” y la métrica “left-in-red” ilustran cómo monitorizar la relación humano-IA sin mermar la autonomía clínica.
- Formación continua: la reducción de alertas rojas a lo largo del tiempo sugiere un efecto formativo valioso que podría incorporarse a programas de mejora profesional.
Seguiremos la evolución de los ensayos en Kenia, Nigeria y Ruanda para valorar qué componentes son transferibles y qué requisitos éticos y legales serían necesarios en nuestro entorno.
Desde MedicineAI subrayamos la importancia de este caso como referencia internacional. Aunque actualmente AI Consult no está disponible como recurso abierto para profesionales europeos, ofrece un marco útil para imaginar cómo podría integrarse la IA en nuestras consultas sin sustituir el juicio clínico, sino ayudando a fortalecerlo.