En un campo tan dinámico como la Inteligencia Artificial (IA) aplicada a la salud, la proliferación de estudios ha sido exponencial en los últimos años, con más de 130 publicaciones sobre chatbots sanitarios en menos de un año tras el lanzamiento de ChatGPT. Sin embargo, esta rápida evolución trae consigo un desafío crucial: ¿cómo aseguramos la validez, la fiabilidad y la aplicabilidad de la evidencia generada por la IA?. Reconociendo esta necesidad imperante, un equipo de investigadores, liderado por Juan B. Cabello, socio fundador de MedicineAI y director de de CASP España, organización con la que colabora nuestra asociación, acaba de publicar un pre-print de una exhaustiva revisión exploratoria que mapea el panorama actual de las herramientas de evaluación crítica para estudios clínicos de IA.
Un esfuerzo por la claridad y el rigor
El estudio de Cabello et al. surge de la preocupación por los errores sistemáticos que pueden introducirse en las investigaciones con IA, similar a lo que ocurre en los estudios clínicos tradicionales. Para abordar esto, su objetivo principal fue identificar las herramientas existentes para la evaluación crítica de estudios clínicos que utilizan IA y examinar los conceptos y dominios que estas herramientas exploran. Esto es vital para que clínicos y responsables de políticas puedan confiar en la certeza de la evidencia que produce la IA.
La metodología de esta revisión fue rigurosa: se realizaron búsquedas en múltiples bases de datos médicas y de ingeniería, incluyendo MEDLINE, EMBASE y IEEE, hasta abril de 2024. Después de cribar miles de registros, se incluyeron finalmente 70 estudios relevantes, lo que proporciona un mapa completo y actualizado de las herramientas y enfoques existentes.
Hallazgos clave: un panorama de herramientas y desafíos
La revisión exploratoria arroja luz sobre varios aspectos fundamentales:
- Predominio de las guías de reporte: De las 46 herramientas identificadas para la evaluación crítica y sus constructos asociados, 26 son guías específicamente diseñadas para el reporte de estudios de IA. Esto no es sorprendente, ya que una buena guía de reporte es el primer paso para la transparencia y la consistencia, y un requisito previo para una lectura crítica adecuada.
- Crecimiento de herramientas de evaluación crítica: Se identificaron 16 herramientas de evaluación crítica propiamente dichas, y su número ha aumentado significativamente desde 2022. Estas herramientas se centran no solo en la validez metodológica, sino también en la relevancia de la pregunta clínica y la aplicabilidad de los resultados en el entorno clínico.
- Un campo en evolución: sesgos y chatbots:
- La revisión identificó nueve trabajos centrados en la clasificación y mitigación de sesgos en la IA, destacando la necesidad de considerar la disparidad entre los sesgos en la IA y la epidemiología tradicional, especialmente en lo que respecta a la equidad y la mitigación de los sesgos en la propia IA.
- Un área de especial interés son los estudios de evaluación de chatbots. Se encontraron 15 estudios relacionados con chatbots, tanto investigaciones primarias como revisiones sistemáticas. Estos estudios son notablemente heterogéneos en diseño, población y análisis, y enfrentan desafíos como la inconsistencia en las respuestas, la falta de transparencia y las “alucinaciones” (cuando la IA produce información incorrecta o engañosa).
Mirando al futuro: Las brechas identificadas
A pesar de la riqueza de herramientas existentes, la revisión de Cabello et al. subraya que aún existen importantes lagunas en el conocimiento. La pregunta central sigue siendo cuál es la mejor herramienta para un entorno o propósito específico. Además, la revisión anticipa la necesidad de:
- Nuevas herramientas de riesgo de sesgo para la IA en pronóstico y diagnóstico, como QUADAS-AI y PROBAST-AI, que son extensiones de herramientas clásicas.
- La inminente llegada de una extensión PRISMA-AI para revisiones sistemáticas.
- Y, crucialmente, la necesidad de establecer estándares para el diseño, reporte y evaluación de los estudios de evaluación de chatbots, un campo que la revisión identifica como una “clara brecha en nuestra caja de herramientas” y que necesita una solución urgente. Entre las iniciativas que se perfilan, la revisión menciona el protocolo para el desarrollo de la herramienta de reporte CHART (Chatbot Assessment Reporting Tool).
- La adaptación de otras herramientas clásicas de evaluación crítica, como las de Cochrane, al contexto de la IA.
La perspectiva de MedicineAI
Desde MedicineAI, consideramos este pre-print como una contribución fundamental que refuerza la importancia de aplicar herramientas de la Medicina Basada en la Evidencia (MBE) al uso de la inteligencia artificial. El compromiso de nuestra asociación es promover un enfoque riguroso y transparente en el desarrollo y la aplicación de la IA en la salud, y esta revisión exploratoria nos proporciona una hoja de ruta clara sobre las áreas donde se necesita más trabajo.
La implementación de la IA en la práctica clínica diaria requiere no solo modelos capaces, sino también evidencia local, una gobernanza robusta y mecanismos de formación continua para los profesionales, como hemos valorado en el éxito de AI Consult en Kenia. La identificación de estas brechas por parte de la revisión de Cabello y colaboradores valida nuestra misión y subraya la necesidad de seguir trabajando en la construcción de un marco que asegure que la IA fortalezca el juicio clínico, en lugar de sustituirlo.
Seguiremos de cerca el desarrollo de estas nuevas herramientas y guías, ya que son esenciales para construir la confianza de clínicos y pacientes en la integración segura y eficaz de la IA en la atención sanitaria.