CHART: nueva directriz para informar estudios de chatbots sanitarios

Acaba de ser publicada la declaración CHART (Chatbot Assessment Reporting Tool), publicada en BMJ Medicine en 2025. Esta es la primera directriz específica diseñada para la comunicación transparente de estudios sobre chatbots de inteligencia artificial (IA) aplicados a la salud. Su aparición responde a la rápida proliferación de investigaciones con asistentes conversacionales basados en Grandes Modelos de Lenguaje (LLM) y a la urgente necesidad de evaluar con rigor su calidad y seguridad.

Esta publicación responde a la necesidad de estándares ya identificada y subrayada por iniciativas como la revisión exploratoria de Cabello et al. —Juan Cabello es uno de los socios fundadores de MedicineAI y Director del Critical Appraisal Skills Programme Español (CASPe)—, Dicha revisión, publicada como preprint en mayo de 2025, y que ha sido objeto de una reciente entrada en esta misma sección, señaló que el campo de los estudios de evaluación de chatbots es “vasto y en evolución” y que “el progreso en el diseño, informe y lectura crítica es necesario y urgente” en este ámbito. Particularmente, la revisión de Cabello et al. identificó la “heterogeneidad e inconsistencia en el diseño, análisis y reporte” de estos estudios.

Clica sobre la imagen para acceder

Motivación y alcance

En menos de dos años, se han publicado al menos 137 estudios sobre chatbots sanitarios. Sin embargo, la heterogeneidad de sus métodos dificulta enormemente la comparación y la reproducibilidad de los hallazgos. Por ejemplo, pocos artículos detallan el desarrollo de sus prompts, y menos del 40% informan elementos clave de su estrategia de consulta, como la fecha de búsqueda o el número de sesiones del chat.

Esta falta de transparencia afecta la validez y fiabilidad de los resultados. CHART busca llenar este vacío metodológico aportando un marco específico para investigaciones observacionales y estudios comparativos de chatbots que ofrecen consejo de salud.

Metodología de elaboración

CHART fue desarrollada a través de un riguroso proceso de varias fases, alineado con los más altos estándares metodológicos para el desarrollo de guías de informe:

  • Revisión sistemática inicial: Se cribaron 7.752 artículos, de los cuales 137 fueron incluidos. Este proceso identificó 120 ítems candidatos.
  • Proceso Delphi modificado: Participaron 531 expertos internacionales de 40 disciplinas multidisciplinares, incluyendo representación de pacientes. Se realizaron dos rondas de votación.
  • Panel de expertos: Un panel compuesto por 48 miembros se reunió en tres ocasiones presenciales. Estos miembros incluyeron clínicos, estadísticos, metodólogos de investigación, desarrolladores de guías de reporte, investigadores de IA generativa, editores de revistas, investigadores de chatbots, eticistas, expertos regulatorios y pacientes.
  • Pilotaje externo: Se llevaron a cabo dos rondas de pilotaje para validar la usabilidad de la guía, con resultados positivos.

El resultado final de este proceso exhaustivo es una guía que consta de 12 ítems principales y 39 subítems. Estos cubren aspectos esenciales como la identificación detallada del modelo, la ingeniería de prompts, la estrategia de referencia (ground truth), los estadísticos descriptivos, la evaluación de rendimiento y los aspectos éticos.

Principales aportaciones

CHART es una herramienta fundamental que:

  • Exige describir la versión exacta del modelo, su ajuste y las fuentes de datos utilizadas.
  • Obliga a detallar la métrica principal y la definición de la «verdad de referencia» (ground truth) para evaluar el rendimiento.
  • Incluye la divulgación de la ingeniería de prompts (el proceso de desarrollo de las consultas para el chatbot) y la disponibilidad de código o parámetros del modelo.
  • Recomienda exponer claramente los riesgos potenciales y las estrategias de mitigación implementadas.
  • Enfatiza la importancia de la identificación adecuada del modelo de IA generativa y el chatbot evaluado, incluyendo si es de código abierto o propietario, y si es un modelo novedoso o base.

Limitaciones y futuro

Actualmente, CHART no cubre ensayos clínicos aleatorizados ni estudios prospectivos de cohorte, aunque sus autores han anunciado extensiones específicas para abordar estos tipos de estudio. Dada la rápida evolución de la IA, especialmente hacia modelos multimodales, la guía ha sido declarada «guía viva» (living guideline). Esto implica que se prevén actualizaciones y revisiones cada seis meses durante los primeros dos años (hasta 2026), o antes si es necesario, para asegurar su relevancia y aplicabilidad continua. Un panel de expertos «vivo» monitorizará y actualizará la guía.

Valoración desde MedicineAI

La declaración CHART constituye un hito fundamental para la investigación aplicada en IA clínica. En MedicineAI, creemos firmemente que, aunque CHART es primariamente una directriz para el informe y no una herramienta de lectura crítica per se, su objetivo de promover la «transparencia y el informe completo» de los estudios es esencial. Un informe de mayor calidad facilita enormemente la lectura crítica y la evaluación rigurosa de la evidencia, que es precisamente la misión compartida entre MedicineAI y CASPe: aportar herramientas de la Medicina Basada en la Evidencia (MBE) para el uso de la IA.

Al mejorar el informe, CHART contribuye directamente al «rigor metodológico» y a la «seguridad diagnóstica y terapéutica» de las herramientas de IA, elevando la confianza de clínicos, pacientes y el público. Esto es crucial para aumentar la confianza en la IA en el ámbito sanitario y se alinea con la necesidad de establecer una gobernanza y calidad robusta en la integración de la IA en el sistema sanitario. Esta es una de las «tres claves» que MedicineAI ha destacado en sus análisis sobre la implementación de la IA en medicina al abordar casos de éxito recientes, como la experiencia con AI Consult en Kenia, que demuestran una reducción significativa de errores diagnósticos y terapéuticos, subrayan la importancia de la rigurosidad y la gobernanza que promueve CHART para la adopción de la IA en la práctica clínica.

En MedicineAI tendremos en cuenta CHART como un estándar a considerar para evaluar cualquier manuscrito o proyecto que analice chatbots de salud. Su integración con otras guías existentes como CONSORT-AI, SPIRIT-AI y DECIDE-AI, que también son mencionadas en la publicación de CHART, reforzará la credibilidad y utilidad de la evidencia generada en este campo emergente. Este caso de referencia internacional nos ofrece un marco útil para imaginar cómo la IA puede integrarse en nuestras consultas, fortaleciendo el juicio clínico sin reemplazarlo.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio