En los últimos años, la inteligencia artificial generativa ha demostrado una capacidad notable para producir texto científico plausible, sintetizar literatura y asistir en tareas analíticas complejas. Sin embargo, una cuestión clave sigue abierta: ¿hasta qué punto estos sistemas son capaces de participar de forma coherente en el proceso científico completo, más allá de la redacción de textos o de la exploración puntual de datos? Un trabajo reciente propone un marco sistemático para abordar esta pregunta y ofrece resultados que invitan a una reflexión metodológica profunda.
El original: evaluar la “inteligencia científica” más allá del texto
El artículo Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows, que nos ha remitido para análisis Javier Crespo, uno de nuestros socios fundadores, propone un marco sistemático de evaluación (benchmark) para valorar los modelos de inteligencia artificial no por tareas aisladas —preguntas y respuestas, redacción o razonamiento lógico— sino por su capacidad para recorrer de forma integrada las distintas fases del proceso científico.



Para ello, los autores adoptan un marco inspirado en el ciclo clásico de la investigación y lo descomponen en cuatro grandes etapas:
- revisión y deliberación sobre el conocimiento existente,
- generación de ideas e hipótesis,
- diseño y ejecución experimental (computacional o de laboratorio),
- interpretación y razonamiento sobre los resultados.
A partir de este planteamiento, desarrollan un benchmark amplio y exigente que evalúa modelos actuales de IA en tareas alineadas con cada una de estas fases, en múltiples disciplinas científicas.
Resultados principales: fortalezas aparentes, debilidades estructurales
Los resultados del estudio son consistentes y, en cierto modo, contraintuitivos. Los modelos evaluados muestran un rendimiento aceptable cuando se les solicita síntesis, generación de ideas o elaboración de explicaciones generales. Sin embargo, su desempeño cae de forma marcada cuando se les exige algo más cercano al núcleo del método científico: planificación experimental coherente, secuenciación rigurosa de procedimientos, control de parámetros o razonamiento causal robusto a partir de datos.
En otras palabras, la IA parece desenvolverse mejor en el discurso científico que en la práctica científica estructurada. La dificultad no reside tanto en la falta de conocimiento acumulado como en la incapacidad para integrar de manera consistente las distintas fases del proceso investigador.
Por qué este trabajo es relevante ahora
Este diagnóstico resulta especialmente pertinente en un contexto en el que la IA empieza a utilizarse, de forma creciente, para generar análisis, resultados y textos científicos completos. El trabajo no formula una crítica ética explícita ni propone normas de uso, pero aporta algo fundamental: evidencia empírica de que la inteligencia artificial actual no reproduce el método científico como un todo, sino que opera de forma fragmentaria, con especial debilidad allí donde el diseño previo y el protocolo son determinantes.
Leído con atención, el estudio sugiere que la aparente solvencia de muchos productos generados por IA puede ocultar carencias metodológicas profundas, especialmente cuando no existe un marco experimental o analítico definido con anterioridad.
Una reflexión desde MedicineAI
En MedicineAI consideramos que este trabajo aporta un punto de apoyo sólido para replantear el debate sobre el uso de la inteligencia artificial en investigación científica. Sus resultados no invitan al rechazo de la IA, pero sí a una reflexión exigente sobre cómo, cuándo y para qué debe emplearse.
A partir de este diagnóstico, MedicineAI ha elaborado una editorial institucional en la que se aborda de forma explícita una cuestión central: la necesidad de preservar la primacía del protocolo y del método científico frente a la tentación de sustituirlos por texto convincente o análisis retrospectivos asistidos por IA.
La editorial completa puede leerse aquí:
“Inteligencia artificial y método científico: por qué el protocolo debe preceder al texto”.
Conclusión
El debate sobre la inteligencia artificial en ciencia no se resolverá únicamente con modelos más grandes o más rápidos. Trabajos como este recuerdan que la cuestión de fondo es metodológica: la ciencia no se define por su forma, sino por su proceso. Entender los límites actuales de la IA es un paso necesario para integrarla de manera responsable y científicamente rigurosa.
