Itongadol/Agencia AJN.- Un equipo de investigadores de la Universidad Ben-Gurión del Néguev ha desarrollado una nueva base de datos para evaluar la capacidad de los modelos de propósito general de inteligencia artificial (IA) para diagnosticar casos médicos complejos, según The Press Service of Israel (TPS-IL).
Sus hallazgos, presentados ante la Asociación para el Avance de la Inteligencia Artificial en Filadelfia, sugieren que modelos como el GPT-4o podrían ser más efectivos que los diseñados específicamente para la medicina.
Tradicionalmente, los modelos de propósito general de IA se han probado en casos médicos más simples, como preguntas de exámenes o enfermedades comunes, pero no en los casos complejos del mundo real que los médicos suelen enfrentar. Para subsanar esa deficiencia, los investigadores crearon una base de datos de 3.562 informes de casos médicos del BMC Journal of Medical Case Reports, que incluye descripciones detalladas de casos médicos inusuales y sus diagnósticos. Los casos se presentaron mediante preguntas abiertas y de opción múltiple, simulando escenarios de diagnóstico reales.
Los resultados fueron sorprendentes: GPT-4o superó a modelos médicos como Meditron-70B y MedLM-Large en el diagnóstico de esos casos complejos. GPT-4o logró una precisión del 87,9% en preguntas de opción múltiple y del 76,4% en preguntas abiertas, superando a los especializados.
“Nos sorprendió ver que los modelos generales, como GPT-4o, tuvieran un mejor rendimiento que los adaptados para la medicina. Mostramos que los modelos de lenguaje de gran tamaño pueden utilizarse para diagnosticar casos médicos complejos”, afirmó Ofir Ben-Shoham, uno de los investigadores.
La base de datos CUPCase que creó el equipo podría convertirse en una herramienta valiosa para probar nuevos modelos de IA en el futuro. Está abierta al público y puede ampliarse con casos adicionales a medida que se desarrollen nuevos modelos.
“El objetivo era crear un sistema que pudiera evaluar la eficacia de los modelos lingüísticos para diagnosticar casos complejos del mundo real, no solo los comunes”, afirmó el estudiante de doctorado Uriel Peretz.
El doctor Nadav Rapoport, otro miembro del equipo de investigación, explicó que diagnosticar casos complejos puede ser un proceso largo e incierto, lo que genera retrasos y mayores costos para los pacientes. La base de datos CUPCase, al proporcionar casos reales detallados, puede ayudar a acelerar ese proceso y mejorar la atención del paciente.
La investigación tiene diversas aplicaciones prácticas en el ámbito sanitario, principalmente al mejorar la velocidad y precisión de los diagnósticos médicos.
Modelos de IA como GPT-4o podrían ayudar a los médicos a diagnosticar casos médicos complejos con mayor rapidez, reduciendo los retrasos en el diagnóstico y mejorando los resultados de los pacientes.
La base de datos CUPCase, que incluye una colección de casos del mundo real, puede servir como una valiosa herramienta de apoyo a la toma de decisiones clínicas, ayudando a los médicos a tomar decisiones más precisas, especialmente en casos difíciles o poco frecuentes.
Además, el modelo de IA podría facilitar la formación de profesionales médicos, ofreciendo un recurso interactivo para el aprendizaje de procesos diagnósticos complejos.
Las herramientas basadas en IA también podrían ampliar el acceso a apoyo diagnóstico de expertos en zonas desatendidas, donde los especialistas pueden ser limitados. En entornos de cuidados críticos, los modelos de IA podrían proporcionar asistencia diagnóstica en tiempo real.