Inicio Universidad Ben Gurión Según estudio de la Universidad Ben-Gurion: ChatGPT-4 supera a otros modelos en la comparación de inteligencia artificial médica

Según estudio de la Universidad Ben-Gurion: ChatGPT-4 supera a otros modelos en la comparación de inteligencia artificial médica

Por Iton Gadol
0 Comentarios

El uso de la inteligencia artificial, particularmente de modelos de lenguaje avanzados como ChatGPT, se está volviendo cada vez más común. Como resultado, surge un interés creciente en utilizar modelos de IA para interpretar información médica y apoyar decisiones críticas en el ámbito de la salud.

which-ai-model-best-de

Preguntas de muestra. Crédito: Universidad Ben-Gurion del Negev

Un equipo de investigación de la Universidad Ben-Gurión del Néguev decidió examinar las capacidades de los modelos de lenguaje avanzados (LLMs, por sus siglas en inglés) especializados en información médica y compararlos. Los sorprendentes hallazgos de esta investigación fueron publicados en la revista Computers in Biology and Medicine.

La inteligencia artificial aplicada a la información médica se ha convertido en una herramienta habitual para responder preguntas de pacientes a través de chatbots médicos, predecir enfermedades, crear datos sintéticos para proteger la privacidad de los pacientes o generar preguntas y respuestas para estudiantes de medicina.

Los modelos de IA que procesan datos textuales han demostrado ser efectivos clasificando información. Sin embargo, cuando los datos involucran información médica clínica que puede salvar vidas, es crucial comprender el significado profundo de los códigos médicos y las diferencias entre ellos.

El estudiante de doctorado Ofir Ben Shoham y el Dr. Nadav Rappoport, del Departamento de Ingeniería de Software y Sistemas de Información de la Universidad Ben-Gurión, decidieron investigar hasta qué punto los modelos de lenguaje avanzados comprenden el mundo médico y son capaces de responder preguntas sobre este tema. Para ello, llevaron a cabo una comparación entre modelos generales y aquellos afinados específicamente con información médica.

Con este fin, los investigadores desarrollaron un método de evaluación dedicado, MedConceptsQA, diseñado para responder preguntas sobre conceptos médicos.

Los investigadores generaron más de 800,000 preguntas y respuestas cerradas sobre conceptos médicos internacionales en tres niveles de dificultad, con el objetivo de evaluar cómo los usuarios de modelos de lenguaje interpretan términos médicos y diferencian entre conceptos como diagnósticos, procedimientos y medicamentos. Utilizaron un algoritmo desarrollado por ellos para generar automáticamente preguntas que describen un código médico.

Mientras que las preguntas fáciles requieren conocimientos básicos, las difíciles demandan una comprensión detallada y la capacidad de identificar pequeñas diferencias entre conceptos médicos similares. Las preguntas de nivel intermedio exigen un conocimiento algo más profundo. Los investigadores utilizaron estándares de datos clínicos existentes para evaluar códigos médicos y distinguir entre conceptos para tareas como la codificación médica, resúmenes, facturación automática, entre otros.

Los resultados mostraron que la mayoría de los modelos tuvieron un desempeño deficiente, equivalente a adivinanzas al azar, incluso aquellos entrenados específicamente con datos médicos. Esto ocurrió en general, excepto en el caso de ChatGPT-4, que mostró un mejor desempeño que los demás, con una precisión promedio del 60%, aunque aún lejos de ser satisfactoria.

«Parece que, en su mayoría, los modelos entrenados específicamente para fines médicos lograron niveles de precisión cercanos al azar, a pesar de estar pre-entrenados con datos médicos», señaló el Dr. Rappoport.

Cabe destacar que los modelos creados para propósitos generales (como Llama3-70B y ChatGPT-4) lograron mejores resultados. ChatGPT-4 demostró el mejor desempeño, aunque su precisión no fue suficiente para responder algunas de las preguntas específicas sobre códigos médicos creadas por los investigadores. ChatGPT-4 mostró una mejora promedio del 9-11% en comparación con Llama3-OpenBioLLM-70B, el modelo clínico que obtuvo los mejores resultados.

«Nuestra métrica sirve como un recurso valioso para evaluar la capacidad de los modelos de lenguaje avanzados para interpretar códigos médicos y distinguir entre conceptos médicos. Mostramos que la mayoría de los modelos clínicos logran un desempeño equivalente al azar, mientras que ChatGPT-3.5, ChatGPT-4 y Llama3-70B superan a estos modelos clínicos, a pesar de que su enfoque no está directamente en el campo médico», explicó el estudiante Shoham.

«Con nuestra base de preguntas, podemos evaluar fácilmente, con solo presionar un botón, otros modelos que se publiquen en el futuro y compararlos».

Los datos clínicos suelen incluir tanto códigos médicos estándar como textos en lenguaje natural. Esta investigación destaca la necesidad de un lenguaje clínico más amplio en los modelos para comprender información médica y enfatiza la precaución requerida en su uso generalizado.

«Presentamos un punto de referencia para evaluar la calidad de la información de los códigos médicos y subrayamos la necesidad de cautela al utilizar esta información», concluyó el Dr. Rappoport.chatgpt

También te puede interesar

Este sitio utiliza cookies para mejorar la experiencia de usuario. Aceptar Ver más