Los modelos de lengua más grandes pueden pasar el examen clínico con gran éxito, pero su uso para el diagnóstico sería actualmente muy imprudente. Los chatbots médicos hacen diagnósticos apresurados, no siguen las pautas y ponen en riesgo la vida de los pacientes. A esta conclusión llegó un equipo de la Universidad Técnica de Múnich (TUM). Por primera vez, el equipo investigó sistemáticamente si esta forma de inteligencia artificial (IA) sería adecuada para la práctica clínica diaria. A pesar de las deficiencias actuales, los investigadores ven potencial en esta tecnología. Han publicado un método que puede utilizarse para probar la fiabilidad de futuros chatbots médicos.
Los modelos de lenguaje grande son programas de computadora que se entrenan con grandes cantidades de texto. Variantes especialmente entrenadas de la tecnología detrás de ChatGPT ahora resuelven casi sin problemas incluso los exámenes finales de los estudios médicos. Pero, ¿podrá dicha IA hacerse cargo del trabajo de los médicos en la sala de urgencias? ¿Puede solicitar las pruebas adecuadas, realizar el diagnóstico correcto y planificar un tratamiento en función de los síntomas del paciente?
Un equipo interdisciplinario dirigido por Daniel Rickert, profesor de Inteligencia Artificial en Atención Médica y Medicina de la TUM, abordó esta cuestión en la revista. Medicina de la naturaleza. Por primera vez, médicos y expertos en inteligencia artificial han probado sistemáticamente qué tan bien hacen diagnósticos las diferentes variantes del modelo de lenguaje grande de código abierto Llama 2.
Reactivando el camino desde la sala de urgencias hasta el tratamiento
Para probar las capacidades de estos complejos algoritmos, los investigadores utilizaron datos anonimizados de pacientes de una clínica estadounidense. Seleccionaron 2400 casos de un gran conjunto de datos. Todos los pacientes acudieron a urgencias con dolor abdominal. La descripción de cada caso terminó con uno de cuatro diagnósticos y un plan de tratamiento. Todos los datos registrados para el diagnóstico estaban disponibles para los casos, desde el historial médico y los valores sanguíneos hasta los datos de imágenes.
“Preparamos los datos de tal manera que los algoritmos pudieron simular procedimientos reales y procesos de toma de decisiones en el hospital”, explica Friederike Jungmann, médica asistente en el departamento de Radiología del Klinikum rechts der Isar de la TUM y su autora principal. son Estudie con el informático Paul Hager. “El programa sólo tenía información que tenían los verdaderos médicos. Por ejemplo, tenía que decidir por sí mismo si ordenaba un recuento sanguíneo y luego usar esa información para tomar la siguiente decisión, hasta que finalmente no pudo haber desarrollado un diagnóstico y tratamiento. plan.”
El equipo descubrió que ninguno de los principales modelos de lenguaje solicitaba sistemáticamente todas las pruebas necesarias. De hecho, las evaluaciones de los programas se volvieron menos precisas cuanto más información tenían sobre el caso. A menudo no seguían las pautas de tratamiento y, en ocasiones, ordenaban pruebas que tenían graves consecuencias para la salud de los pacientes reales.
Comparación directa con los médicos.
En la segunda parte del estudio, los investigadores compararon los diagnósticos de IA de un subconjunto de datos con los diagnósticos de cuatro médicos. Mientras que estos últimos acertaron en el 89 por ciento de los diagnósticos, el mejor modelo de lenguaje grande logró sólo el 73 por ciento. Cada modelo identificó algunas enfermedades mejor que otras. En un caso extremo, un modelo diagnosticó correctamente la inflamación de la vesícula biliar en sólo el 13 por ciento de los casos.
Otro problema que hace que los programas no sean adecuados para el uso diario es la falta de robustez: la evaluación realizada por un modelo de lenguaje grande depende, entre otras cosas, del orden en que recibe la información. Los matices lingüísticos también afectaron el resultado; por ejemplo, si el programa pedía una “evaluación principal”, una “evaluación primaria” o una “evaluación final”. En la práctica clínica diaria, estos términos suelen ser intercambiables.
ChatGPT no ha sido probado.
Obviamente, el equipo no probó OpenAI (ChatGPT) y los grandes modelos comerciales de lenguaje de Google por dos razones principales. En primer lugar, el proveedor de datos del hospital prohíbe el procesamiento de datos con estos modelos por motivos de protección de datos. En segundo lugar, los expertos recomiendan encarecidamente que sólo se utilice software de código abierto para aplicaciones en el sector sanitario. “Sólo con modelos de código abierto los hospitales tienen suficiente control y conocimiento para garantizar la seguridad del paciente. Cuando probamos modelos, es importante saber qué datos usar para entrenarlos. De lo contrario, podemos probarlos exactamente con las mismas preguntas y respuestas”. , Por supuesto, las empresas mantienen muy confidenciales sus datos de formación, lo que dificultaría una revisión justa”, afirma Paul Hager. “Además, basar la infraestructura clínica clave en servicios externos que actualizan y cambian los modelos a voluntad es arriesgado. En el peor de los casos, un servicio del que dependen cientos de clínicas podría cerrarse porque no es rentable”.
Crecimiento rápido
Los avances en esta tecnología avanzan rápidamente. “Es muy posible que en un futuro próximo un modelo de lenguaje más amplio se adapte mejor a los diagnósticos a partir de la historia clínica y los resultados de las pruebas”, afirma el profesor Daniel Rickert. “Por eso hemos lanzado nuestro entorno de prueba a todos los grupos de investigación que quieran probar modelos de lenguaje grandes en un contexto clínico”. Rückert ve potencial en esta tecnología: “En el futuro, los grandes modelos de lenguaje pueden convertirse en herramientas importantes para los médicos, por ejemplo para discutir un caso. Sin embargo, siempre debemos ser conscientes de las limitaciones y características de esta tecnología. Y deben tenerse en cuenta al crear aplicaciones, dicen los expertos en IA médica.










