Las herramientas de inteligencia artificial como ChatGPT han sido promocionadas por su promesa de reducir la carga de trabajo de los médicos al clasificar a los pacientes, tomar el historial médico e incluso proporcionar un diagnóstico temprano.
Los pacientes ya están utilizando estas herramientas, conocidas como grandes modelos de lenguaje, para comprender sus síntomas y los resultados de las pruebas médicas.
Pero si bien estos modelos de IA funcionan de manera impresionante en pruebas clínicas estandarizadas, ¿qué tan bien funcionan en situaciones que imitan más fielmente el mundo real?
No tan bien, según los hallazgos de un nuevo estudio dirigido por investigadores de la Facultad de Medicina de Harvard y la Universidad de Stanford.
Para su análisis, publicado el 2 de enero. Medicina de la naturalezalos investigadores diseñaron un marco de evaluación, o una prueba, llamado CRAFT-MD (Marco de evaluación de razonamiento conversacional para pruebas en medicina) y lo implementaron en cuatro modelos de lenguaje principales para ver qué tan bien se desempeñaban en entornos de pacientes.
Los cuatro modelos de lenguaje principales obtuvieron buenos resultados en preguntas estilo examen clínico, pero su desempeño se deterioró cuando las conversaciones simulaban más estrechamente las interacciones del mundo real.
Los investigadores dijeron que esta brecha apunta a una necesidad doble: en primer lugar, desarrollar evaluaciones más realistas que evalúen mejor la idoneidad de los modelos clínicos de IA para su uso en el mundo real y, en segundo lugar, mejorar la capacidad de estas herramientas para diagnosticar mejoras. Basado en una discusión más realista antes de la internación en la clínica.
Las herramientas de evaluación, como CRAFT-MD, no sólo pueden predecir con mayor precisión los modelos de IA para el fitness en el mundo real, sino que también ayudan a mejorar su rendimiento en la clínica, afirmó el equipo de investigación.
“Nuestro trabajo revela una paradoja sorprendente: si bien estos modelos de IA funcionan bien en los exámenes de la junta médica, dijo el autor principal del estudio, Pranav Rajpurkar, profesor asistente de informática biomédica en la Facultad de Medicina de Harvard, luchan con los problemas subyacentes de una visita al médico”. Escuela “La naturaleza dinámica de la comunicación clínica (la necesidad de hacer las preguntas correctas en el momento adecuado, recopilar información dispersa y razonar a través de los síntomas) presenta desafíos únicos que van más allá de responder preguntas estándar de estas conversaciones naturales. “Incluso los modelos de IA más sofisticados muestran una caída significativa en la precisión del diagnóstico”.
Una mejor prueba para evaluar el rendimiento de la IA en el mundo real
Actualmente, los desarrolladores prueban el rendimiento de los modelos de IA pidiéndoles que respondan preguntas clínicas de opción múltiple, generalmente extraídas de un examen nacional para estudiantes de medicina graduados o entregadas a médicos residentes como parte de su certificación obtenida al aprobar pruebas.
“Este enfoque supone que toda la información relevante se presenta de forma clara y concisa, a menudo con términos médicos o palabras de moda que facilitan el proceso de diagnóstico”, dijo la coautora principal del estudio, Shreya Johari, estudiante de doctorado, pero en el mundo real el proceso es diferente. mucho más complicado”, en el laboratorio Rajpurkar de la Facultad de Medicina de Harvard. “Necesitamos un marco de prueba que refleje mejor la realidad y, por lo tanto, pueda predecir mejor qué tan bien funcionará el modelo”.
El CRAFT-MD fue diseñado para ser otro medidor realista.
Para simular interacciones del mundo real, CRAFT-MD evalúa qué tan bien los modelos de lenguaje grandes pueden recopilar información sobre síntomas, medicamentos e antecedentes familiares y luego realizar diagnósticos. Se utiliza un agente de IA para hacerse pasar por un paciente y responder preguntas de una manera conversacional y naturalista. Otro agente de IA califica la precisión del diagnóstico final proporcionado por el modelo de lenguaje grande. Luego, los expertos humanos evalúan los resultados de cada encuentro para determinar la capacidad de recopilar información relevante del paciente, la precisión del diagnóstico cuando se presenta información fragmentada y el cumplimiento de las indicaciones.
Los investigadores utilizaron CRAFT-MD para probar cuatro modelos de IA, tanto propietarios como comerciales y de código abierto, para determinar su rendimiento en 2000 viñetas clínicas comunes en atención primaria y 12 especialidades clínicas.
Todos los modelos de IA mostraron limitaciones, particularmente la capacidad y la razón para realizar interacciones médicas basadas en la información proporcionada por los pacientes. Esto, a su vez, comprometió su capacidad para realizar un historial médico y hacer un diagnóstico adecuado. Por ejemplo, los modelos a menudo tenían dificultades para hacer las preguntas correctas para recopilar la historia relevante del paciente, omitían información importante durante la toma de la historia y tenían dificultades para sintetizar información fragmentada. La precisión de estos modelos disminuyó cuando se les presentaron respuestas abiertas en lugar de respuestas de opción múltiple. Estos modelos también funcionaron peor cuando participaron en intercambios de ida y vuelta (como lo son la mayoría de las conversaciones del mundo real) que cuando participaron en conversaciones abstractas.
Consejos para mejorar el rendimiento de la IA en el mundo real
Con base en estos hallazgos, el equipo ofrece un conjunto de recomendaciones para los desarrolladores de IA que diseñan modelos de IA y para los reguladores encargados de probar y aprobar estas herramientas.
Estos incluyen:
- Uso de preguntas conversacionales abiertas que reflejan con mayor precisión las interacciones no estructuradas entre médico y paciente en el diseño, capacitación y prueba de herramientas de inteligencia artificial.
- Evaluar los modelos por su capacidad para hacer las preguntas correctas y extraer la información más relevante.
- Diseñar modelos capaces de seguir múltiples interacciones y combinar información de ellas.
- Diseño de modelos de IA capaces de integrar datos textuales (notas de conversaciones) y no textuales (imágenes, electrocardiógrafos)
- Diseñar agentes de IA más sofisticados que puedan interpretar señales no verbales como expresiones faciales, tono y lenguaje corporal;
Además, la evaluación debería involucrar tanto a agentes de IA como a expertos humanos, sugieren los investigadores, ya que depender únicamente de expertos humanos es laborioso y costoso. Por ejemplo, CRAFT-MD superó a los evaluadores humanos, procesando 10.000 conversaciones en 48 a 72 horas, más 15 a 16 horas de evaluación de expertos. Por el contrario, un enfoque centrado en el ser humano requeriría un reclutamiento extenso y aproximadamente 500 horas (aproximadamente 3 minutos por conversación) para simulaciones de pacientes y aproximadamente 650 horas (aproximadamente 4 minutos por conversación) para evaluaciones de expertos. El uso de evaluadores de IA como primera línea tiene el beneficio adicional de eliminar el riesgo de que pacientes reales queden expuestos a herramientas de IA no probadas.
Los investigadores dijeron que esperan que CRAFT-MD se actualice y mejore periódicamente para integrar mejores modelos de IA-paciente.
“Como médico científico, estoy interesada en modelos de IA que puedan mejorar de manera efectiva y ética la práctica clínica”, dijo la coautora principal del estudio, Roxana Densjo, profesora asistente de ciencia de datos biomédicos y dermatología en la Universidad de Stanford. “CRAFT-MD crea un marco que refleja más fielmente las interacciones del mundo real y, por lo tanto, ayuda a avanzar en el campo cuando se trata de evaluar el desempeño de los modelos de IA en la atención médica”.
Autoría, financiación, divulgaciones
Los autores adicionales incluyeron a Jaehwan Jeong y Hong-yu Zhou, de la Facultad de Medicina de Harvard. Benjamín A. Tran, Universidad de Georgetown; Daniel I. Schlessinger, Universidad Northwestern; Shannon Wong Webelson, Universidad de California-Los Ángeles; Leandra A. Barnes, Zhuo Ran Cai y David Kim, Universidad de Sandford; y Eliezer M. Van Allen, Instituto del Cáncer Dana-Farber.
Este trabajo fue apoyado por el Premio a la Innovación del HMS Dean y una Beca de Investigación de Modelos de Microsoft Accelerate Foundation para Pranav Rajpurkar. SJ contó además con el apoyo de una beca IIE Quad.
Daneshjou informa honorarios personales de DWA, honorarios personales de Pfizer, honorarios personales de L’Oreal, honorarios personales de VisualDx, opciones sobre acciones de MDAlgorithms y Revea fuera del trabajo presentado y patente pendiente de TrueImage. Schlessinger cofundador de FixMySkin Healing Balms, Appiell Inc. y es accionista de K-Health, consultor de Appiell Inc y LuminDx, e investigador de Abbvie y Sanofi. Van Allen se desempeña como consultor para Enara Bio, Manifold Bio, Monte Rosa, Instituto Novartis de Investigación Biomédica, Serens Bio. EMVA brinda apoyo de investigación a Novartis, BMS, Sanofi y NextPoint. Van Allen tiene acciones en Tango Therapeutics, Genome Medical, Genomic Life, Enara Bio, Manifold Bio, Microsoft, Monte Rosa, Reva Therapeutics, Serens Bio, Sepsi. Van Allen ha solicitado patentes institucionales sobre mutaciones de la cromatina y respuesta a la inmunoterapia, y métodos de interpretación clínica. Se desempeña como asesor legal ocasional sobre las patentes de Foley & Hogg y en su consejo editorial. Avances en la ciencia.