- Un nuevo estudio muestra que los sistemas de inteligencia artificial utilizados para diagnosticar el cáncer a partir de diapositivas de patología no funcionan igual de bien para todos los pacientes, y la precisión varía según los diferentes grupos de población.
- Los investigadores identificaron tres factores clave detrás de este sesgo y desarrollaron un nuevo método que redujo significativamente estas diferencias.
- Los hallazgos subrayan por qué la IA médica debe evaluarse de forma rutinaria en busca de sesgos para ayudar a garantizar una atención oncológica justa y confiable para todos.
Fundamentos de Patología y Diagnóstico del Cáncer
Durante décadas, la patología ha sido esencial para la forma en que los médicos diagnostican y tratan el cáncer. Un patólogo estudia una pieza extremadamente delgada de tejido humano bajo un microscopio, buscando signos visuales que revelen si hay cáncer y, de ser así, en qué tipo y etapa se encuentra.
Para un especialista capacitado, examinar una muestra de tejido rosado y arremolinado salpicado de células violetas es como calificar una prueba sin nombre: la diapositiva contiene información importante sobre la enfermedad, pero no da pistas sobre quién es el paciente.
Cuando la IA ve más de lo esperado
Esta suposición no se aplica plenamente a los sistemas de inteligencia artificial que ahora ingresan a los laboratorios de patología. Un nuevo estudio dirigido por investigadores de la Facultad de Medicina de Harvard muestra que los modelos patológicos de IA pueden inferir detalles de la población directamente a partir de portaobjetos de tejido. Esta capacidad impredecible puede introducir sesgos en el diagnóstico del cáncer en diferentes grupos de pacientes.
Después de evaluar varios modelos de IA ampliamente utilizados diseñados para detectar cáncer, los investigadores descubrieron que estos sistemas no funcionan igual de bien para todos los pacientes. La precisión del diagnóstico varía según la raza, el sexo y la edad autoinformados por los pacientes. El equipo también descubrió varias razones por las que se produce esta disparidad.
Para resolver el problema, los investigadores desarrollaron un marco llamado FAIR-Path, que redujo significativamente el sesgo en los modelos probados.
“Leer una población a partir de un portaobjetos de patología se considera una ‘misión imposible’ para un patólogo humano, por lo que el sesgo en la IA de patología fue una sorpresa para nosotros”, dijo el autor principal Kun-Hsing Yu, profesor asociado de informática biomédica en el Instituto Blavatnik y profesor asistente en el Hospital HMS y el Hospital Brigham.
Yu enfatizó que reconocer y corregir el sesgo en la IA médica es importante, ya que puede afectar directamente la precisión del diagnóstico y los resultados de los pacientes. El éxito de FAIR-Path sugiere que mejorar la equidad en la IA de la patología del cáncer, y quizás otras herramientas médicas de IA, puede no requerir cambios importantes en los sistemas existentes.
El trabajo, que fue financiado en parte con fondos federales, se describe en la edición del 16 de diciembre de Cell Reports Medicine.
Examinando la IA del cáncer
Yu y sus colegas examinaron el sesgo en cuatro modelos patológicos de IA de uso común que se están desarrollando actualmente para el diagnóstico del cáncer. Estos sistemas de aprendizaje profundo se entrenaron en grandes colecciones de portaobjetos de patología etiquetados, lo que les permitió aprender patrones biológicos y aplicar ese conocimiento a nuevas muestras.
El equipo evaluó los modelos utilizando un gran conjunto de datos multiinstitucional que incluía diapositivas de patología de 20 tipos diferentes de cáncer.
En los cuatro modelos, las brechas de desempeño surgieron consistentemente. Los sistemas de IA eran menos precisos para ciertos grupos demográficos definidos por raza, género y edad. Por ejemplo, los modelos tuvieron dificultades para distinguir los subtipos de cáncer de pulmón entre pacientes afroamericanos y pacientes masculinos. También mostraron menos precisión al clasificar los subtipos de cáncer de mama en pacientes más jóvenes. Además, los modelos tuvieron dificultades para detectar cánceres de mama, riñón, tiroides y estómago en algunos grupos de población. En general, estas disparidades aparecieron en aproximadamente el 29 por ciento de las tareas de diagnóstico analizadas.
Según Yu, estos errores se producen porque los sistemas de IA extraen información demográfica de imágenes de tejidos y luego se basan en patrones asociados con esa población al tomar decisiones de diagnóstico.
Los resultados fueron inesperados. “Porque esperaríamos que la evaluación patológica fuera objetiva”, dijo Yu. “Al evaluar las imágenes, no necesariamente necesitamos conocer la población de pacientes para hacer un diagnóstico”.
Esto llevó a los investigadores a plantearse una pregunta clave: ¿Por qué la IA patológica no cumplió con los mismos estándares de objetividad?
Por qué aparece la patología del sesgo en la IA
El equipo identificó tres contribuyentes principales al sesgo.
En primer lugar, los datos de entrenamiento suelen ser desiguales. Las muestras de tejido son más fáciles de obtener de algunos grupos demográficos que de otros, lo que da como resultado conjuntos de datos desequilibrados. Esto dificulta que los modelos de IA diagnostiquen cáncer en grupos subrepresentados, incluidas algunas poblaciones definidas por raza, edad o género.
Sin embargo, Yu señaló que “el problema resulta ser mucho más profundo que eso”. En varios casos, los modelos funcionaron mal para ciertos grupos de población incluso cuando los tamaños de muestra eran los mismos.
Un análisis más detallado indicó diferencias en la incidencia de la enfermedad. Algunos cánceres ocurren con más frecuencia en determinadas poblaciones, lo que permite que los modelos de IA sean particularmente precisos para esos grupos. Como resultado, los mismos modelos pueden tener dificultades para diagnosticar cánceres en poblaciones donde estas enfermedades son menos comunes.
Los investigadores también descubrieron que los modelos de IA pueden detectar diferencias moleculares sutiles en grupos de población. Por ejemplo, los sistemas pueden identificar mutaciones en genes que provocan cáncer y utilizarlas como atajos para clasificar los tipos de cáncer, lo que puede reducir la precisión en poblaciones donde estas mutaciones son menos comunes.
“Descubrimos que la IA es tan poderosa que puede distinguir muchas señales biológicas oscuras que no pueden detectarse mediante una evaluación humana estándar”, dijo Yu.
Con el tiempo, esto puede hacer que los modelos de IA se centren en señales más estrechamente relacionadas con la población que con la enfermedad, lo que socava la eficacia del diagnóstico en diferentes grupos de pacientes.
En conjunto, dijo Yu, estos resultados muestran que los sesgos en la IA patológica se ven afectados no solo por la calidad y el equilibrio de los datos de entrenamiento, sino también por los modelos entrenados para interpretar lo que ven.
Un nuevo método para reducir el sesgo
Después de identificar las fuentes de sesgo, los investigadores se propusieron corregirlas.
Desarrollaron FAIR-Path, un marco basado en un método de aprendizaje automático existente conocido como aprendizaje contrastivo. Este enfoque modifica el entrenamiento de la IA para que los modelos se centren más en diferencias complejas, como las diferencias entre tipos de cáncer, al tiempo que reducen la atención a diferencias menos relevantes, incluidas las características demográficas.
Cuando se aplica el camino FAIR a los modelos probados, la discriminación diagnóstica se reduce en aproximadamente un 88 por ciento.
“Demostramos que al hacer estos pequeños ajustes, los modelos pueden aprender características sólidas que los hacen más generalizables y justos entre diferentes poblaciones”, dijo Yu.
El resultado es alentador, añadió, porque sugiere que es posible una reducción significativa del sesgo sin un conjunto de datos de entrenamiento perfectamente equilibrado o totalmente representativo.
De cara al futuro, Yu y su equipo están trabajando con instituciones de todo el mundo para estudiar el sesgo patológico de la IA en regiones con diferentes poblaciones, prácticas clínicas y entornos de laboratorio. También están explorando cómo adaptar FAIR-Path a situaciones con datos limitados. Otra área de interés es comprender cómo el sesgo impulsado por la IA contribuye a mayores disparidades en la atención médica y los resultados de los pacientes.
En última instancia, dijo Yu, el objetivo es crear sistemas de IA de patología que ayuden a los especialistas humanos a realizar diagnósticos rápidos, precisos y justos para todos los pacientes.
“Creo que hay esperanza de que si somos más conscientes y cuidadosos sobre cómo diseñamos los sistemas de IA, podremos crear modelos que puedan funcionar bien en todas las poblaciones”, dijo.
Autoría, financiación, divulgación
Otros autores del estudio incluyen a Shih-Yen Lin, Pei-Chen Tsai, Fung-Ye Su, Chun-Yen Chen, Fuchen Li, Junhan Zhao, Yuk Yung Ho, Sung-Lu Michael Lee, Elizabeth Healy, Po-Jen Lin, Ting-Wan Kao, Dmytro Vremenko, Rosen Thoma, Schoen, Rose, Deborah Dillon y Nancy Yu. Lynn, David Meredith, Keith L. Ligon, Ying-Chun Low, Nippon Chaisuria, David J. Cook, Adelheid Wohrer, Jeffrey Meyerhardt, Shuji Ogino, McLean P. Nasrallah, Jeffrey A. Golden, Sabina Signoresi y Chiying Signoresi.
Financiado por el Instituto Nacional de Ciencias Médicas Generales y el Instituto Nacional del Corazón, los Pulmones y la Sangre de los Institutos Nacionales de Salud (Subvenciones R35GM142879, R01HL174679), Departamento de Defensa (Premio al Desarrollo Profesional del Programa de Investigación del Cáncer Revisado por Pares de la Sociedad Estadounidense HT9425-231). RSG-24-1253761-01-ESED), un premio Google Research Scholar, un premio a la innovación del decano de la Facultad de Medicina de Harvard, el Consejo Nacional de Ciencia y Tecnología de Taiwán (subvenciones NSTC 113-2917-I-006-009, 112-2634-F-006-, NSTC 113-2321-B-006-023, 114-2917-I-006-016), y una beca para estudiantes de doctorado de la Fundación Educativa Jin Miao.
fue consultor de Ligon Travera, Bristol Myers Squibb, Servier, IntegraGen, LEK Consulting y Blaze Bioscience; recibió capital de Travera; y cuenta con financiación para investigación de Bristol Myers Squibb y Lilly. Vremenko es cofundador y accionista de Vectorly.
Los autores prepararon el manuscrito inicial y utilizaron ChatGPT para editar secciones seleccionadas para mejorar la legibilidad. Después de utilizar esta herramienta, los autores revisan y editan el contenido requerido y asumen total responsabilidad por el contenido del artículo publicado.











