Según una nueva investigación dirigida por la científica informática de CU Boulder, Theodora Chaspari, algunas herramientas de inteligencia artificial para la atención médica pueden confundirse por la forma en que hablan personas de diferentes géneros y razas.
El estudio se basa en un hecho, quizás tácito, de la sociedad humana: no todos hablan igual. Las mujeres, por ejemplo, tienden a hablar más alto que los hombres, mientras que pueden aparecer diferencias similares entre hablantes blancos y negros.
Ahora, los investigadores han descubierto que esas variaciones naturales pueden confundir los algoritmos que examinan a los humanos en busca de problemas de salud mental como ansiedad o depresión. Los hallazgos se suman a un creciente conjunto de investigaciones que muestran que la IA, al igual que las personas, puede hacer suposiciones basadas en la raza o el género.
“Si la IA no está bien entrenada o no incluye suficientes datos representativos, puede propagar estos prejuicios humanos o sociales”, afirmó Chaspari, profesor asociado del Departamento de Ciencias de la Computación.
Él y sus colegas publicaron sus hallazgos el 24 de julio en la revista Fronteras en salud digital.
Chaspari señaló que la IA podría ser una tecnología prometedora en el mundo de la salud. Los algoritmos afinados pueden examinar grabaciones de personas hablando, buscando cambios sutiles en la forma en que hablan que podrían indicar problemas de salud mental subyacentes.
Pero estos dispositivos tienen que funcionar de manera consistente para pacientes de muchos grupos demográficos, afirmó el informático. Para descubrir si la IA estaba a la altura del trabajo, los investigadores introdujeron muestras de audio de humanos reales en un conjunto combinado de algoritmos de aprendizaje automático. Los hallazgos generaron algunas señales de alerta: por ejemplo, las herramientas de inteligencia artificial subdiagnosticaron que las mujeres tenían un mayor riesgo de depresión que los hombres, un resultado que en el mundo real impide que las personas reciban la atención que necesitan.
“Con la inteligencia artificial, podemos identificar patrones finos que los humanos no siempre pueden percibir”, dijo Chaspari, quien trabajó como miembro de la facultad en la Universidad Texas A&M. “Sin embargo, si bien existe esta oportunidad, también existe un gran riesgo”.
Habla y emociones
Añadió que la forma en que la gente habla puede ser una poderosa ventana a sus emociones subyacentes y su bienestar, algo que los poetas y dramaturgos saben desde hace mucho tiempo.
Las investigaciones muestran que las personas diagnosticadas con depresión clínica suelen hablar de forma más suave y coherente que otras. Mientras tanto, las personas con trastornos de ansiedad tienden a hablar más alto y con más “irritabilidad”, una medida de dificultad al hablar.
“Sabemos que el habla está muy influenciada por la anatomía de cada uno”, dijo Chaspari. “En el caso de la depresión, se han realizado algunos estudios que han demostrado cambios en la forma en que vibran las cuerdas vocales, o incluso en cómo el tracto vocal modula la voz”.
A lo largo de los años, los científicos han desarrollado herramientas de inteligencia artificial para buscar precisamente este tipo de cambios.
Chaspari y sus colegas decidieron poner el algoritmo bajo el microscopio. Para ello, el equipo se basó en grabaciones de humanos hablando en diferentes escenarios: en uno, las personas tenían que hablar con un grupo de extraños durante 10 a 15 minutos. En otro, hombres y mujeres hablaron más tiempo en un ambiente similar a una visita al médico. En ambos casos, los ponentes rellenaron por separado cuestionarios sobre su salud mental. En el estudio participaron los estudiantes universitarios de Texas A&M, Michael Yang y Abdullah Al-Attar.
Corregir sesgos
Los resultados fueron visibles en todas partes.
En grabaciones de discursos públicos, por ejemplo, los participantes latinos informaron sentirse significativamente más nerviosos en promedio que los hablantes blancos o negros. Sin embargo, la IA no logró detectar esta creciente ansiedad. En otro experimento, el algoritmo también marcó un número igual de hombres y mujeres como en riesgo de depresión. De hecho, las oradoras experimentaron síntomas depresivos en tasas mucho más altas.
Chaspari señaló que los hallazgos del equipo son sólo un primer paso. Los investigadores necesitarán analizar grabaciones de muchas más personas de una amplia gama de grupos demográficos antes de poder comprender por qué la IA tuvo un desempeño deficiente en algunos casos y cómo corregir esos sesgos.
Pero, dijo, el estudio es una señal de que los desarrolladores de IA deben proceder con cautela antes de llevar herramientas de IA al mundo médico:
“Si creemos que un algoritmo realmente reduce la depresión en un grupo determinado, es algo sobre lo que debemos informar a los médicos”.