¿Alguna vez has deseado poder entender lo que tu perro intenta decirte? Investigadores de la Universidad de Michigan están explorando el potencial de la IA y desarrollando herramientas que pueden identificar si el ladrido de un perro indica alegría o agresión.
Los mismos modelos también pueden recopilar otra información de los sonidos de los animales, como la edad, la raza y el sexo del animal. El estudio, en colaboración con el Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE) de México en Puebla, encontró que los modelos de IA originalmente entrenados en el habla humana podrían ser un punto de partida para entrenar nuevos sistemas que pueden usarse como herramientas dirigidas a la comunicación animal. .
Los resultados se presentaron en la Conferencia Internacional Conjunta sobre Lingüística Computacional, Recursos Lingüísticos y Evaluación.
“Utilizando modelos de procesamiento del habla que inicialmente se entrenaron en el habla humana, nuestra investigación abre una nueva ventana sobre cómo podemos comenzar a comprender los matices del ladrido de un perro más allá de lo que hemos construido hasta ahora en el procesamiento del habla”, dijo Janice M. Jenkins. , Rada Mehalasia. Profesor colegiado de Ingeniería y Ciencias de la Computación y director del Laboratorio de IA de la UM.
“Todavía no sabemos mucho sobre los animales que comparten este mundo con nosotros. Los avances en la IA pueden usarse para revolucionar nuestra comprensión de la comunicación animal, y nuestros hallazgos sugieren que no tenemos que empezar desde cero”.
Uno de los obstáculos para desarrollar modelos de IA que puedan analizar las vocalizaciones de los animales es la falta de datos disponibles públicamente. Aunque existen numerosos recursos y oportunidades para registrar el habla humana, recopilar dichos datos de los animales es más difícil.
“Solicitar y grabar vocalizaciones de animales es logísticamente muy difícil”, dijo el autor principal Artem Abzalev, estudiante de doctorado en informática e ingeniería de la UM. “Deben ser registrados pasivamente en estado salvaje o con el permiso de los dueños en el caso de mascotas domésticas”.
Debido a esta falta de datos utilizables, ha resultado difícil desarrollar técnicas para analizar las vocalizaciones de los perros, y las que existen están limitadas por la falta de material de entrenamiento. Los investigadores superaron estos desafíos reutilizando un modelo existente que fue diseñado originalmente para analizar el habla humana.
Este enfoque permitió a los investigadores aprovechar modelos sólidos que forman la columna vertebral de varias tecnologías habilitadas para voz que utilizamos hoy en día, incluida la traducción de voz a texto y de idiomas. Estos modelos están entrenados para distinguir las sutilezas del habla humana, como la entonación, el tono y la entonación, y para convertir esa información en un formato que las computadoras puedan usar para identificar qué palabras se pronuncian, reconocer hablantes individuales y más.
“Estos modelos son capaces de aprender y codificar patrones increíblemente complejos del lenguaje y el habla humanos”, dijo Abzalev. “Queríamos ver si podíamos aprovechar esta capacidad para comprender e interpretar los ladridos de los perros”.
Los investigadores utilizaron un conjunto de datos de vocalizaciones caninas registradas en 74 perros de diferentes razas, edades y sexos en diferentes contextos. Humberto Pérez-Espinosa, colega del INAOE, dirigió el equipo de recopilación del conjunto de datos. Luego, Abzalev utilizó las grabaciones para modificar un modelo de aprendizaje automático, un tipo de algoritmo informático que identifica patrones en grandes conjuntos de datos. El equipo eligió un modelo de representación del habla llamado Wav2Vec2, que originalmente se entrenó con datos del habla humana.
Con este modelo, los investigadores pudieron crear representaciones de datos vocales recopilados de perros e interpretar esas representaciones. Descubrieron que Wav2Vec2 no sólo tuvo éxito en cuatro tareas de clasificación. También superó a otros modelos entrenados específicamente con datos de ladridos de perros, con cifras de precisión de hasta el 70%.
“Esta es la primera vez que se adaptan técnicas adecuadas al habla humana para ayudar a decodificar la comunicación animal”, dijo Mihalcea. “Nuestros hallazgos muestran que los sonidos y patrones derivados del habla humana pueden servir como base para analizar y comprender los patrones acústicos de otros sonidos, como las vocalizaciones de animales”.
Además de establecer modelos de habla humana como una herramienta útil para analizar la comunicación animal, que puede beneficiar a biólogos, conductistas animales y más, esta investigación también ha contribuido al bienestar animal. Los investigadores dijeron que comprender los matices de las vocalizaciones de los perros podría mejorar en gran medida la forma en que los humanos interpretan y responden a las necesidades físicas y emocionales de los perros, aumentando así su cuidado y se pueden prevenir situaciones potencialmente peligrosas.