¿Los humanos o las máquinas son mejores para reconocer el habla? Un nuevo estudio muestra que, en condiciones ruidosas, los sistemas de reconocimiento automático de voz (ASR) existentes logran una precisión notable y, en ocasiones, incluso superan el rendimiento humano. Sin embargo, los sistemas deben entrenarse con cantidades increíbles de datos, mientras que los humanos logran habilidades comparables en menos tiempo.
El reconocimiento automático de voz (ASR) ha logrado avances increíbles en los últimos años, especialmente en idiomas muy hablados como el inglés. Antes de 2020, se asumía en general que las capacidades humanas para el reconocimiento de voz superaban con creces a los sistemas automatizados; sin embargo, algunos sistemas existentes están empezando a igualar el desempeño humano. El objetivo del desarrollo de sistemas ASR siempre ha sido reducir la tasa de error, independientemente del desempeño de las personas en el mismo entorno. Sin embargo, ni siquiera las personas reconocerán el habla con un 100% de precisión en entornos ruidosos.
En un nuevo estudio, la lingüista computacional de la UZH, Eleanor Chodrov, y una colega investigadora de la Universidad de Cambridge, Chloe Patman, compararon dos sistemas ASR populares, el wav2vec 2.0 de Meta y el Whisper de Open AI, con oyentes de inglés británico. Probaron qué tan bien el sistema reconocía el habla en ruido en forma de habla (un ruido estático) o en el ruido de un pub, y lo producía con o sin una mascarilla de algodón.
El último sistema OpenAI es mejor, con una excepción
Los investigadores descubrieron que los humanos aún mantenían una ventaja frente a ambos sistemas ASR. Sin embargo, el sistema ASR grande más reciente de OpenAI, Whisper large-v3, superó significativamente a los oyentes humanos en todas las condiciones de prueba, excepto en el ruido natural de un pub, donde estuvo a la par con los simples humanos. Whisper large-v3 ha demostrado así su capacidad para procesar las características acústicas del habla y asignarlas con éxito al mensaje deseado (es decir, una frase). “Esto fue impresionante porque las oraciones de prueba se presentaron fuera de contexto y era difícil predecir una sola palabra a partir de las palabras anteriores”, dice Eleanor Chodrov.
Amplios datos de entrenamiento
Una mirada más cercana a los sistemas ASR y cómo se entrenan revela que, no obstante, los humanos están haciendo algunas cosas notables. Ambos sistemas de prueba implican un aprendizaje profundo, pero el sistema más competitivo, Whisper, requiere una cantidad increíble de datos de entrenamiento. El wav2vec 2.0 de Meta fue entrenado con 960 horas (o 40 días) de datos de audio en inglés, mientras que el sistema Whisper predeterminado fue entrenado con más de 75 años de datos de voz. El sistema que realmente superó las capacidades humanas fue entrenado durante más de 500 años de habla ininterrumpida. “Los seres humanos son capaces de lograr esta hazaña en sólo unos pocos años”, afirma Chodroff. “El reconocimiento de voz automatizado en casi todos los demás idiomas también sigue siendo un desafío”.
Diferentes tipos de errores
El artículo también muestra que los humanos y los sistemas ASR cometen diferentes tipos de errores. Los oyentes en inglés casi siempre produjeron oraciones gramaticales, pero era más probable que escribieran fragmentos de oraciones, en lugar de tratar de proporcionar una palabra escrita para cada parte de una oración hablada. Por el contrario, wav2vec 2.0 generaba basura frecuentemente en las condiciones más difíciles. Los susurradores también tendían a producir oraciones gramaticales completas, pero era más probable que “llenaran los espacios en blanco” con información completamente incorrecta.










