Cuando las personas hablan cara a cara, aproximadamente la mitad de su atención se centra en los movimientos de los labios. Aun así, a los robots todavía les cuesta mover la cara de forma creíble. Incluso las máquinas humanoides más avanzadas a menudo se basan en movimientos faciales rígidos y exagerados que, como una marioneta, asumen que tienen cara.
La gente da mucha importancia a las expresiones faciales, especialmente a los movimientos sutiles de los labios. Si bien un paseo incómodo o gestos torpes con las manos pueden perdonarse, incluso los errores menores en los movimientos faciales tienden a destacarse de inmediato. Esta sensibilidad contribuye a lo que los científicos llaman el “Valle Uncanny”, un fenómeno en el que los robots parecen inertes en lugar de animados. El mal movimiento de los labios es una de las principales razones por las que los robots pueden parecer intimidantes o emocionalmente planos, pero los investigadores dicen que eso podría cambiar pronto.
Un robot que aprende a mover los labios
El 15 de enero, un equipo de Columbia Engineering anunció un gran avance en la robótica humanoide. Por primera vez, los investigadores han desarrollado un robot que puede aprender los movimientos de los labios para hablar y cantar. Sus hallazgos, publicados Robótica científicaEl robot forma palabras en varios idiomas e incluso interpreta una canción de su álbum debut generado por IA, “Hello World_”.
En lugar de depender de reglas predefinidas, el robot aprende mediante la observación. Comenzó descubriendo cómo controlar la cara utilizando 26 motores faciales separados. Para ello, miró su reflejo en un espejo y luego estudió horas de habla humana y vídeos de canto en YouTube para comprender cómo las personas mueven los labios.
“Cuanto más interactúe con la gente, mejor”, afirmó Hod Lipson, profesor de Innovación James y Sally Scapa en el Departamento de Ingeniería Mecánica y director del Creative Machine Lab de Columbia, donde se llevó a cabo la investigación.
Mira el enlace al vídeo “Robot que se hunde los labios” a continuación.
El robot habla solo.
Crear movimientos de labios de apariencia natural en robots es particularmente difícil por dos razones principales. En primer lugar, requiere hardware avanzado con material frontal flexible y motores mucho más pequeños que deben funcionar silenciosamente y en perfecta coordinación. En segundo lugar, los movimientos de los labios están estrechamente relacionados con los sonidos del habla, que cambian rápidamente y dependen de secuencias complejas de sonidos.
Los rostros humanos están controlados por docenas de músculos ubicados debajo de la suave piel, que permiten el movimiento natural al hablar. La mayoría de los robots humanoides, sin embargo, tienen caras rígidas con movimiento limitado. Los movimientos de sus labios suelen estar dictados por ciertas reglas, lo que lleva a expresiones mecánicas y antinaturales que resultan incómodas.
Para abordar estos desafíos, el equipo de Columbia diseñó una cara robótica flexible que contiene una gran cantidad de motores y permite al robot aprender a controlar su propia cara. El robot fue colocado frente a un espejo y experimentó con miles de expresiones faciales aleatorias. Al igual que un niño explora su reflejo, aprende gradualmente qué movimientos motores crean la forma de la cara. Este proceso se basa en lo que los investigadores llaman el modelo de lenguaje “visión-acción” (VLA).
Aprendiendo del habla y el canto humanos
Después de comprender cómo funciona su propia boca, al robot se le mostraron vídeos de personas hablando y cantando. El sistema de inteligencia artificial observó cómo la forma de la cara cambiaba con diferentes sonidos, lo que le permitió conectar la entrada de audio directamente a los movimientos motores. Con esta combinación de autoaprendizaje y observación humana, el robot puede convertir el sonido en movimientos sincronizados de los labios.
El equipo de investigación probó el sistema en varios idiomas, estilos de habla y ejemplos musicales. Incluso sin entender el significado del audio, el robot fue capaz de mover sus labios al ritmo de los sonidos que escuchaba.
Los investigadores reconocen que los resultados no son perfectos. “Tuvimos dificultades especiales con sonidos fuertes como ‘b’ y sonidos de chasquido de labios como ‘w’. Pero estas habilidades probablemente mejorarán con el tiempo y la práctica”, afirmó Lipson.
Sin sincronización labial en la comunicación real
Los investigadores enfatizan que la sincronización de labios es sólo una parte de un objetivo más amplio. Su objetivo es brindar a los robots una forma más rica y natural de interactuar con los humanos.
“Cuando las capacidades de sincronización de labios se combinan con IA conversacional como ChatGPT o Gemini, el efecto añade una profundidad completamente nueva a la conexión que los robots establecen con los humanos”, afirmó Yuhang Hu, quien dirigió la investigación como parte de su trabajo de doctorado. “Cuanto más ven los robots a las personas conversando, mejor imitan las expresiones faciales con las que podemos conectarnos emocionalmente”.
“Cuanto más larga sea la ventana de contexto conversacional, más sensibles al contexto serán estos gestos”, añadió Hu.
Las expresiones faciales como el eslabón perdido
El equipo de investigación cree que la expresión emocional a través del rostro representa un vacío importante en la robótica actual.
“La mayoría de la robótica humanoide hoy en día se centra en el movimiento de piernas y brazos para actividades como caminar y agarrar”, dijo Lipson. “Pero el afecto facial es igualmente importante para cualquier aplicación robótica que implique interacción humana”.
Lipson y Hu esperan que las expresiones faciales realistas sean cada vez más importantes a medida que los robots humanoides se introduzcan en el entretenimiento, la educación, la atención sanitaria y el cuidado de personas mayores. Algunos economistas estiman que en la próxima década se podrían construir más de mil millones de robots humanoides.
“No hay futuro en el que todos estos robots humanoides no tengan cara. Y cuando finalmente la tengan, tendrán que mover los ojos y los labios correctamente, o serán anormales para siempre”, dijo Lipson.
Hu añade: “Los humanos estamos conectados de esa manera y no podemos evitarlo. Estamos a punto de cruzar el valle inquietante”.
Riesgo y progreso responsable
El trabajo se basa en los esfuerzos de larga data de Lipson para ayudar a los robots a establecer conexiones más naturales con los humanos aprendiendo comportamientos faciales como sonrisas, contacto visual y habla. Sostiene que estas habilidades deberían aprenderse mediante la observación en lugar de programarse mediante una instrucción estricta.
“Algo mágico sucede cuando un robot aprende a reír o hablar viendo y escuchando a la gente”, dijo. “Soy un robotista triste, pero no puedo devolverle la sonrisa a un robot que me sonríe espontáneamente”.
Hu enfatizó que el rostro humano es una de las herramientas de comunicación más poderosas y los científicos apenas están comenzando a comprender cómo funciona.
“Los robots con estas capacidades obviamente tendrán una mejor capacidad para conectarse con los humanos porque una parte tan importante de nuestra comunicación implica el lenguaje facial y corporal, y todo ese canal aún está sin explotar”, dijo Hu.
Los investigadores también reconocen las preocupaciones éticas que conlleva la creación de máquinas que puedan interactuar emocionalmente con los humanos.
“Será una tecnología poderosa. Tenemos que avanzar lentamente y con cuidado, para poder cosechar los beneficios y minimizar los riesgos”, afirmó Lipson.










