El lenguaje de señas sirve como un medio sofisticado de comunicación para personas sordas o con problemas de audición, que dependen de los movimientos de las manos, las expresiones faciales y el lenguaje corporal para transmitir significados importantes. El lenguaje de señas americano ejemplifica esta complejidad lingüística con su gramática y sintaxis distintivas.
El lenguaje de señas no es universal. Más bien, se utilizan muchas lenguas de señas diferentes en todo el mundo, cada una con su propia gramática, sintaxis y vocabulario, lo que destaca la diversidad y complejidad de las lenguas de señas a nivel mundial.
Se están explorando varios métodos para convertir los gestos con las manos en lenguaje de señas en texto o lenguaje hablado en tiempo real. Para mejorar el acceso a la comunicación de las personas sordas o con problemas de audición, se necesita un sistema confiable en tiempo real que pueda detectar y rastrear con precisión los gestos del lenguaje de señas americano. Este sistema puede desempeñar un papel clave a la hora de derribar las barreras de comunicación y garantizar interacciones más inclusivas.
Para superar estas barreras de comunicación, investigadores de la Facultad de Ingeniería y Ciencias de la Computación de la Universidad Atlántica de Florida llevaron a cabo un estudio, el primero de su tipo, que se centró en reconocer signos del alfabeto del lenguaje de señas estadounidense mediante visión por computadora. Crearon un conjunto de datos personalizado de 29.820 imágenes estáticas de gestos con las manos en lenguaje de señas americano. Utilizando MediaPipe, cada imagen fue anotada con 21 puntos de referencia en la mano, proporcionando información espacial detallada sobre su estructura y posición.
Estas anotaciones jugaron un papel importante en el aumento de la precisión de YOLOv8, el modelo de aprendizaje profundo que entrenaron los investigadores, al permitirle detectar diferencias sutiles en los gestos de las manos.
Los resultados del estudio, publicados en la revista Elsevier. Abierto Franklinmuestra que al aprovechar esta información detallada sobre la postura de la mano, el modelo logra un rendimiento de detección aún mejor, capturando con precisión la compleja estructura de los gestos del lenguaje de señas americano. La combinación de MediaPipe para el seguimiento del movimiento de las manos con YOLOv8 para el entrenamiento dio como resultado un poderoso sistema para reconocer los gestos alfabéticos del lenguaje de señas americano con alta precisión.
“La combinación de MediaPipe y YOLOv8, con hiperparámetros de ajuste para una precisión óptima, representa un enfoque importante e innovador”, dijo Badr al-Sharif, primer autor y Ph.D. Candidato en el Departamento de Ingeniería Eléctrica e Informática de la FAU. “Este enfoque no se ha explorado en investigaciones anteriores, lo que crea una dirección nueva y prometedora para el desarrollo futuro”.
Los resultados mostraron que el modelo funcionó con una precisión del 98 %, la capacidad de identificar correctamente señales del 98 % y una puntuación de rendimiento general (puntuación F1) del 99 %. También logró una precisión media (mAP) del 98 % y una puntuación mAP50-95 más detallada del 93 %, lo que destaca su gran confiabilidad y precisión en el reconocimiento de signos del lenguaje de señas americano.
“Los resultados de nuestra investigación demuestran la capacidad de nuestro modelo para detectar y clasificar con precisión los gestos del lenguaje de signos americano con muy pocos errores”, dijo Al-Sharif. “Es importante destacar que los resultados de este estudio enfatizan no sólo la robustez del sistema, sino también su potencial para ser utilizado en aplicaciones prácticas en tiempo real para una computación humano-computadora más intuitiva. La interacción puede ser posible”.
La integración exitosa de anotaciones históricas de MediaPipe en el proceso de entrenamiento de YOLOv8 mejoró significativamente tanto la precisión del cuadro delimitador como la clasificación de gestos, permitiendo que el modelo capture variaciones sutiles en la postura de la mano. Este enfoque de dos pasos para el seguimiento histórico y la detección de objetos resultó esencial para garantizar una alta precisión y rendimiento del sistema en escenarios del mundo real. La capacidad del modelo para mantener altas tasas de reconocimiento incluso en diferentes posiciones y gestos de las manos resalta su potencia y adaptabilidad en diversos entornos operativos.
“Nuestra investigación demuestra el potencial de combinar algoritmos de detección de objetos de última generación para el reconocimiento de señales en tiempo real, ofreciendo una solución confiable para interpretar el lenguaje de señas estadounidense”, dijo Muhammad Elias, P. HD, coautor y profesor. Departamento de Ingeniería Eléctrica e Informática de la FAU. “El éxito de este modelo se debe en gran medida a la cuidadosa integración del aprendizaje por transferencia, la generación de conjuntos de datos complejos y el ajuste preciso de hiperparámetros. Esta combinación produjo un sistema altamente preciso y confiable para reconocer los gestos del lenguaje de señas americano. ha llevado al desarrollo de. hitos importantes en el campo de la tecnología de asistencia”.
Los esfuerzos futuros se centrarán en ampliar el conjunto de datos para incluir una gama más amplia de formas y gestos de las manos para mejorar la capacidad del modelo para distinguir entre gestos que parecen visualmente similares, aumentando así aún más la precisión de la identificación. Además, optimizar el modelo para su implementación en dispositivos perimetrales será una prioridad, garantizando que mantenga su rendimiento en tiempo real en entornos con recursos limitados.
“Al mejorar el reconocimiento del lenguaje de señas estadounidense, este trabajo ayuda a crear herramientas que ayudan a la comunidad sorda y con problemas de audición”, dijo Stella Batalama, Ph.D., decana de la Facultad de Ingeniería y Ciencias de la Computación de la FAU. “. “La capacidad del modelo para interpretar señales de manera confiable abre la puerta a soluciones más integrales que respalden las interacciones cotidianas inclusivas, ya sea en educación, atención médica o entornos sociales, de estos individuos. Para aquellos que dependen del lenguaje de señas, una solución más simplificada y “Estos avances son muy prometedores para fomentar una sociedad más inclusiva donde se reduzcan las barreras de comunicación”.
La coautora del estudio, Issa Alwani, Ph.D., es una doctora reciente. Graduado de la Facultad de Ingeniería y Ciencias de la Computación de la FAU y profesor asistente en la Universidad Tayyaba, Arabia Saudita.