Muchas aplicaciones robóticas dependen de armas o manos robóticas para manejar una variedad de artículos. El aumento de las aplicaciones de realidad (AR) en robótica, visión por computadora e incluso una realidad aumentada (AR) son una tarea importante pero desafiante. Una dirección prometedora es usar datos multimodales, como imágenes de color (RGB) y profundidad (D). Con la creciente disponibilidad de sensores 3D, ha habido muchos enfoques para aprender a la máquina para aprovechar esta técnica.
Sin embargo, los métodos actuales aún enfrentan dos desafíos principales. En primer lugar, cuando las manos eliminaron, enfrentan una caída de precisión, lo que no está claro las características clave necesarias para las estimaciones de la pose. Además, la interacción entre el objeto introduce cambios no drásticos, lo que complica aún más este problema. Esto sucede cuando el elemento guardado a mano cambia la forma o la estructura del elemento, como cuando se aprieta una bola blanda, distorsione la comprensión del elemento. En segundo lugar, la mayoría de las técnicas actuales se caracterizan por RGBS separados y RGB-D. Backbones, que luego se encuentran a nivel de característica. Dado que estas dos bocanes manejan diferentes maneras, la distribución de la representación puede cambiar como resultado de esta fusión, lo que significa que las características aprendidas de las imágenes RGB pueden ser perjudicadas con las extraídas de la entrada RGBD, lo que afecta la pose estimada. Además, durante la tonificación fina, la interacción densa entre las dos troncos hace que el rendimiento interrumpa el rendimiento y limite los beneficios de agregar propiedades RGB.
Para resolver estos problemas, dirigidos por el profesor asociado del programa global moderno, Phan Zwan Tan, en el Instituto de Tecnología de la Ciudad de Shibora de Japón, junto con otros investigadores de la Facultad de Ingeniería y Universidad FPT, Vietnam, se desarrolló como una red de red especializada. “La innovación clave de nuestro marco de aprendizaje profundo está en un mecanismo de fusión basado en votos, que conecta efectivamente ubicaciones importantes de 2D (RGB) y 3D (profundidad), mientras que ayuda a eventos estimulados a las manos y se agrega a los datos de múltiples modelos, con un puñado de datos basados en la mano. Su estudio se realizó en línea el 17 de febrero del 17 de febrero, 2025 y se publicará en mayo de 2025 en Alexandria Data 120.
El marco de aprendizaje profundo propuesto incluye cuatro componentes: imágenes 2D y datos de nubes de puntos 3D, módulos de votación, un nuevo módulo de fusión basado en un nuevo módulo de fusión y una pose de un objeto con la mano para eliminar las características de alta dimensión del módulo. Inicialmente, los retrocesos 2D y 3D predicen capitores 2D y 3D de ambas manos y artículos de RGB-D. Las capas se refieren a lugares significativos en imágenes de entrada que ayudan a describir las manos y objetos. Posteriormente, los módulos de votación dentro de cada columna votan libremente por sus respectivos clientes.
Luego, estos votos están conectados por un modelo de fusión basado en la votación, que moviliza los votos 2D y 3D utilizando una proyección de vecindad basada en radio y un método de atención del canal. El primero reserva la información local, mientras que el segundo está en línea con varias condiciones de entrada, lo que garantiza el fortalecimiento y la precisión. Esta fusión basada en votos toma efectivamente a RGB y poderes de información relacionados con profundos, lo que reduce los efectos de las contradicciones y malentendidos motivados de la mano, por lo tanto, permite la estimación de la mano con precisión incurable del objeto de la mano.
El último componente, el objeto familiar de la mano se estima, que se suma a la precisión mediante el uso de un método hecho a sí mismo para lograr una relación compleja entre la mano y la tapa del objeto. Esto permite que el sistema tenga en cuenta los cambios no rígidos debido a varios escritos a mano y agarre.
Para probar su marco, los investigadores realizaron experimentos en tres datos públicos. Los resultados mostraron una mejora significativa en la precisión (hasta 15 %) y el enfoque sofisticado. Además, las experiencias del sitio realizaron un promedio de 76.8 % en rendimiento en comparación con los métodos actuales, que tiene un rendimiento de hasta el 13.9 % en comparación con los métodos actuales. El marco ha adquirido tiempos de infraestructura durante 40 ml sin disolución y para 200 ml por 200 mm, con aplicación real del mundo.
“Nuestra investigación resuelve directamente una obstrucción de larga data en la robótica y las industrias de la visión por computadora que estimula en la interacción estimada, dinámica y compleja de objetos de la mano”. “Nuestro punto de vista no solo es más preciso, sino también más fácil que muchas técnicas actuales. Tiene la capacidad de acelerar el despliegue de sistemas con potencia de IA, como líneas de ensamblaje robóticas automáticas efectivas, robótica auxiliar humana y tecnologías profundas de AR/VR”.
En general, este enfoque moderno representa un paso importante en la robótica, que permite al robot manejar elementos complejos de manera más efectiva y puede ser un modelo de más comunicación de almacenamiento de por vida para avanzar en tecnologías AR.










