Home Smartwatch Los investigadores aprovechan las sombras para modelar escenas 3D, incluidos objetos bloqueados...

Los investigadores aprovechan las sombras para modelar escenas 3D, incluidos objetos bloqueados a la vista.

140

Imagínese conducir por un túnel en un vehículo autónomo, pero, sin saberlo, un accidente ha detenido el tráfico que tenía delante. Por lo general, tienes que confiar en el coche que tienes delante para saber cuándo debes empezar a frenar. Pero, ¿qué pasa si su automóvil ve a su alrededor y frena aún más rápido?

Investigadores del MIT y Meta han desarrollado una técnica de visión por computadora que algún día podría permitir que un vehículo autónomo haga precisamente eso.

Introducen un método que crea un modelo 3D físicamente preciso de una escena completa, incluidas las áreas que están bloqueadas de la vista, utilizando imágenes desde una única posición de cámara. Su técnica utiliza sombras para determinar qué hay en las partes ocluidas de la escena.

Él llama a su enfoque PlatoNeRF, basado en la alegoría de la cueva de Platón, una referencia a la “República” del filósofo griego, en la que los prisioneros atrapados en una cueva perciben la realidad del mundo exterior basándose en las sombras proyectadas en la pared de la cueva.

Al combinar la tecnología lidar (detección y alcance de luz) con el aprendizaje automático, PlatoNeRF puede reconstruir la geometría 3D con mayor precisión que algunas técnicas de inteligencia artificial existentes. Además, PlatoNeRF es mejor para renderizar fácilmente escenas donde las sombras son difíciles de ver, como aquellas con mucha luz ambiental o fondos oscuros.

Además de mejorar la seguridad de los vehículos autónomos, PlatoNeRF puede hacer que los auriculares AR/VR sean más eficientes sin necesidad de que el usuario modele y mida la geometría de una habitación. También puede ayudar a los robots del almacén a encontrar artículos más rápido en entornos desordenados.

“Nuestra idea clave era tomar dos cosas que se habían hecho antes en diferentes campos y unirlas: líderes de rebote múltiple y aprendizaje automático. Resulta que cuando los juntas, es cuando obtienes muchas oportunidades nuevas. explorar y tener ambos mundos”, dice Tzofi Klinghoffer, estudiante graduado del MIT en Artes y Ciencias de los Medios, afiliado al MIT Media Lab, y miembro de PlatoNeRF. Dice el autor principal del artículo.

Klinghoffer escribió el artículo con su asesor, Ramesh Raskar, profesor asociado de artes y ciencias de los medios y líder del Camera Culture Group en el MIT. El autor principal Rakesh Ranjan, director de investigación de IA en MetaReality Labs; También Siddharth Somasundram en el MIT y Xiaoyu Xiang, Yuchen Fan y Christian Richardt en Meta. La investigación se presentará en la Conferencia sobre Visión por Computadora y Reconocimiento de Patrones.

Destacando el problema

La reconstrucción de una escena 3D completa desde la perspectiva de una sola cámara es un problema complejo.

Algunos métodos de aprendizaje automático utilizan modelos de IA generativa que intentan predecir qué hay en áreas borrosas, pero estos modelos pueden tergiversar cosas que en realidad no están ahí. Otros métodos intentan estimar las formas de objetos ocultos utilizando sombras en una imagen en color, pero estos métodos pueden tener dificultades cuando las sombras son difíciles de ver.

Para PlatoNeRF, los investigadores del MIT desarrollaron estos métodos utilizando una nueva modalidad de detección llamada láser de fotón único. Los lidars mapean una escena en 3D emitiendo pulsos de luz y midiendo el tiempo que tarda esa luz en rebotar en el sensor. Como los láseres de fotón único pueden detectar fotones individuales, proporcionan datos de alta resolución.

Los investigadores utilizan un láser de fotón único para iluminar un punto objetivo en la escena. Parte de la luz rebota en este punto y regresa directamente al sensor. Sin embargo, la mayor parte de la luz se dispersa y rebota en otros objetos antes de regresar al sensor. PlatoNeRF se basa en estos segundos rebotes de luz.

Al calcular cuánto tiempo tarda la luz en rebotar dos veces y luego regresar al sensor lidar, PlatoNeRF captura información adicional sobre la escena, incluida la profundidad. El segundo rebote de luz también transmite información sobre la sombra.

El sistema rastrea rayos de luz secundarios (aquellos que se alejan del punto objetivo hacia otros puntos de la escena) para determinar qué puntos están en sombra (causado por la ausencia de luz). Según la ubicación de estas sombras, PlatoNeRF puede inferir la geometría de los objetos ocultos.

El lidar ilumina 16 puntos de forma secuencial, tomando múltiples imágenes que se utilizan para reconstruir toda la escena 3D.

“Cada vez que iluminamos un punto de la escena, creamos nuevas sombras. Debido a que tenemos todas estas fuentes de luz diferentes, hay muchos rayos de luz rebotando a nuestro alrededor, por lo que estamos creando sombras en esa región. Recortando lo que está más allá del ojo visible”, afirma Klinghoffer.

Una combinación ganadora

La clave de PlatoNeRF es la combinación de un láser de rebote múltiple con un tipo especial de modelo de aprendizaje automático llamado Neural Radiance Field (NeRF). Un NeRF codifica la geometría de una escena en los pesos de una red neuronal, lo que le da al modelo una gran capacidad para interpolar o inferir nuevas vistas de una escena.

Klinghoffer dice que esta capacidad de interpolación, combinada con el lidar de rebote múltiple, conduce a una reconstrucción de escena altamente precisa.

“El mayor desafío fue descubrir cómo combinar esas dos cosas. Tuvimos que pensar realmente en la física de cómo se mueve la luz con un láser multirrebote y cómo modelarlo con aprendizaje automático”, dice.

Compararon PlatoNeRF con dos métodos alternativos comunes, uno que usa solo lidar y otro que usa NERF solo con imágenes en color.

Descubrieron que su método podía mejorar ambas técnicas, especialmente cuando la resolución del sensor lidar era baja. Esto hará que su enfoque sea más práctico de implementar en el mundo real, donde los sensores de baja resolución son comunes en los dispositivos comerciales.

“Hace unos 15 años, nuestro grupo inventó la primera cámara para ‘ver’ en las esquinas, que funciona aprovechando múltiples rebotes de luz, o ‘ecos de luz’. Estas técnicas involucran láseres y sensores especializados, y desde entonces, lidar La tecnología se ha vuelto más común, lo que ha llevado a investigar cámaras que pueden ver a través de la niebla, lo que significa una relación señal-ruido mucho mayor. Y la calidad de la reconstrucción 3D es impresionante”, dice Rasker.

En el futuro, los investigadores quieren intentar rastrear más de dos rebotes de luz para ver cómo esto podría mejorar la reconstrucción de la escena. Además, están interesados ​​en aplicar técnicas de aprendizaje más profundo y combinar PlatoNeRF con mediciones de imágenes en color para extraer información de textura.

Más información:

Source link