Home Smartwatch Una nueva forma de crear formas 3D realistas utilizando IA creativa

Una nueva forma de crear formas 3D realistas utilizando IA creativa

100
0

La creación de modelos 3D realistas para aplicaciones como la realidad virtual, la realización de películas y el diseño de ingeniería puede ser un proceso engorroso que requiere muchas pruebas y errores manuales.

Si bien los modelos creativos de inteligencia artificial para imágenes pueden agilizar el proceso artístico al permitir a los creadores crear imágenes 2D realistas a partir de señales textuales, estos modelos no están diseñados para crear formas 3D. Para llenar este vacío, una técnica desarrollada recientemente llamada destilación de partituras aprovecha los modelos de generación de imágenes 2D para crear formas 3D, pero su resultado suele ser borroso o caricaturesco.

Los investigadores del MIT exploraron las relaciones y diferencias entre los algoritmos utilizados para crear imágenes 2D y formas 3D, identificando la causa raíz de los modelos 3D de baja calidad. A partir de ahí, desarrollaron una solución simple para la destilación de puntajes, que permite la creación rápida de formas 3D de alta calidad que tienen una calidad más cercana a las mejores imágenes 2D generadas por modelos.

Algunos otros enfoques intentan resolver este problema reentrenando o ajustando el modelo de IA generativa, lo que puede resultar costoso y consumir mucho tiempo.

Por el contrario, la técnica de los investigadores del MIT logra una calidad de forma 3D igual o mejor que esos métodos sin capacitación adicional ni posprocesamiento complejo.

Además, al identificar la causa del problema, los investigadores han mejorado la comprensión matemática de la destilación de puntuaciones y las técnicas relacionadas, lo que permite que trabajos futuros mejoren aún más el rendimiento.

“Ahora sabemos a dónde ir, lo que nos permite encontrar soluciones más eficientes, más rápidas y de mayor calidad”, dice Artem Lukoyanov, estudiante de posgrado en Ingeniería Eléctrica e Informática (EECS), Artem Lukoyanov. “A largo plazo, nuestro trabajo podría ayudar a simplificar el proceso para que los diseñadores se conviertan en copilotos, facilitando la creación de formas 3D más realistas”.

Los coautores de Lukoianov son Haitz Sáez de Ocáriz Borde, estudiante de posgrado de la Universidad de Oxford. Kristjan Greenwald, científica investigadora del Laboratorio de IA Watson del MIT-IBM; Vitor Campagnolo Guizilini, científico del Instituto de Investigación Toyota; Timur Bagotdinov, científico investigador del Meta; y los autores principales Vincent Seitzman, profesor asistente de EECS en el MIT que dirige el Grupo de Representación de Escenas en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL), y Justin Solomon, profesor asociado de EECS y líder del Grupo de Procesamiento de Datos Geométricos de CSAIL. La investigación se presentará en la Conferencia sobre Sistemas de Procesamiento de Información Neural.

De imágenes 2D a formas 3D

Los modelos de difusión, como DALL-E, son un tipo de modelo de IA generativa que puede crear imágenes de por vida a partir de ruido aleatorio. Para entrenar estos modelos, los investigadores agregan ruido a las imágenes y luego le enseñan al modelo a revertir el proceso y eliminar el ruido. Los modelos utilizan este proceso aprendido de “eliminación de ruido” para crear imágenes basadas en la entrada de texto del usuario.

Pero los modelos de difusión son menos eficientes a la hora de crear directamente formas 3D realistas porque no hay suficientes datos 3D para entrenarlos. Para resolver este problema, los investigadores desarrollaron en 2022 una técnica llamada muestreo de destilación de puntuación (SDS) que utiliza un modelo de difusión previamente entrenado para combinar imágenes 2D en una representación 3D.

Esta técnica implica comenzar con una representación 3D aleatoria, proyectar una vista 2D de un objeto deseado desde un ángulo de cámara aleatorio, agregar ruido a esa imagen, definirla con un modelo de difusión y luego refinar la representación 3D aleatoria incluida para que coincida. imagen distorsionada. Estos pasos se repiten hasta que se produzca el objeto 3D deseado.

Sin embargo, las formas 3D producidas de esta manera tienden a verse borrosas o sobresaturadas.

“Esto ha sido un obstáculo durante algún tiempo. Sabemos que el modelo básico tiene potencial para funcionar mejor, pero la gente no sabía por qué sucedía esto con las formas 3D”, dice Lukoyanov.

Los investigadores del MIT exploraron medidas de SDS e identificaron una similitud entre una fórmula que es una parte clave del proceso y su contraparte en los modelos de difusión 2D. La fórmula le dice al modelo cómo actualizar la representación aleatoria agregando y eliminando ruido, paso a paso, para que se parezca a la imagen deseada.

Debido a que parte de esta fórmula implica una ecuación que es demasiado compleja para resolverla de manera eficiente, SDS la reemplaza con ruido muestreado aleatoriamente en cada paso. Los investigadores del MIT descubrieron que este ruido genera formas 3D borrosas o caricaturescas.

Una respuesta aproximada

En lugar de intentar resolver esta compleja fórmula con precisión, los investigadores experimentaron con varias técnicas hasta que identificaron la mejor. En lugar de muestrear aleatoriamente el término de ruido, su técnica de aproximación infiere el término faltante a partir de la representación de forma 3D actual.

“Al hacer esto, como predice el análisis del artículo, se producen formas 3D que parecen nítidas y realistas”, dice.

Además, los investigadores aumentaron la resolución de la representación de la imagen y ajustaron algunos parámetros del modelo para mejorar aún más la calidad de la forma 3D.

Finalmente, pudieron utilizar un modelo de difusión de imágenes previamente entrenado y disponible para crear formas 3D suaves y de apariencia realista sin la necesidad de un costoso reentrenamiento. Los objetos 3D se producen igualmente rápidamente utilizando otros métodos que se basan en soluciones ad hoc.

“Intentar experimentar a ciegas con diferentes parámetros, a veces funciona y otras no, pero no sabes por qué. Sabemos que es una ecuación que necesita ser resuelta. Ahora, nos permite pensar en formas más eficientes de resolverlo”, afirma.

Debido a que su método se basa en un modelo de difusión desarrollado previamente, hereda los sesgos y deficiencias de ese modelo, lo que lo hace propenso a ilusiones y otros fallos. Mejorar el modelo de difusión subyacente aumentará su rendimiento.

Además de estudiar la fórmula para ver cómo pueden resolverla de manera más eficiente, los investigadores están interesados ​​en explorar cómo esta información puede mejorar las técnicas de edición de imágenes.

Source link