Home Smartwatch El nuevo número de IA produce imágenes de alta calidad más rápido...

El nuevo número de IA produce imágenes de alta calidad más rápido que el sofisticado punto de vista

2

Para crear un entorno artificial realista, la capacidad de producir rápidamente imágenes de alta calidad es muy importante que pueda usarse para entrenar automóviles autopoderados para que puedan evitar riesgos inesperados, que se guardarán en caminos reales.

Pero las técnicas generativas de IA que se utilizan para producir tales imágenes son defectos. Un tipo de modelo famoso, llamado modelo de dispersión, puede crear increíbles imágenes realistas, pero es muy lento y informal para muchas aplicaciones. Por otro lado, Power LLM como el chat GPT que son muy rápidos, pero producen imágenes de baja calidad que a menudo se usan por errores.

Investigadores del MIT y NVDIA desarrollaron un nuevo enfoque que combina lo mejor de ambos sentidos. Su herramienta de generación de imágenes híbridas utiliza un modelo automatizado para capturar la imagen grande rápidamente y luego utiliza un pequeño modelo de dispersión para mejorar los detalles de la imagen.

Su dispositivo, conocido como corazón (abreviatura de transformador autográfico híbrido) puede producir imágenes que pueden igualar o exceder el estándar de modelos sofisticados, pero funcionar casi nueve veces más rápido.

El proceso de reproducción utiliza menos recursos computacionales que los modelos ordinarios, lo que permite a HART funcionar localmente en computadoras portátiles o teléfonos inteligentes comerciales. Un usuario solo necesita ingresar un indicador de lenguaje natural a la interfaz del corazón para producir icono.

Heart puede tener muchas aplicaciones, como investigadores para ayudar a los robots a completar tareas complejas del mundo real y ayudar a los diseñadores a crear escenas increíbles para los videojuegos.

“Si está pintando el paisaje, y solo pinta todo el lienzo una vez, no se ve muy bien. Pero si pinta el panorama general y luego mejora la imagen con una pequeña carrera de pincel, su pintura puede verse mucho mejor. Esta es la idea básica de un nuevo artículo con un nuevo artículo”, corazón “.

Junto con esto, Yachng Woo, co -líder, que es estudiante universitario en la Universidad de Singhwa. El autor senior Song Han, profesor asociado del Departamento de Ingeniería Eléctrica e Informática (EECS), miembro del Laboratorio MIT-IBM Watson AI y un destacado científico de Nvidia. Además, junto con otros en el MIT, la Universidad de Singhwa y otros. Esta investigación se presentará en la Conferencia Internacional sobre Aprendizaje.

Mejor en ambos mundos

El modelo popular, como la dispersión estable y Dale-A, es conocido por producir imágenes altamente detalladas. Estos modelos producen imágenes a través de un proceso problemático donde predicen cierta cantidad de ruido aleatorio en cada píxel, reducen el ruido y luego repiten el proceso de predecir varias veces hasta que producen un nuevo icono que está completamente libre de ruido.

Dado que el modelo de dispersión es nuevo en todos los píxeles en una imagen en cada etapa, y puede haber 30 o más pasos, este proceso es lento y computacional. Pero dado que el modelo tiene muchas posibilidades para corregir los detalles, ha salido mal, las imágenes son de alta calidad.

Los modelos automáticos, que se usan comúnmente para predecir el texto, pueden producir imágenes prediciendo una imagen de una imagen, algunos píxeles a la vez. No pueden regresar y no corregir sus errores, pero el orden es mucho más rápido que la predicción.

Estos modelos utilizan representantes conocidos como token para predecir. Un modelo automático utiliza un codificador automático para comprimir los píxeles de imagen sin procesar en un token discreto, así como para reestructurar el icono del token de pronóstico. Aunque esto aumenta el modelo del modelo, la pérdida de información durante la compresión causa errores cuando el modelo produce un nuevo icono.

Con el corazón, los investigadores desarrollaron un enfoque híbrido que utiliza un modelo automatizado para predecir el token de imagen comprimido y discreto, luego un pequeño modelo de hilado para predecir el token residual. Los tokens restantes recuperan los detalles que dejan el token de tokens y compensan la pérdida de la información del modelo.

“Podemos lograr una gran promoción en términos de la calidad de la reconstrucción”, dice Tang.

Dado que el modelo de dispersión predice el resto de los detalles solo cuando el modelo automatizado ha hecho su trabajo, puede lograr el trabajo en ocho etapas, se debe crear un modelo de soplado estándar en lugar de 30 o más normales. Este modelo de conducción adicional permite que el corazón mínimo mantenga la rápida ventaja del modelo autoorgical, mientras que aumenta significativamente su capacidad para producir detalles de imagen complejos.

Agregó: “Es fácil trabajar como modelo, lo que conduce a un mayor rendimiento”.

Mejorar los grandes modelos

Durante el desarrollo del corazón, los investigadores enfrentaron desafíos para conectar efectivamente el modelo perezoso para mejorar el modelo de suicidio. Descubrió que agregar errores en las primeras etapas del proceso de suicidio resultante del modelo brutal. En cambio, su diseño final de aplicar solo para predecir el token pendiente ha mejorado significativamente como una etapa final.

Su método, que utiliza una combinación de un modelo de transformador autográfico con 700 millones de parámetros y una combinación de diferenciales livianos con 37 millones de parámetros, puede producir las mismas imágenes de calidad que han sido creadas por un modelo de dispersión con 2 mil millones de parámetros, pero es aproximadamente nueve veces más rápido. Utiliza aproximadamente 31 % de cálculos más bajos que los últimos modelos.

Además, debido a que el corazón utiliza un modelo automático para contribuir a la mayoría de las obras, el mismo tipo de modelo que fortalece LLM, esta visión unida es más compatible con la nueva clase de modelos generosos de lenguaje. En el futuro, uno puede interactuar con un modelo generativo de lenguaje de Visión Unida, pidiéndole que muestre pasos intermedios necesarios para recolectar un mueble.

“LLM tiene una buena interfaz para todo tipo de modelos, como modelos y modelos multimodales que pueden causar. Esta es una forma de impulsar la inteligencia hacia una nueva frontera. Un modelo de generación de imágenes efectivo abrirá muchas posibilidades”.

En el futuro, los investigadores quieren seguir este camino y crear un modelo de lenguaje de visión en la parte superior de la arquitectura del corazón. Dado que el corazón se expande y se comunica para muchas maneras, también quieren usarlo para predicciones de generación de videos y audio.

Esta investigación fue parcialmente proporcionada por Mibm Watson AI Lab, MIT y Amazon Science Center, Mitai Hardware Program y National Science Foundation. La infraestructura de GPU fue donada por NVIDIA para capacitar a este modelo.

Source link