Un equipo de la Universidad de Surrey y la Universidad de Stanford ha desarrollado una nueva forma de enseñar a la inteligencia artificial (IA) a comprender los dibujos lineales humanos, incluso aquellos que no son artistas.
El nuevo modelo se acerca a los niveles de desempeño humano en el reconocimiento de diagramas de escenas.
La Dra. Yulia Griadtskaya, profesora del Centro de Procesamiento de Visión, Habla y Señales (CVSSP) de Surrey y del Instituto de Inteligencia Artificial Centrada en las Personas (PAI) de Surrey, dijo:
“El boceto es un poderoso lenguaje de comunicación visual. A veces es más expresivo y flexible que el lenguaje hablado.
“Desarrollar herramientas para comprender diagramas es un paso hacia una interacción persona-computadora más poderosa y flujos de trabajo de diseño más eficientes. Los ejemplos incluyen poder ubicar un objeto dibujándolo o creando imágenes”.
Personas de todas las edades y procedencias utilizan el dibujo para explorar y comunicar nuevas ideas. Aun así, históricamente los sistemas de IA han tenido dificultades para comprender los diagramas.
Hay que enseñar a la IA a comprender las imágenes. Normalmente, esto implica un laborioso proceso de recopilación de etiquetas para cada píxel de la imagen. Luego, la IA aprende de estas etiquetas.
En cambio, el equipo enseñó a la IA utilizando una combinación de diagramas y explicaciones escritas. Aprendió a agrupar píxeles, relacionándolos con una de las categorías de detalles.
La IA resultante demostró una comprensión mucho más rica y humana de estos dibujos que los métodos anteriores. Identificó y etiquetó correctamente cometas, árboles, jirafas y otros objetos con un 85% de precisión. Superó a otros modelos que dependían de píxeles etiquetados.
Además de identificar objetos en una escena compleja, puede identificar qué trazos de lápiz estaban destinados a representar cada objeto. El nuevo método funciona bien con bocetos informales hechos por no artistas, así como con dibujos de objetos en los que no se entrenó explícitamente.
La profesora Judith Fein, profesora asistente de psicología en la Universidad de Stanford, dijo:
“El dibujo y la escritura se encuentran entre las actividades humanas más importantes y han sido útiles durante mucho tiempo para captar las observaciones e ideas de las personas.
“Este trabajo representa un progreso emocionante hacia sistemas de IA que comprenden la esencia de las ideas que las personas intentan transmitir, independientemente de si utilizan imágenes o texto”.
La investigación es parte del Instituto de IA centrada en las personas de Surrey, y específicamente de su programa SketchX. Utilizando IA, SketchX intenta comprender cómo dibujamos el mundo tal como lo vemos.
El profesor Yi-Zhe Song, codirector del Instituto de IA centrada en las personas y líder de SketchX, dijo:
“Esta investigación es un gran ejemplo de cómo la IA puede aumentar las actividades humanas básicas como dibujar. Al comprender los dibujos en bruto con una precisión casi humana, esta tecnología puede aprovechar la creatividad natural de las personas independientemente de su capacidad artística”.
Los resultados se presentarán en la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones 2024. Se llevará a cabo del 17 al 21 de junio de 2024 en Seattle.










