Home Apple Apple lanzó un enorme conjunto de datos de IA para la investigación...

Apple lanzó un enorme conjunto de datos de IA para la investigación de edición de imágenes

2

Apple lanzó Pico-Banana-400K, un conjunto de datos de investigación de 400.000 imágenes que, curiosamente, se creó utilizando el modelo Gemini-2.5 de Google. Aquí están los detalles.

El equipo de investigación de Apple publicó un interesante estudio llamado “Pico-Banana-400K: un conjunto de datos a gran escala para la edición de imágenes guiada por texto”.

Además del estudio, publicaron todo el conjunto de datos de 400.000 imágenes que produjo, con una licencia de investigación no comercial. Esto significa que cualquiera puede usarlo y explorarlo, ya sea para trabajo académico o investigación de IA. En otras palabras, no se puede utilizar comercialmente.

Vale, pero ¿qué es?

Hace unos meses, Google lanzó el modelo de imagen Gemini-2.5-Flash, también conocido como Nanon-Banana, que posiblemente sea el modelo de edición de imágenes de última generación.

Otros modelos también han mostrado mejoras significativas, pero, como dicen los investigadores de Apple:

“A pesar de estos avances, la investigación abierta sigue limitada por la falta de conjuntos de datos de edición a gran escala, de alta calidad y totalmente compartibles. Los conjuntos de datos existentes a menudo dependen de modelos patentados o de generación sintética a partir de subconjuntos limitados seleccionados por humanos. Además, estos conjuntos de datos a menudo exhiben cambios específicos de dominio en calidad, edición de calidad, edición de calidad y cambios de tipo regulatorio. El desarrollo de modelos de edición robustos lo impide”.

Entonces Apple se propuso hacer algo al respecto.

Edificio Pico-Banana-400K

Lo primero que hizo Apple fue extraer una cantidad no especificada de fotografías reales del conjunto de datos de OpenImages, “seleccionadas para garantizar la cobertura de personas, objetos y escenas de texto”.

Sí, en realidad usaron Comic Sun.

Luego, surgió una lista de 35 tipos diferentes de cambios que un usuario podía pedirle al modelo que agrupara en ocho categorías. Por ejemplo:

  • Píxeles y fotometría: Agregue filtros de grano de película o antiguos
  • Centrado en el ser humano: Figura de una persona de juguete estilo Funko-Pop
  • Escenario y multitema: Cambiar las condiciones climáticas (soleado/lluvioso/nevado)
  • Semántica a nivel de objeto: Mover un objeto (cambiar su posición/relación espacial)
  • Escala: Dar un golpe de zoom

A continuación, los investigadores cargarán una imagen en el nanoarte junto con una de estas indicaciones. Una vez creada la imagen editada de Nano-Banana, los investigadores deben analizar los resultados del Gemini-2.5-Pro, aprobándolo o rechazándolo, en función del cumplimiento de las instrucciones y la calidad visual.

El resultado es Pico-Banana-400K, que incluye ediciones de un solo turno (mensajes únicos), secuencias de edición de varios turnos (múltiples mensajes repetidos) e imágenes producidas por pares de opciones que comparan resultados exitosos y no exitosos (para que los modelos también puedan aprender cómo son los resultados indeseables).

Si bien reconocen las limitaciones del Nano-Banana en la edición espacial detallada, la extrapolación del diseño y la tipografía, los investigadores dijeron que esperan que el Pico-Banana-400K “sirva como una base sólida para entrenar y comparar la próxima generación de modelos de edición de imágenes guiados por texto”.

Puedes encontrar estudios arXivY el conjunto de datos está disponible gratuitamente. GitHub.

Ofertas de afiliados en Amazon

Enlace fuente