Los investigadores de Apple realizaron una prueba A/B para medir cómo las etiquetas de relevancia generadas por IA afectarían las clasificaciones de búsqueda de la App Store y las descargas de aplicaciones. Esto es lo que encontraron.
Las etiquetas de relevancia generadas por IA mejoraron ligeramente las conversiones de búsqueda en la App Store
Un nuevo estudio titulado Ampliar la relevancia de la búsqueda: aumentar las clasificaciones de la App Store con juicios generados por LLMUn equipo de investigadores de Apple investigó si los LLM podrían ayudar a mejorar los resultados de búsqueda de la App Store generando etiquetas relevantes utilizadas para entrenar el sistema de clasificación.
Como explica el estudio, la relevancia es claramente clave para ayudar a los usuarios a encontrar las aplicaciones que buscan. Y si bien hay muchas señales que pueden contribuir a las clasificaciones de búsqueda, los investigadores se han centrado en dos principales:
- Relevancia conductualque refleja cómo los usuarios interactúan con los resultados, por ejemplo, si tocan o descargan una aplicación.
- Relevancia del textoque mide qué tan bien los metadatos de una aplicación (como su nombre, descripción y palabras clave) coinciden semánticamente con la consulta de búsqueda de un usuario.
En el estudio, los investigadores afirmaron que si bien hay muchos datos disponibles sobre relevancia conductual (ya que se puede medir fácilmente), no ocurre lo mismo con la relevancia textual:
Si bien las etiquetas de relevancia conductual son abundantes, las etiquetas de relevancia textual generadas por jueces humanos son mucho más raras. Esto plantea un problema fundamental: las etiquetas de relevancia del texto de alta calidad son escasas y costosas de producir, lo que crea una barrera de escalabilidad y subestima el objetivo de relevancia del texto en la capacitación multiobjetivo.
Para abordar este problema, los investigadores ajustaron un LLM de 3 mil millones de parámetros sobre el juicio humano existente para que pudiera aprender a asignar etiquetas relevantes a las aplicaciones en función de las consultas de búsqueda de los usuarios y los metadatos de las aplicaciones.
Luego, generaron millones de nuevas etiquetas relevantes con ese modelo y volvieron a entrenar el sistema de clasificación de la App Store utilizando tanto los datos originales como las etiquetas generadas por LLM.
Una vez hecho esto, realizaron una evaluación fuera de línea, seguida de pruebas A/B globales en el tráfico en vivo de la App Store:
“(…) el
llm-augmentedEl modelo demostró un aumento estadísticamente significativo de +0,24 % en nuestra métrica principal, la tasa de conversión, definida como la proporción de sesiones de búsqueda con al menos una descarga de aplicación. Si bien este número puede parecer pequeño, se considera una mejora significativa para un clasificador maduro de la industria. Este aumento se observó en el 89% de los escaparates”.
En otras palabras, los usuarios que vieron los resultados de búsqueda utilizando el modelo aumentado de LLM descargaron al menos una aplicación un 0,24% más que los usuarios que vieron los resultados de búsqueda representados por el modelo de clasificación tradicional.
Y si bien el 0,24% es obviamente un aumento muy pequeño, aumenta bastante rápido si consideramos que la mayoría de las estimaciones sitúan el número de descargas de la App Store en alrededor de 38 mil millones en 2025. En la práctica, esto puede traducirse en millones de descargas adicionales de las búsquedas de la App Store, lo que los desarrolladores sin duda apreciarán.
Para leer el estudio completo, Sigue este enlace.










