Home Apple Una nueva investigación de Apple analiza el desarrollo de software impulsado por...

Una nueva investigación de Apple analiza el desarrollo de software impulsado por IA

51

Apple ha publicado tres estudios interesantes que ofrecen una idea de cómo el desarrollo basado en IA puede mejorar el flujo de trabajo, la calidad y la productividad. Aquí están los detalles.

Predicción de errores de software utilizando el modelo de transformador de codificador automático

En este estudio, los investigadores de Apple presentan un nuevo modelo de IA que supera las limitaciones del LLM actual (como “alucinaciones, generación pobre en contexto y pérdida de relaciones comerciales críticas durante la recuperación”), mientras analiza bases de código a gran escala para detectar y predecir errores.

El modelo, llamado ADE-QVAET, tiene como objetivo mejorar la precisión de la predicción de errores combinando cuatro técnicas de IA: evolución diferencial adaptativa (ADE), codificador automático variacional cuántico (QVAE), una capa transformadora y reducción y aumento de ruido adaptativo (ANRA).

En resumen, al ajustar ADE a la forma en que aprende el modelo, QVAE lo ayuda a comprender patrones más profundos en los datos. Mientras tanto, la capa transformadora garantiza que el modelo realice un seguimiento de cómo esos patrones se relacionan entre sí, y ANRA limpia y equilibra los datos para mantener resultados consistentes.

Curiosamente, este no es un LLM que analiza código directamente. En cambio, analiza métricas y datos sobre el código, como complejidad, tamaño y estructura, y busca patrones que puedan indicar dónde pueden ocurrir errores.

Según los investigadores, al medir el rendimiento del modelo en un conjunto de datos de Kaggle creado específicamente para la predicción de errores de software, estos fueron los resultados:

“Durante el entrenamiento con un porcentaje de entrenamiento del 90%, ADE-QVAET logra una alta precisión, exactitud, recuperación y puntuación F1 de 98,08%, 92,45%, 94,67% y 98,12%, respectivamente, en comparación con el modelo de Evolución Diferencial (DE)ML”.

Esto significa que, en general, el modelo es muy confiable y muy efectivo para identificar con precisión errores reales y evitar falsos positivos.

Lea el estudio completo en el blog Machine Learning Research de Apple

Agentic RAG para pruebas de software con gráfico vectorial híbrido y orquestación multiagente

El estudio fue realizado por cuatro investigadores de Apple, tres de los cuales trabajaron en el modelo ADE-QVAET. Aquí, abordan la segunda tarea que consume mucho tiempo a la que se enfrentan los ingenieros de calidad: crear y mantener planes y casos de prueba detallados para grandes proyectos de software.

En este estudio, desarrollan un sistema que utiliza LLM y agentes autónomos de IA para crear y gestionar automáticamente artefactos de prueba, desde planes de prueba hasta informes de validación, manteniendo una trazabilidad total entre los requisitos, la lógica empresarial y los resultados.

En otras palabras, han creado un sistema de inteligencia artificial que puede planificar, escribir y organizar pruebas de software por sí solo, lo que puede ayudar a agilizar el flujo de trabajo de los ingenieros de calidad, que “dedican entre el 30 y el 40 % de su tiempo a crear artefactos de prueba fundamentales como planes de prueba, casos y scripts de automatización”.

Al igual que con el modelo ADE-QVAET, los resultados aquí fueron bastante prometedores:

“El sistema logra mejoras significativas en la precisión del 65% al ​​94,8% y garantiza una trazabilidad integral de los documentos durante todo el ciclo de vida de la ingeniería de calidad. La validación experimental de los proyectos de ingeniería de sistemas corporativos empresariales y de migración de SAP demostró una reducción del 85% en los plazos de prueba, una mejora del 35% en la eficiencia del proyecto y un ahorro de costos del 35%, lo que resulta en una aceleración de 2 meses”.

Por otro lado, los investigadores también señalaron que el marco presenta limitaciones, incluido el hecho de que su trabajo sólo “se centró en sistemas de personal, finanzas y entornos SAP”, lo que limita su generalización.

Lea el estudio completo en el blog Machine Learning Research de Apple

Formación de agentes y verificadores de ingeniería de software con SWE-Gym

Este es quizás el más interesante y ambicioso de los tres estudios.

Si bien los dos estudios anteriores se centraron en predecir dónde podrían aparecer errores y cómo probarlos y verificarlos, la idea detrás de SWE-Gym es entrenar agentes de IA que puedan Realmente arregla el error Aprendiendo a leer, editar y verificar código real.

SWE-Gym se desarrolló utilizando 2438 tareas de Python del mundo real de 11 repositorios de código abierto, cada uno con entornos ejecutables y conjuntos de pruebas para que los agentes puedan practicar la escritura y depuración de código en escenarios realistas.

Los investigadores también desarrollaron SWE-Gym Lite, que contiene 230 tareas más simples y autónomas diseñadas para hacer que el entrenamiento y la evaluación sean más rápidos y menos costosos desde el punto de vista computacional.

Según el estudio, los agentes entrenados con SWE-Gym resolvieron correctamente el 72,5% de las tareas, superando los puntos de referencia anteriores en más de 20 puntos porcentuales.

Mientras tanto, SWE-Gym Lite reduce el tiempo de entrenamiento a la mitad en comparación con la configuración completa, al tiempo que ofrece resultados similares. Por otro lado, la variante lite implica mucho menos trabajo de codificación y mucho más simple, lo que la hace menos útil para probar modelos con problemas más grandes y complejos.

Lea el estudio completo en el blog Machine Learning Research de Apple

Ofertas de afiliados en Amazon

Enlace fuente