Home Apple Explicación del modelo Foundation de tercera generación de Apple

Explicación del modelo Foundation de tercera generación de Apple

18

Durante la conferencia magistral de la WWDC26, Apple anunció su Apple Foundation Model (AFM) de tercera generación, que consta de cinco modelos, algunos de los cuales son locales, otros están basados ​​en la nube y uno de los cuales reside en los servidores de Google que se ejecutan en chips Nvidia. Aquí hay un desglose de cómo funcionará.

Un poco de trasfondo

Cuando Apple anunció por primera vez su modelo Foundation en 2024, la línea incluía un modelo de lenguaje en el dispositivo con alrededor de 3 mil millones de parámetros y “un modelo de lenguaje más grande basado en servidor disponible con computación en la nube privada y ejecutándose en Apple Silicon Servers”, según la compañía. guárdalo a tiempo

La computación en la nube privada fue una ambicioso Emprender, ya que tiene como objetivo proporcionar capacidades de IA basadas en la nube que garanticen la misma preservación de la privacidad que los usuarios esperan del procesamiento en el dispositivo.

Por eso, era fundamental mantener todo en el interior. La computación en la nube privada se ejecuta en los centros de datos de Apple en servidores con tecnología de silicio de Apple. Sin embargo, investigadores de seguridad externos pueden verificar de forma independiente sus garantías de privacidad.

Sin embargo, mientras Apple lucha por hacer despegar sus aspiraciones de IA, la compañía se ha asociado con Google para utilizar Gemini como columna vertebral de sus nuevos esfuerzos de IA, cuyos resultados anunció durante la conferencia magistral de la WWDC26 a principios de esta semana.

El nuevo modelo Foundation de Apple

La tercera generación de AFM consta de cinco modelos: AFM 3 núcleos Y Código AFM 3 mejoradocuál es el modelo en el dispositivo, y Nube AFM, Nube ADM 3 (imagen)Y AFM 3 Nube Proque está basado en servidor. La D en ADM 3 Cloud (en la foto) significa Difusión, una tecnología que hemos cubierto aquí en el pasado.

A excepción del AFM 3 Cloud Pro, todos los demás modelos se crearon para ejecutarse en dispositivos Apple Silicon. Mientras tanto, AFM 3 Cloud Pro se ejecuta en GPU NVIDIA alojadas en Google Cloud.

Esto es posible gracias a Apple expandir Según la compañía, su arquitectura de computación en la nube privada es la primera que se implementa en una infraestructura de terceros “manteniendo al mismo tiempo las sólidas protecciones de seguridad y privacidad de Apple”.

En cuanto a los modelos, aquí tienes un desglose de cada uno, según explica Apple:

  • AFM 3 Core, la próxima generación de nuestro modelo denso de 3 mil millones de parámetros con un paso adelante en calidad.
  • AFM 3 Core Advanced, nuestro modelo en dispositivo más potente. Permite funciones de asistencia como multimodal nativo, voz expresiva e indicaciones de alta precisión. Basado en investigaciones de vanguardia de Apple, este modelo de 20 mil millones de parámetros utiliza una arquitectura dispersa, lo que permite solo entre 1 y 4 mil millones de parámetros a la vez, según la solicitud. AFM 3 Core Advanced está desbloqueado y optimizado por nuestro sistema de silicio Apple más capaz
  • AFM 3 Cloud, nuestro caballo de batalla del lado del servidor, está optimizado para ofrecer velocidad, eficiencia y rendimiento.
  • ADM 3 para Cloud (Imagen), generación y edición de imágenes, que desbloquea herramientas avanzadas de edición de fotografías, un campo de juego de imágenes completamente nuevo y más.
  • AFM 3 Cloud Pro, nuestro modelo basado en servidor más capaz, impulsa nuestros casos de uso más exigentes, como el uso de herramientas agentes y lógica compleja.

Los aspectos más destacados aquí son AFM 3 Core Advanced y AFM 3 Cloud Pro

Comenzando con AFM 3 Core Advanced, incluye 20 mil millones de parámetros en un modelo en el dispositivo, lo cual no es poca cosa. La mayoría de los modelos de dispositivos dirigidos al público en general se encuentran en parámetros de mil millones de un solo dígito.

Para que AFM 3 Core Advanced funcione sin problemas, Apple utilizó una arquitectura dispersa que activa 4 mil millones de parámetros a la vez, dependiendo del mensaje, en lugar de una arquitectura densa que requiere que los 20 mil millones de parámetros estén activos para cada solicitud.

Aunque conceptualmente es similar al enfoque de Mezcla de Expertos, esta activación selectiva se basa en una técnica inventada por Apple y detallada en una interesante investigación. Truncamiento según instrucciones para modelos de lenguaje grandes Lanzado hace un año.

Al igual que AFM 3 Cloud Pro, se ejecuta en una infraestructura externa. Puedes leer algunos detalles técnicos de esta extensión. Este artículo El blog de seguridad de Apple se publicó a principios de esta semana, pero aquí están las partes más importantes:

En esta base, Apple y Google han colaborado para crear capacidades que van más allá de una implementación informática privada tradicional:

  • No dependemos únicamente de tecnologías informáticas confidenciales para mitigar los ataques que facilitan el acceso privilegiado fuera de una máquina virtual confidencial, incluidos los ataques de canal lateral. Sujeto a nuestra transparencia verificable y garantía de acceso sin privilegios, desde el firmware hasta el código de la aplicación, pasando por las pilas de sistemas operativos host e invitado, tratamos cada componente como parte de nuestra base informática confiable.
  • Para reducir el riesgo de ataques a la cadena de suministro, mantenemos un libro de contabilidad solo conectado y verificable criptográficamente de todo el hardware de Google Cloud que forma parte de la flota de PCC. Para los componentes de los que se puede abusar para eliminar datos del usuario si se ven comprometidos, nuestra certificación de software se basa en al menos dos núcleos de confianza separados de proveedores independientes.
  • Incluso cuando se utiliza informática secreta, creemos que la pila de inferencia debe diseñarse teniendo en cuenta la privacidad y la seguridad desde el principio. PCC en Google Cloud utiliza muchos de los mismos patrones de seguridad arquitectónica que PCC en Apple Silicon para implementar estas protecciones en capas: el análisis de datos de red inicial para cada solicitud ocurre en un proceso dedicado dentro de su propio espacio de nombres, el software de inferencia compartido se recicla con un período de vida corto y las claves de certificado se mantienen separadas de las máquinas virtuales en confusión dedicada.

En su blog Machine Learning Research, Apple dicho Los cinco modelos “compartieron una base básica común antes de especializarse en sus respectivas arquitecturas y casos de uso, agregando capacidades multimodales como audio, comprensión de imágenes, razonamiento de contexto prolongado y generación visual de alta calidad”.

La empresa añade que, para entrenar estos modelos, utilizó “una combinación de datos que incluye información disponible públicamente, datos licenciados o comprados a terceros, datos de fuente abierta, datos obtenidos a través de estudios dedicados y datos sintéticos”. Apple también enfatiza que el proceso de capacitación no incluyó datos ni interacción del usuario, y que los editores web pueden optar por no participar en la capacitación del Foundation Model.

resultado

Apple dijo que llevó a cabo extensas evaluaciones humanas de sus modelos Foundation de tercera generación, con revisores internos calificando las respuestas en categorías como seguimiento de instrucciones, fidelidad, presentación y comprensión de imágenes.

Los modelos se evaluaron con respecto a sus predecesores (cuando corresponda) y puede ver algunos de los resultados a continuación:

Comparamos AFM 3 Core y AFM 3 Cloud con modelos de generación anterior para determinar la capacidad de lectura general, así como la fracción de respuestas preferidas en evaluaciones humanas. Los resultados se presentan en cuatro grupos locales distintos para demostrar un rendimiento consistente en todos los formatos internacionales. “Inglés” representa nuestro conjunto de evaluación de inglés global, mientras que “PFIGSCJK”, “DNNSTV” y “AFIHHMPRTU” representan nuestras configuraciones regionales globales admitidas restantes.

Fracción de respuestas de elección en evaluación humana, así como capacidad de comprensión de imágenes en inglés. Los resultados comparan AFM 3 Core y AFM 3 Cloud con sus predecesores de 2025.

Fracción de respuestas preferidas para tareas auditivas así como en evaluaciones humanas. Los resultados comparan AFM 3 Core Advanced con el sistema de dictado de producción existente de Apple en siete dimensiones de calidad. AFM 3 Core Advanced muestra una tasa de éxito positiva en calidad general, con prioridades constantemente ampliadas en todos los distintos formatos y niveles de comprensión.

Para profundizar en los modelos Apple Foundation de tercera generación, Sigue este enlace.

Vale la pena echarle un vistazo a Amazon

Enlace fuente