Home Apple Tres aspectos destacados del taller de dos días de Apple en PNL

Tres aspectos destacados del taller de dos días de Apple en PNL

19

Hace unos meses, Apple organizó un evento de dos días que presenta el último progreso (PNL) en procesamiento y publicación del lenguaje natural. Hoy, la compañía ha publicado una publicación con múltiples aspectos destacados y se han presentado todos los estudios. Roundup aquí.

El Taller sobre el lenguaje natural y el sistema interactivo 2025 Se llevó a cabo del 15 al 16 de mayo y se discutió y publicó sobre los tres campos de investigación principales relacionados con la PNL:

  • Sistema interactivo de lenguaje hablado
  • Entrenamiento y alineación de LLM
  • Agente de idiomas

Durante el programa, múltiples investigadores de universidades, institutos, laboratorios y grupos de investigación presentaron su último trabajo, incluidos Allen Institute, incluidos AI, Imperial College de IM London, MIT, Universidad de Harvard, Universidad de Stanford y Universidad de Princeton.

Algunos de estos investigadores también trabajan en la industria, incluidos Microsoft, Amazon, Sony, Google, Tensent, Quor y, por supuesto, Apple.

Aquí hay algunos aspectos destacados de la discusión y un enlace a la lista completa de videos y artículos presentados en el evento.

1) Identificación de alucinaciones de AI Model Breaking LLM

Estos fueron dos estudios presentados por Yarin Gal, profesor asociado de la Universidad de Oxford, y dos estudios presentados por Yarin Gal, Director, Director de Investigación del Reino Unido.

Primero, como resultado del colapso del modelo AI, existe un límite en cómo la web servirá como una fuente efectiva de datos para la capacitación de LLM, ya que el uso mejorado de estos modelos tomará más materiales expuestos a los modelos para publicarse en línea.

Explicó que la capacitación de LLM en estos datos sintéticos nacionales podría ser un riesgo de caer, ya que afectaría su conocimiento y poder lógico, podría arreglarse con el desarrollo de nuevos equipos para distinguir entre materiales expuestos y propensos a los humanos de AI, así como mejores reglas y cuánto LLMS Society.

Su segunda encuesta, LLM detecta alucinaciones, ofrece un enfoque elegante para identificar el nivel de confianza en el LLM, ya que produce diferentes partes de cualquier respuesta. En resumen, el concepto es el modelo para generar múltiples respuestas y luego estas respuestas están agrupadas por el significado semántico. Esto permitirá un cálculo más específico de la respuesta y el nivel de precisión de la respuesta, y es una estructura que se puede adaptar a una conversación más larga.

2) Refuerzo de aprendizaje para agentes LLM de Herizon Long Herizon

La conversación, presentada por el investigador de aprendizaje de Apple Machine Kevin Chen, demostró un agente capacitado de una manera llamada optimización o bucle de política proximal Lev-Out.

El agente fue entrenado para realizar tareas de múltiples pasos, ya que se basa en indicaciones como esta:

‘Recientemente fui a visitar amigos en Maui. He mantenido una nota de dinero propio a los demás y desde el viaje a otros hasta la nota simple a otros. Cree pagos o solicitudes de Venomo personales en consecuencia. Para pagar/solicitar, agregue una nota, “para el viaje Maui”. ‘

Durante la primera mitad de la charla, Chen ha demostrado que, dado que este trabajo involucra más de un marco y dependencia del conocimiento, ningún agente puede realizar lo que se solicitó. Sin embargo, con el bucle, que aprendió repetidamente de sus propias actividades pasadas y se formó para maximizar su premio, así como se observó, la solicitud se realizó con bajos errores y supuestos.

Chen explicó además que el modelo fue entrenado en 24 situaciones diferentes, pero tiene limitaciones, como la interacción de los usuarios de múltiples piezas.

3) Suponiendo la transmisión: supuestos Fast LLM sin modelos útiles

Esta charla, compuesta por la gerente de ingeniería de Apple y líder técnica Irina Bellosova, ha demostrado los beneficios de estimar la decodificación, lo que permite una forma integral de generar respuestas con un modelo pequeño, que es tan alto como producido por modelos más grandes.

En resumen, los modelos pequeños crean la secuencia de candidatos para respuestas, que luego se rigen por un modelo grande. Si el modelo acepta la respuesta, su trabajo se realiza. Es para el uso de memoria baja, permitiendo un rendimiento más rápido y menos parámetros que modelos similares.

Además, “este método simplifica la implementación al eliminar la complejidad de la gestión, la alineación y el cambio en múltiples modelos durante los supuestos”, lo que significa una infraestructura simple.

Este estudio especial proporciona muchos detalles técnicos que son como verificar. La presentación dura poco más de 8 minutos, pero da una visión muy atractiva.

haga clic aquí Para verificar los videos destacados en Apple y ver la lista completa de estudios del evento.

Oferta de accesorios de Amazon

Enlace fuente