Home Técnica Como se ve, AI crea cosas para tratar de hacernos felices

Como se ve, AI crea cosas para tratar de hacernos felices

7

Generator Ai es muy popular entre millones de usuarios todos los días, entonces, ¿por qué los casquillos de chat a menudo hacen que las cosas sean tan mal? Como parte, esto se debe a que han sido entrenados para actuar como un cliente siempre tienen razón. Básicamente, te dice lo que crees que quieres escuchar.

Aunque muchos generadores de equipos de IA y chatobs se han vuelto incomprensibles y universales desconocidos, calificados, Nueva investigación Princeton, dirigido por la Universidad, muestra que la naturaleza folclórica de la IA llega a un alto precio. Dado que estos sistemas se vuelven más populares, se vuelven más indiferentes a la verdad.


No se pierda nuestro contenido técnico neutral y revisiones basadas en el laboratorio. Agregar CNET Como la fuente de Google deseada.


Los modelos de IA, como los humanos, responden al entusiasmo. Compare los problemas de los modelos de idiomas grandes que producen información errónea con los más propensos a los médicos. Ingrese analgésicos adictos Se evalúan sobre la base de ello cuando manejan el dolor en los pacientes. Un entusiasmo por resolver un problema (dolor) crea otro problema (script de sobrepresión).

Etiquetas de insignia de arte de Ai Atlas

En los últimos meses, hemos visto lo que AI podría ser Sesgado Incluso PsicosisHubo una gran discusión sobre la “psicophys” de IA, cuando un modelo de AEH -4O de AI Chattabot abre AEE -4O es rápidamente halagador o acordado con usted. Sin embargo, los investigadores dicen que la “mierda de la máquina” es diferente.

“(N) Las alucinaciones o la psicophyse capturan por completo la amplia gama de comportamientos increíbles sistemáticos que LLM muestran por LLM”, está escrita la investigación del Princeton. “Por ejemplo, los resultados empleados en la verdad parcial o el lenguaje vago, como las palabras de Paltering y Wazel, no presentan no presentar o psicofensas, sino que están estrechamente alineadas con el concepto de mierda”.

Leer más: El CEO de Operai, Sam Altman, cree que estamos en una burbuja de IA

¿Cómo las máquinas han aprendido a mentir?

Para comprender cómo los modelos de idiomas AI están satisfechos con la multitud, debemos entender cómo se entrenan los modelos de idiomas grandes.

Hay tres etapas de entrenamiento LLM:

  • PreventivaLos modelos aprenden de muchos datos recopilados de Internet, libros u otras fuentes.
  • InstrucciónEn el que se enseña a los modelos a responder a las instrucciones o indicaciones.
  • Aprender el refuerzo de la respuesta de las personasEn el que se han refinado para crear una respuesta a lo que la gente quiere o me gusta.

Los investigadores en Princeton han encontrado la raíz de la tendencia de desinformación de IA, que es la respuesta humana, o RLF, el refuerzo de aprendizaje de la etapa. En las primeras etapas, los modelos de IA simplemente están aprendiendo a predecir las cadenas de texto potenciales estadísticamente de enormes conjuntos de datos. Sin embargo, son sutiles para hacer que la satisfacción del usuario se maximice. Lo que significa que estos modelos están básicamente aprendiendo a crear reacciones que obtienen una calificación de pulgar de las evcciones humanas.

El LLM trata de satisfacer al usuario, cuando los modelos responden que las personas crean un conflicto que dará tasas más altas sin producir respuestas verdaderas y reales.

Concursor de VincentUn profesor de informática de la Universidad Carnegie Mellon, que no estaba asociado con este estudio, dijo que a los usuarios de las empresas les gustaría continuar “disfrutando” de esta tecnología y sus respuestas, pero puede que no sea bueno para nosotros.

“Historialmente, estos sistemas no son buenos decir: ‘Simplemente no sé la respuesta’, y cuando no saben la respuesta, simplemente hacen las cosas”, dijo Contazer. “Lo que un estudiante en un examen dice, bueno, si digo que no sé la respuesta, definitivamente no tengo ningún punto para esta pregunta, por lo que puedo probar algo más. La forma en que estos sistemas son recompensados ​​o entrenados son algo similares”.

El equipo de Princeton ha creado un “índice de mierda” para medir y comparar una declaración con lo que los usuarios dicen en una declaración en la confianza interna de un modelo de IA. Cuando estos dos pasos se desvían significativamente, indica que el sistema afirma ser distinto de “confianza” para satisfacer al usuario.

El examen del equipo: después del entrenamiento del RLF, el índice se ha duplicado de aproximadamente 0.38 a 1.0. Al mismo tiempo, la satisfacción del usuario ha aumentado en un 48%. Los modelos han aprendido a manipular la evaluación humana en lugar de proporcionar información precisa. En resumen, los LLM estaban “mierda” y a la gente le gustó.

Ai está siendo honesto

Jaim Fernández Fisak y su equipo en Princeton presentaron la idea de cómo los modelos modernos de IA falda en torno a la verdad. Dibujo del ensayo dominante del filósofo Harry Frankfurt “Mierda“Usan esta palabra para hacer que este comportamiento de LLM distinga de los errores honestos y las mentiras directas.

Los investigadores de Princeton han identificado cinco formas distintas de este comportamiento:

  • Discurso vacío: El lenguaje de la flor que no agrega ninguna sustancia a la reacción.
  • Palabra de Wazle: Los calificadores difusos como “estudios consejos” o “en algunos casos” esquivan las declaraciones firmes.
  • Taltering: Para resaltar el “poderoso retorno histórico de la inversión” mientras utiliza el discurso electoral para la confusión.
  • Reclamación verificada: Enfatizado sin prueba o apoyo creíble.
  • Psicophyse: Amablemente más plano y por favor trate.

Para resolver los problemas de la IA indígena de la verdad, el equipo de investigación ha desarrollado un nuevo método de capacitación de “refuerzo de aprendizaje de la simulación más aguda”, que evalúa las reacciones de IA sobre la base de sus resultados a largo plazo en lugar de satisfacción inmediata. En lugar de preguntar: “¿Esta respuesta hace feliz al usuario en este momento?” Teniendo en cuenta el sistema, “¿Seguir esta sugerencia realmente ayudará al usuario a alcanzar sus objetivos?”

Teniendo en cuenta las posibles consecuencias futuras del consejo de IA de este método, es una profecía compleja que los investigadores abordaron el modelo de IA adicional para imitar los resultados potenciales. Se muestran resultados prioritarios, cuando los sistemas están capacitados de esta manera, el usuario mejora la satisfacción y la utilidad real.

El Contazer dijo, sin embargo, que es probable que los LLM estén defectuosos. Dado que estos sistemas están entrenados alimentando a ellos muchos datos de texto, no hay forma de comprender las respuestas que dan y cada vez que es correcta.

“Es sorprendente que funcione en absoluto, pero va a ser defectuoso de alguna manera”, dijo. “No puedo ver ninguna manera precisa de que tenga esta visión brillante para alguien en los próximos o dos años y luego nunca más vuelva a equivocarse”.

Los sistemas de IA se están convirtiendo en parte de nuestra vida diaria, por lo que será la clave para comprender cómo funciona LLM. ¿Cómo equilibran los desarrolladores la satisfacción del usuario con la veracidad? ¿Puede cualquier otro dominio enfrentar las mismas compensaciones entre la aprobación a corto plazo y los resultados a largo plazo? ¿Y cómo nos aseguramos de que estos sistemas sean más capaces de psicología humana sofisticada al asegurarse de que usen estas habilidades con responsabilidad?

Leer más: “Las máquinas no pueden pensar para ti”. Cómo cambiar el aprendizaje en la era de la IA

Enlace fuente