El Boom del generador de IA pateó el auge de la IA en el año después de que se lanzó el chatzp en el mundo de Openi, los desarrolladores confiaron en Lamaranar (anteriormente Chatboat Arena) como una tabla de clasificación de IA predeterminada. Ahora, la escala AI está presentando una competencia necesaria en el espacio de evaluación comparativa de IA con su nuevo equipo de evaluación comparativa de sellos.
Lamenna, como Lamna, permite a los usuarios verificar las pruebas de los usuarios de IA y votar lo que funciona mejor. Sin embargo, la escala IA dice que frente a Lammna, el SEAL Showdown reflexionará más de cerca sobre cómo los usuarios se sienten sobre los diferentes modelos todos los días. En una publicación X, el CEO de la escala Jason Drastage dice que el SELL Showdown “captura las preferencias reales impulsadas por la plataforma utilizada por las personas reales”.
Este tweet no está disponible actualmente. Ha sido cargado o eliminado.
“La mayoría de los puntos de referencia dependen de las pruebas sintéticas (rompecabezas de codificación, problemas matemáticos) o reacciones de una pequeña pieza”, dijo Jenny Gu, la cabeza de la escala AI. En una publicación de blog“Cómo las personas reales pierden su espectro completo de su espectro espectral diario al usar a los otros usuarios como exclusivos y agrupa toda la reacción en una puntuación de generalización, se pierde la incomodidad crítica”.
Escala Sus laboratorios de seguridad, evaluación y alineación (SEAL) han lanzado la tabla de clasificación El año pasado, sin embargo, estos líderes se basaron en la evaluación de expertos. Ahora, el usuario de Scaley proporcionará el liderazgo basado en la prueba, proporcionando opciones de Almeraner.
La startup lo dice Nuevo equipo de evaluación comparativa Basado en el uso y la respuesta del mundo real de “más de 100 países, 70 idiomas y 200 usuarios de dominios profesionales”. (La agencia también proporcionó específicamente Métodos para un enfrentamiento sellado.)
Mástil
“El enfrentamiento presenta algo que nunca se ha visto en Public Leadersboards: Rich User Division”, escribió el proyecto en la publicación del blog. “Porque los rangos se derivan de la conversación que está a la escalada de los contribuyentes Outleter La plataforma, escala capaz de verificar cada país de usuario, nivel de educación, profesión, idioma y edad: permite a cualquiera ver cómo se desempeña para personas como ellos. “
Debido a esta población, la IA de la escala podrá mostrar qué modelos son más populares en territorio, idioma, edad o uso específicos.
La crítica de la escala AI con los Líderes existentes es que son “una gran participación de pasatiempos en la participación del pasatiempo” y las clasificaciones actuales “un grupo estrecho de usuarios y sus intereses”, lo que lleva a una interpretación errónea de cómo funcionan estos LLM en uso general.
Lamarana también ha sido criticada por el sesgo contra el modelo abierto. Los críticos dicen que el sistema Lamaranea está a favor de los modelos fronterizos de grandes compañías de IA como Google, Jai y OpenAI. Sin embargo, la solución a la escala AI puede no ser ideal. Los resultados de la tabla de líderes iniciales son altamente rango en GPT -5, lo que solo puede reflejar la elección del usuario en lugar de un rendimiento con propósito.
Tablero de líderes de sello actualizado Vivir ahora mismoActualmente, GPT -5 está en la parte superior de todas las categorías de referencia, un contraste completo LamaranaDonde el Gemi 2.5 Pro de Google, 2.5 Flash y Veo 3 lideran la sección de la tabla de clasificación principalmente.
Publicar: en abril, el organismo principal de Masibal, GIF Davis, presentó una demanda contra el Abierto, alegó que había violado los derechos de autor de Jeff Davis en la capacitación y la operación del sistema AI.
Sujeto
Opena de inteligencia artificial











