Técnica

Anthrope presenta a los modelos de Next Gen Claude Opus 4 y Sonnet 4

Después de la semana de anuncios de Google y OpenAI, Anthrope tiene sus propias noticias para compartir.

El jueves, Anthrope anunció Claude Opus 4 y Claude Sonnet 4, su próxima generación de modelos, con énfasis en la codificación, el razonamiento y las capacidades de agente. Según Rakuten, que tuvo acceso temprano al modelo, Claude Opus 4 corrió “independientemente durante siete horas con un rendimiento sostenido”.

Claude Opus es la versión más grande de Anthrope de la familia modelo con más potencia para tareas más largas y complejas, mientras que el soneto es generalmente más rápido y más eficiente. Claude Opus 4 es un paso adelante de su versión anterior, Opus 3, y el soneto 4 reemplaza el soneto 3.7.

Velocidad de luz mashable

Anthrope dice que Claude Opus 4 y el soneto 4 superan a los rivales como O3 O3 y Gemini 2.5 Pro en puntos de referencia clave para tareas de codificación de agente como SWE-Bench y Terminal Bench. Sin embargo, vale la pena señalar que los puntos de referencia autoinformados no se consideran los mejores marcadores de rendimiento, ya que estas evaluaciones no siempre se traducen en casos de uso del mundo real, además de los laboratorios de IA no se encuentran en todo el asunto de la transparencia en estos días, lo que Investigadores de IA y los responsables políticos requieren cada vez más. “Los puntos de referencia de IA deben someterse a las mismas demandas sobre la transparencia, la justicia y la explicabilidad, ya que los sistemas algorítmicos y los modelos de IA escriben grandes”, dijo Centro de investigación conjunto de la Comisión Europea.

OPUS 4 y SONNET 4 superan a los rivales en el banco SWE, pero tome el rendimiento de referencia con un grano de sal.
Crédito: antrópico

Junto con el lanzamiento de Opus 4 y Sonnet 4, Anthrope también introdujo nuevas características. Que incluye la búsqueda web mientras Claude está en pensamiento extendido modo, y Resúmenes del registro de razonamiento de Claude “En lugar del proceso de pensamiento crudo de Claude”. Esto se describe en la publicación del blog como más útil para los usuarios, pero también “protegiendo [its] Ventaja competitiva, “es decir, no revela los ingredientes de su salsa secreta. Anthrope también anunció un mejor uso de memoria y herramientas en paralelo con otras operaciones, disponibilidad general de su código Claude de herramienta de codificación de agente y herramientas adicionales para la API de Claude.

En el reino de seguridad y alineación, Anthrope dijo que ambos modelos tienen “65 por ciento menos probabilidades de participar en la piratería de recompensas que Claude Sonnet 3.7”. La piratería de recompensas es un fenómeno ligeramente aterrador donde los modelos pueden hacer trampa y mentir para ganar una recompensa (realizar una tarea con éxito).

Uno de los mejores indicadores que tenemos para evaluar el rendimiento de un modelo es la experiencia de los usuarios con él, aunque aún más subjetivo que los puntos de referencia. Pero pronto descubriremos cómo Claude Opus 4 y Sonnet 4 atribuyen a los competidores en ese sentido.

Temas
Inteligencia artificial

Fuente

Related Articles

Back to top button