Anthropic ha presentado su último modelo de lenguaje grande (LLM), Claude Opus 4.5, posicionándolo como un competidor de primer nivel en codificación, tareas de agencia y uso general de computadoras. El lanzamiento se produce en medio de rápidos avances en el campo, luego de actualizaciones recientes de Google (Gemini 3) y OpenAI. Si bien las primeras afirmaciones sugieren que Opus 4.5 supera a sus competidores en ciertos puntos de referencia de codificación, los datos de rendimiento en el mundo real siguen siendo limitados ya que aún no se ha evaluado exhaustivamente en plataformas como LMArena.
Capacidades mejoradas y nuevas herramientas
El nuevo modelo presenta mejoras significativas en investigación profunda, flujos de trabajo basados en diapositivas y manipulación de hojas de cálculo. Anthropic está lanzando simultáneamente actualizaciones de Claude Code, su herramienta de codificación especializada y sus aplicaciones de consumo, lo que permite agentes más robustos de larga duración y funcionalidad ampliada dentro de herramientas como Excel, Chrome y entornos de escritorio. Ahora se puede acceder a Opus 4.5 a través de las plataformas, API y los principales proveedores de nube de Anthropic.
La ciberseguridad sigue siendo un desafío crítico
Como todas las herramientas de inteligencia artificial, Claude Opus 4.5 continúa lidiando con vulnerabilidades inherentes a la ciberseguridad, particularmente ataques de inyección rápida. Estos ataques aprovechan los LLM al incorporar instrucciones maliciosas en fuentes de datos externas, lo que potencialmente anula los protocolos de seguridad y provoca acciones dañinas, como la divulgación de datos no autorizada. Anthropic afirma que Opus 4.5 es más resistente a estos ataques que otros modelos líderes, pero reconoce que no es inmune.
Resultados de la evaluación de seguridad: un panorama mixto
Anthropic realizó evaluaciones de seguridad internas y externas para evaluar la resistencia del modelo a indicaciones maliciosas. En escenarios de codificación agente, Opus 4.5 rechazó con éxito el 100% de 150 solicitudes prohibidas (por ejemplo, generar código dañino). Sin embargo, el desempeño en contextos más aplicados fue menos consistente:
- Claude Code: Rechazó aproximadamente el 78 % de las solicitudes relacionadas con la creación de malware, ataques DDoS y software de vigilancia no consensuado.
- Uso de la computadora: Rechazó aproximadamente el 88% de las solicitudes que solicitaban acciones poco éticas como vigilancia, recopilación de datos y generación de contenido dañino (incluidos intentos de extorsión simulados).
Estos resultados resaltan una brecha persistente entre las medidas de seguridad teóricas y los riesgos de explotación en el mundo real. Incluso con defensas mejoradas, los LLM siguen siendo susceptibles a la manipulación, lo que plantea dudas sobre la viabilidad a largo plazo de los agentes de IA en entornos sensibles.
El lanzamiento de Claude Opus 4.5 subraya el ritmo acelerado del desarrollo de la IA, pero también refuerza la necesidad de una vigilancia continua en materia de ciberseguridad y despliegue ético. Si bien el modelo de Anthropic representa un paso adelante en capacidades, aún quedan vulnerabilidades que deben abordarse para garantizar un uso seguro y responsable.
