Founders fondos, Pantera y Franklin Templeton se unen a Sentient's "Arena" para hacer pruebas de estrés a agentes de IA de nivel empresarial

By: rootdata|2026/03/20 01:13:05
0
Compartir
copy

En los últimos dos años, las empresas han estado acelerando la integración de los agentes de IA en los flujos de trabajo reales: desde el servicio de atención al cliente y las operaciones de backend hasta los procesos de finanzas y cumplimiento que requieren la toma de decisiones de alto stake. A medida que estos sistemas están cada vez más integrados en las operaciones comerciales reales, está surgiendo un nuevo problema: si bien los agentes pueden recuperar información, a menudo luchan por proporcionar procesos de razonamiento estables, interpretables y reproducibles cuando el trabajo se vuelve “desordenado”, de varios pasos o de alto riesgo.

Hoy, el laboratorio de IA de código abierto Sentient lanzó oficialmente Arena, un entorno listo para la producción y en tiempo real para que miles de desarrolladores de IA de todo el mundo pongan a prueba el estrés y compitan de forma iterativa sobre los problemas de razonamiento más difíciles que enfrentan las empresas. La alineación inicial de participantes en la primera fase de Arena incluye Fondo Fundadores, Pantera y Franklin Templeton, que gestiona más de $15 billones en activos, lo que envía una señal de que las instituciones están mostrando un interés temprano y claro en "evaluaciones estructuradas de agentes de IA antes del despliegue".

"Cuando las empresas aplican agentes de IA a la investigación, las operaciones y los flujos de trabajo orientados al cliente, la pregunta en long no es si estos sistemas son lo suficientemente potentes... sino si son confiables en flujos de trabajo reales", dijo Julian Love, socio gerente de Franklin Templeton Digital Activos. Love agregó que entornos estructurados como Arena ayudarán al sector a distinguir entre "ideas prometedoras" y "capacidades que verdaderamente se pueden usar en la producción".

Himanshu Tyagi, cofundador de Sentient, declaró: "Los agentes de IA en long no son solo experimentos dentro de las empresas; están entrando en procesos críticos que afectan a clientes, fondos y resultados operativos. Este cambio cambio cambia los criterios de evaluación. No basta con que los sistemas se vean impresionantes en las demostraciones. Las empresas necesitan saber: en entornos de producción, donde el costo del fracaso es alto y la confianza es frágil, ¿los agentes aún pueden razonar de manera confiable? Las empresas necesitan comparabilidad, repetibilidad y un método para seguir las mejoras de confiabilidad en long plazo que no dependa del modelo o pila de herramientas subyacente".

Arena simula el verdadero caos de los flujos de trabajo empresariales: información incompleta, contexto largo, instrucciones vagas y fuentes contradictorias. Arena no solo evalúa si los agentes proporcionan "respuestas correctas", sino que registra rastros de razonamiento completos para que los equipos de ingeniería puedan identificar las causas de los fallos y validar las mejoras a lo largo del tiempo.

Esto proporciona un punto de referencia neutral y agnóstico para el proveedor para la evaluación del razonamiento en diferentes modelos y pilas de tecnología. Arena enfatiza el rendimiento a nivel de producción en lugar del rendimiento demo, formando así capacidades de agentes verificables aplicables a escenarios de alto riesgo, que las empresas también pueden transferencia a sus datos privados y herramientas internas.

En el primer desafío, los desarrolladores que se unan a Arena se centrarán en un problema fundacional a nivel empresarial: el razonamiento de documentos. Los agentes de IA necesitan razonar y calcular sobre datos complejos y no estructurados: este tipo de trabajo sustenta escenarios como el análisis financiero, la investigación de causas raíz, la redacción de memorandos de inversión y el servicio de atención al cliente.

Otros participantes en la fase inicial incluyen alphaXiv, Fireworks, OpenHands y OpenRouter; a medida que Arena se expanda en tareas, industrias e integraciones de modelos, se espera que se unan más participantes.

Investigaciones recientes también ponen de relieve el vacío que Arena tiene como objetivo de dirección: El 85% de las empresas expresa su deseo de convertirse en “empresas auténticas”, con casi tres cuartas partes planeando desplegar agentes autónomos, pero menos de una cuarta parte en realidad tiene sistemas de gobernanza maduros; muchas empresas luchan por escalar los proyectos piloto a implementaciones de producción a gran escala. En promedio, las empresas están ejecutando alrededor de una docena de agentes, a menudo dispersos en escenarios aislados. Muchos creen que sin mejores capacidades de orquestación y colaboración, agregar más agentes solo aumentará la complejidad y disminuirá valor.

"En OpenHands, siempre hemos estado ansiosos por ayudar a los desarrolladores a utilizar agentes para resolver problemas reales y prácticos", dijo Graham Neubig, Científico Jefe y Cofundador de OpenHands. "También nos complace apoyar a los participantes en el uso del SDK del agente de software OpenHands para abordar estos complejos desafíos".

Alex Atallah, cofundador y CEO de OpenRouter, declaró: "Arena es exactamente el tipo de iniciativa que puede impulsar la IA de código abierto: permite que los investigadores compitan, iteren e innoven en un entorno abierto. Esperamos profundizar nuestra colaboración con Sentient y proporcionar la infraestructura necesaria para que los experimentos sean más rápidos y fáciles de escalar".

Arena se lanzará globalmente, invitando a miles de desarrolladores de IA a postularse para la primera cohorte limitada, con eventos offline programados para tener lugar en San Francisco a partir marzo 2026.

Acerca de Sentient Labs

Sentient Labs es una organización líder en investigación tecnológica y productos dedicados a avanzar en la inteligencia artificial de código abierto. Como motor de innovación de la Sentient Foundation, Sentient Labs lleva a cabo una investigación de vanguardia en razonamiento de IA, alineación y colaboración de agentes. Sentient es el desarrollador principal de marcos de alto rendimiento como ROMA y modelos de código abierto como Dobby. La misión de Sentient es hacer la transición de la IA de código abierto de "experimento" a "necesidad". Al proporcionar la infraestructura para construir sistemas de agentes potentes y componibles, Sentient permite que los desarrolladores comercialicen herramientas de código abierto y alcancen la usabilidad a nivel empresarial. Sentient se asigna a hacer del código abierto el estándar predeterminado para las operaciones de IA de misión crítica a nivel mundial.

Precio de --

--

También te puede interesar

Monedas populares

Últimas noticias sobre criptomonedas

Leer más