Gemini 2.5 Pro de Google, Destrona a Claude y Lidera Rankings de Codificación
By: decrypt|2025/05/10 00:15:08
0
Compartir
Gemini 2.5 Pro de Google, Destrona a Claude y Lidera Rankings de Codificación El "modelo de pensamiento" del gigante tecnológico supera a sus rivales en pruebas complejas y ahora está disponible para todos los usuarios de forma gratuita. En Resumen Gemini 2.5 Pro superó a Claude en WebDev Arena, liderando en codificación y otras categorías clave. Obtuvo una puntuación de IQ de 115 y venció a sus rivales en benchmarks como AIME 2025, GPQA y HLE. El modelo procesó hasta 30.000 líneas de código y generó soluciones superiores en pruebas prácticas de desarrollo. Decrypt’s Art, Fashion, and Entertainment Hub. Gemini 2.5 Pro, lanzado recientemente por Google, ha alcanzado el primer puesto en los rankings de codificación, superando a Claude en el famoso WebDev Arena —un sitio de clasificación neutral similar al LLM arena , pero enfocado específicamente en medir qué tan buenos son los modelos de IA en codificación. Este logro llega en medio del esfuerzo de Google por posicionar su modelo insignia de IA como líder tanto en tareas de codificación como de razonamiento. Lanzado a principios de este año, Gemini 2.5 Pro ocupa el primer lugar en varias categorías, incluyendo codificación, control de estilo y escritura creativa. La enorme ventana de contexto del modelo—un millón de tokens que se expandirá a dos millones próximamente—le permite manejar bases de código grandes y proyectos complejos que sofocarían incluso a los competidores más cercanos. Para referencia, modelos potentes como ChatGPT y Claude 3.7 Sonnet solo pueden manejar hasta 128K tokens. Gemini también tiene el "IQ" más alto de todos los modelos de IA. TrackingAI lo sometió a pruebas formales de MENSA , utilizando preguntas verbalizadas de Mensa Noruega para crear una forma estandarizada de comparar modelos de IA. Gemini 2.5 Pro obtuvo puntuaciones más altas que sus competidores en estas pruebas, incluso cuando se utilizaron preguntas personalizadas no disponibles públicamente en los datos de entrenamiento. Con una puntuación de IQ de 115 en pruebas offline, el nuevo Gemini se ubica entre las "mentes brillantes", con la inteligencia humana promedio puntuando alrededor de 85 a 114 puntos. Pero la noción de que una IA tenga IQ necesita aclaración. Los sistemas de IA no tienen cocientes de inteligencia como los humanos, por lo que es mejor pensar en el punto de referencia como una metáfora para el rendimiento en pruebas de razonamiento. Para benchmarks diseñados específicamente para IA, Gemini 2.5 Pro obtuvo 86,7% en la prueba matemática AIME 2025 y 84,0% en la evaluación científica GPQA. En Humanity's Last Exam (HLE), un benchmark más nuevo y difícil creado para evitar problemas de saturación de pruebas, Gemini 2.5 obtuvo 18,8%, superando al o3 mini de OpenAI (14%) y a Claude 3.7 Sonnet (8,9%), lo cual es notable en términos de mejora de rendimiento. La nueva versión de Gemini 2.5 Pro ahora está disponible gratuitamente (con límites de frecuencia) para todos los usuarios de Gemini. Google describió previamente este lanzamiento como una "versión experimental de 2.5 Pro", parte de su familia de "modelos pensantes" diseñados para razonar las respuestas en lugar de simplemente generar texto. A pesar de no ganar en todos los benchmarks, Gemini ha captado la atención de los desarrolladores con su versatilidad. El modelo puede crear aplicaciones complejas a partir de un solo prompt, construyendo aplicaciones web interactivas, juegos de carrera infinita y simulaciones visuales sin requerir instrucciones detalladas. Probamos el modelo pidiéndole que arreglara un código HTML5 roto. Generó casi 1.000 líneas de código, proporcionando resultados que superaron a Claude 3.7 Sonnet—el líder anterior—en términos de calidad y comprensión del conjunto completo de instrucciones. El costo de entrada de Gemini 2.5 Pro es de $2,50 por millón de tokens y el costo de salida es de $15,00 por millón de tokens, posicionándolo como una alternativa más económica frente a algunos competidores mientras sigue ofreciendo capacidades impresionantes. El modelo de IA maneja hasta 30.000 líneas de código en su plan Advanced, haciéndolo adecuado para proyectos a nivel empresarial. Sus capacidades multimodales—trabajando con texto, código, audio , imágenes y video —añaden una flexibilidad que otros modelos enfocados en codificación no pueden igualar. Generally Intelligent Newsletter
También te puede interesar

El conflicto entre Estados Unidos e Irán se extiende al espacio criptográfico: Qué esperar del mercado el lunes
La industria más importante del mundo criptográfico, a solo 300 kilómetros del punto de impacto del misil.

El proyecto Titan inaugural del Protocolo Virtuals: ROBO tiene como objetivo dar una billetera a un robot
Este es un paso clave en la expansión de Virtuals en la Economía de Agentes en el campo de la IA Embodida y la Robótica.

Stablecoin Último informe: Distribución y circulación reales mucho más notables que el suministro
La verdad sobre la velocidad de circulación, la concentración y la estructura de las stablecoins después de duplicar el suministro

¿Por qué parar en 126K? Michael Saylor analiza el estancamiento de BTC y la ausencia minorista
Bitcoin es capital digital, y pasaré mil horas explicándotelo. Evento, lo entenderás, pero aún tendrás que soportar un choque del 45%.

Fundador de Wintermute: En el mercado perdido de las criptomonedas, ¿qué podemos hacer aún?
Esto es más bien un manifiesto, en el que se analiza «la verdadera razón por la que estamos aquí».

Deuda de $1.300 millones: BitDeer enfrenta una dura batalla
Wu Jihan está esperando el dinero de IA para ponerse al día con la velocidad de la deuda.

La apuesta de Anthropic por salir a bolsa: En el momento más inesperado, decidió decir que no.
En la era de la IA, ¿qué es lo más valioso?

Problema matemático de paradigma: $12.700 millones, demasiado grandes para un solo fondo cripto
Surgiendo de las ruinas de FTX, Paradigma tardó tres años

Ethereum presenta la hoja de ruta a escala, ¿qué es diferente esta vez?
Mejoras en short plazo de la eficiencia de ejecución a través de la optimización del mecanismo de gas y la paralelización de la validación de bloques, y escalabilidad en long plazo a través de ZK-EVM y arquitectura de datos blobs.

Ola de prohibición antrópica, controversia de fondos OpenAI de $100.000 millones: ¿De qué habla hoy la comunidad cripto en el extranjero?
¿Qué es lo que más interés han mostrado los extranjeros en las últimas 24 horas?

La reducción del 40% de la fuerza laboral de Block debido a la 'reducción de costos de IA', Anthropic niega la solicitud del Departamento de Defensa de EE. UU., ¿De qué están hablando hoy las comunidades globales de criptomonedas?
¿Qué ha sido lo más importante para los expatriados en las últimas 24 horas?

¿Por qué Wall Street está **vendiendo en corto** la estrategia **estrella** de las criptomonedas?
La mediana del interés corto para los componentes del índice S&P 500 ha aumentado hasta el 2,7 %, siendo Strategy el que tiene el mayor interés corto como porcentaje de la capitalización bursátil, con un 14 % entre todos los componentes.

Más allá de las finanzas, el verdadero riesgo y oportunidad de Nvidia
Si el mercado puede seguir confiando en que NVIDIA alcance una alta tasa de crecimiento anual del compuesto de ingresos de un dígito (CAGR) después del año fiscal 2027, el punto medio de valoración podría recibir apoyo

Citrini Eco persistente
Doomscrolling, la ansiedad paga la cuenta

Wintermute: La volatilidad de las criptomonedas se desploma mientras los inversores minoristas se lanzan en masa a comprar acciones estadounidenses.
Los inversores minoristas están acudiendo en masa al mercado de valores a un ritmo récord, lo que ha provocado que la relación entre el mercado de las criptomonedas y el mercado de valores pase de ser «correlacionada» a «alternativa».

Bloomberg: Las elecciones presidenciales de Rumania fueron manipuladas por comerciantes de criptomonedas
El rompecabezas electoral rumano bajo manipulación digital.
Programa de referidos para comerciantes WEEX P2P | ¡Invita y gana hasta 100 USDT cada uno!
WEEX P2P está lanzando el "Programa de Referidos para Comerciantes" para construir una comunidad de comerciantes P2P más fuerte y aumentar la liquidez del mercado. Refiere a comerciantes potenciales para unirse a WEEX P2P y ambos pueden ganar recompensas.

El informe Circle Beautiful Money: ¿El verdadero ganador de las stablecoins no es el emisor?
Informe de resultados del cuarto trimestre de Circle: 733 millones de dólares de ingresos por reservas obtenidos, el 63 % transferido a los socios del canal.
El conflicto entre Estados Unidos e Irán se extiende al espacio criptográfico: Qué esperar del mercado el lunes
La industria más importante del mundo criptográfico, a solo 300 kilómetros del punto de impacto del misil.
El proyecto Titan inaugural del Protocolo Virtuals: ROBO tiene como objetivo dar una billetera a un robot
Este es un paso clave en la expansión de Virtuals en la Economía de Agentes en el campo de la IA Embodida y la Robótica.
Stablecoin Último informe: Distribución y circulación reales mucho más notables que el suministro
La verdad sobre la velocidad de circulación, la concentración y la estructura de las stablecoins después de duplicar el suministro
¿Por qué parar en 126K? Michael Saylor analiza el estancamiento de BTC y la ausencia minorista
Bitcoin es capital digital, y pasaré mil horas explicándotelo. Evento, lo entenderás, pero aún tendrás que soportar un choque del 45%.
Fundador de Wintermute: En el mercado perdido de las criptomonedas, ¿qué podemos hacer aún?
Esto es más bien un manifiesto, en el que se analiza «la verdadera razón por la que estamos aquí».
Deuda de $1.300 millones: BitDeer enfrenta una dura batalla
Wu Jihan está esperando el dinero de IA para ponerse al día con la velocidad de la deuda.