Logo ADSLZone
Navega gratis con cookies…

Navegar por adslzone.net con publicidad personalizada, seguimiento y cookies de forma gratuita. i

Para ello, nosotros y nuestros socios i necesitamos tu consentimiento i para el tratamiento de datos personales i para los siguientes fines:

Las cookies, los identificadores de dispositivos o los identificadores online de similares características (p. ej., los identificadores basados en inicio de sesión, los identificadores asignados aleatoriamente, los identificadores basados en la red), junto con otra información (p. ej., la información y el tipo del navegador, el idioma, el tamaño de la pantalla, las tecnologías compatibles, etc.), pueden almacenarse o leerse en tu dispositivo a fin de reconocerlo siempre que se conecte a una aplicación o a una página web para una o varias de los finalidades que se recogen en el presente texto.

La mayoría de las finalidades que se explican en este texto dependen del almacenamiento o del acceso a la información de tu dispositivo cuando utilizas una aplicación o visitas una página web. Por ejemplo, es posible que un proveedor o un editor/medio de comunicación necesiten almacenar una cookie en tu dispositivo la primera vez que visite una página web a fin de poder reconocer tu dispositivo las próximas veces que vuelva a visitarla (accediendo a esta cookie cada vez que lo haga).

La publicidad y el contenido pueden personalizarse basándose en tu perfil. Tu actividad en este servicio puede utilizarse para crear o mejorar un perfil sobre tu persona para recibir publicidad o contenido personalizados. El rendimiento de la publicidad y del contenido puede medirse. Los informes pueden generarse en función de tu actividad y la de otros usuarios. Tu actividad en este servicio puede ayudar a desarrollar y mejorar productos y servicios.

La publicidad que se presenta en este servicio puede basarse en datos limitados, tales como la página web o la aplicación que esté utilizando, tu ubicación no precisa, el tipo de dispositivo o el contenido con el que está interactuando (o con el que ha interactuado) (por ejemplo, para limitar el número de veces que se presenta un anuncio concreto).

  • Un fabricante de automóviles quiere promocionar sus vehículos eléctricos a los usuarios respetuosos con el medioambiente que viven en la ciudad fuera del horario laboral. La publicidad se presenta en una página con contenido relacionado (como un artículo sobre medidas contra el cambio climático) después de las 18:30 h a los usuarios cuya ubicación no precisa sugiera que se encuentran en una zona urbana.
  • Un importante fabricante de acuarelas quiere realizar una campaña publicitaria en Internet para dar a conocer su última gama de acuarelas con la finalidad de llegar tanto a artistas aficionados como a profesionales y, a su vez, se evite mostrar el anuncio junto a otro contenido no relacionado (por ejemplo, artículos sobre cómo pintar una casa). Se detectará y limitará el número de veces que se ha presentado el anuncio a fin de no mostrarlo demasiadas veces.

La información sobre tu actividad en este servicio (por ejemplo, los formularios que rellenes, el contenido que estás consumiendo) puede almacenarse y combinarse con otra información que se tenga sobre tu persona o sobre usuarios similares(por ejemplo, información sobre tu actividad previa en este servicio y en otras páginas web o aplicaciones). Posteriormente, esto se utilizará para crear o mejorar un perfil sobre tu persona (que podría incluir posibles intereses y aspectos personales). Tu perfil puede utilizarse (también en un momento posterior) para mostrarte publicidad que pueda parecerte más relevante en función de tus posibles intereses, ya sea por parte nuestra o de terceros.

  • En una plataforma de redes sociales has leído varios artículos sobre cómo construir una casa en un árbol Esta información podría añadirse a un perfil determinado para indicar tuinterés en el contenido relacionado con la naturaleza, así como en los tutoriales de bricolaje (con el objetivo de permitir la personalización del contenido, de modo que en el futuro, por ejemplo, se te muestren más publicaciones de blogs y artículos sobre casas en árboles y cabañas de madera).
  • Has visualizado tres vídeos sobre la exploración espacial en diferentes aplicaciones de televisión. Una plataforma de noticias sin relación con las anteriores y con la que no has tenido contacto en el pasado crea un perfil basado en esa conducta de visualización marcando la exploración del espacio como un tema de tu posible interés para para otros vídeos.

El contenido que se te presenta en este servicio puede basarse en un perfilde personalización de contenido que se haya realizado previamente sobre tu persona, lo que puede reflejar tu actividad en este u otros servicios (por ejemplo, los formularios con los que interactúas o el contenido que visualizas), tus posibles intereses y aspectos personales. Un ejemplo de lo anterior sería la adaptación del orden en el que se te presenta el contenido, para que así te resulte más sencillo encontrar el contenido (no publicitario) que coincida con tus intereses.

  • Has leído unos artículos sobre comida vegetariana en una plataforma de redes sociales. Posteriormente has usado una aplicación de cocina de una empresa sin relación con la anterior plataforma. El perfil que se ha creado sobre tu persona en la plataforma de redes sociales se utilizará para mostrarte recetas vegetarianas en la pantalla de bienvenida de la aplicación de cocina.
  • Has visualizado tres vídeos sobre remo en páginas web diferentes. Una plataforma de video, no relacionada con la página web en la que has visualizado los vídeos sobre remo, pero basandose en el perfil creado cuando visistaste dicha web, podrá recomendarte otros 5 vídeos sobre remo cuando utilices la plataforma de video a través de tu televisor .

La información sobre qué publicidad se te presenta y sobre la forma en que interactúas con ella puede utilizarse para determinar lo bien que ha funcionado un anuncio en tu caso o en el de otros usuarios y si se han alcanzado los objetivos publicitarios. Por ejemplo, si has visualizado un anuncio, si has hecho clic sobre el mismo, si eso te ha llevado posteriormente a comprar un producto o a visitar una página web, etc. Esto resulta muy útil para comprender la relevancia de las campañas publicitarias.

  • Has hecho clic en un anuncio en una página web/medio de comunicación sobre descuentos realizados por una tienda online con motivo del “Black Friday” online y posteriormente has comprado un producto. Ese clic que has hecho estará vinculado a esa compra. Tu interacción y la de otros usuarios se medirán para saber el número de clics en el anuncio que han terminado en compra.
  • Usted es una de las pocas personas que ha hecho clic en un anuncio que promociona un descuento por el “Día de la madre”de una tienda de regalos en Internet dentro de la aplicación de una web/medio de comunicación. El medio de comunicación quiere contar con informes para comprender con qué frecuencia usted y otros usuarios han visualizado o han hecho clic en un anuncio determinado dentro de la aplicación y, en particular, en el anuncio del “Día de la madre” para así ayudar al medio de comunicación y a sus socios (por ejemplo, las agencias de publicidad) a optimizar la ubicación de los anuncios.

La información sobre qué contenido se te presenta y sobre la forma en que interactúas con él puede utilizarse para determinar, por ejemplo, si el contenido (no publicitario) ha llegado a su público previsto y ha coincidido con sus intereses. Por ejemplo, si hasleído un artículo, si has visualizado un vídeo, si has escuchado un “pódcast” o si has consultado la descripción de un producto, cuánto tiempo has pasado en esos servicios y en las páginas web que has visitado, etc. Esto resulta muy útil para comprender la relevancia del contenido (no publicitario) que se te muestra.

  • Has leído una publicación en un blog sobre senderismo desde la aplicación móvil de un editor/medio de comunicación y has seguido un enlace a una publicación recomendada y relacionada con esa publicación. Tus interacciones se registrarán para indicar que la publicación inicial sobre senderismo te ha resultado útil y que la misma ha tenido éxito a la hora de ganarse tu interés en la publicación relacionada. Esto se medirá para saber si deben publicarse más contenidos sobre senderismo en el futuro y para saber dónde emplazarlos en la pantalla de inicio de la aplicación móvil.
  • Se te ha presentado un vídeo sobre tendencias de moda, pero tu y otros usuarios habéis dejado de visualizarlo transcurridos unos 30 segundos. Esta información se utilizará para valorar la duración óptima de los futuros vídeos sobre tendencias de moda.

Se pueden generar informes basados en la combinación de conjuntos de datos (como perfiles de usuario, estadísticas, estudios de mercado, datos analíticos) respecto a tus interacciones y las de otros usuarios con el contenido publicitario (o no publicitario) para identificar las características comunes (por ejemplo, para determinar qué público objetivo es más receptivo a una campaña publicitaria o a ciertos contenidos).

  • El propietario de una librería que opera en Internet quiere contar con informes comerciales que muestren la proporción de visitantes que han visitado su página y se han ido sin comprar nada o que han consultado y comprado la última autobiografía publicada, así como la edad media y la distribución de género para cada uno de los dos grupos de visitantes. Posteriormente, los datos relacionados con la navegación que realizas en su página y sobre tus características personales se utilizan y combinan con otros datos para crear estas estadísticas.
  • Un anunciante quiere tener una mayor comprensión del tipo de público que interactúa con sus anuncios. Por ello, acude a un instituto de investigación con el fin de comparar las características de los usuarios que han interactuado con el anuncio con los atributos típicos de usuarios de plataformas similares en diferentes dispositivos. Esta comparación revela al anunciante que su público publicitario está accediendo principalmente a los anuncios a través de dispositivos móviles y que es probable que su rango de edad se encuentre entre los 45 y los 60 años.

La información sobre tu actividad en este servicio, como tu interacción con los anuncios o con el contenido, puede resultar muy útil para mejorar productos y servicios, así como para crear otros nuevos en base a las interacciones de los usuarios, el tipo de audiencia, etc. Esta finalidad específica no incluye el desarrollo ni la mejora de los perfiles de usuario y de identificadores.

  • Una plataforma tecnológica que opera con un proveedor de redes sociales observa un crecimiento en los usuarios de aplicaciones móviles y se da cuenta de que, en funciónde sus perfiles, muchos de ellos se conectan a través de conexiones móviles. La plataforma utiliza una tecnología nueva para mostrar anuncios con un formato óptimo para los dispositivos móviles y con un ancho de banda bajo a fin de mejorar su rendimiento.
  • Un anunciante está buscando una forma de mostrar anuncios en un nuevo tipo de dispositivo. El anunciante recopila información sobre la forma en que los usuarios interactúan con este nuevo tipo de dispositivo con el fin de determinar si puede crear un nuevo mecanismo para mostrar la publicidad en ese tipo de dispositivo.

El contenido que se presenta en este servicio puede basarse en datos limitados, como por ejemplo la página web o la aplicación que esté utilizando, tu ubicación no precisa, el tipo de dispositivo o el contenido con el que estás interactuando (o con el que has interactuado) (por ejemplo, para limitar el número de veces que se te presenta un vídeo o un artículo en concreto).

  • Una revista de viajes, para mejorar las experiencias de viaje en el extranjero, ha publicado en su página web un artículo sobre nuevos cursos que ofrece una escuela de idiomas por Internet. Las publicaciones del blog de la escuela se insertan directamente en la parte inferior de la página y se seleccionan en función de la ubicación no precisa del usuario (por ejemplo, publicaciones del blog que explican el plan de estudios del curso para idiomas diferentes al del país en el que este te encuentras).
  • Una aplicación móvil de noticias deportivas ha iniciado una nueva sección de artículos sobre los últimos partidos de fútbol. Cada artículo incluye vídeos alojados por una plataforma de streaming independiente que muestra los aspectos destacados de cada partido. Si adelantas un vídeo, esta información puede utilizarse para determinar que el siguiente vídeo a reproducir sea de menor duración.

Se puede utilizar la localización geográfica precisa y la información sobre las características del dispositivo

Al contar con tu aprobación, tu ubicación exacta (dentro de un radio inferior a 500 metros) podrá utilizarse para apoyar las finalidades que se explican en este documento.

Con tu aceptación, se pueden solicitar y utilizar ciertas características específicas de tu dispositivo para distinguirlo de otros (por ejemplo, las fuentes o complementos instalados y la resolución de su pantalla) en apoyo de las finalidades que se explican en este documento.

O sin cookies desde 1.67€ al mes

Por solo 1.67 al mes, disfruta de una navegación sin interrupciones por toda la red del Grupo ADSLZone: adslzone.net, movilzona.es, testdevelocidad.es, lamanzanamordida.net, hardzone.es, softzone.es, redeszone.net, topesdegama.com y más. Al unirte a nuestra comunidad, no solo estarás apoyando nuestro trabajo, sino que también te beneficiarás de una experiencia online sin publicidad ni cookies de seguimiento.

Así queda el top mundial de modelos IA: Gemini vs ChatGPT-5 vs Claude 4.5 vs Grok 4

Gráfico de barras del ranking Chatbot Arena+ de octubre 2025, mostrando las puntuaciones Elo de los principales modelos de IA: Gemini 2.5 Pro liderando con 1466, seguido por Grok-4, GPT-5 y Claude 4.5.'
Figura 1: Comparativa de rendimiento de los principales modelos de IA según la puntuación Elo global del ranking Chatbot Arena+. Fuente: elaboración propia.

OpenLM.ai mantiene actualizado su benchmark Chatbot Arena+ que nos permite conocer el rendimiento real de los grandes modelos de lenguaje (LLMs). En una batalla titánica, tenemos poco margen de diferencia entre Gemini 2.5 Pro de Google, GPT-5 (OpenAI), Claude Sonnet 4.5 (Anthropic) y Grok-4-0709 (xAI). Las diferencias entre los cuatro líderes son las más estrechas registradas hasta la fecha, pero ¿quién lidera el top mundial de IA?

Un ranking que mezcla datos y preferencias humanas

Antes de entrar en materia debemos conocer lo que mide esta clasificación. El Chatbot Arena+ combina el sistema Elo Arena, basado en más de 5 millones de votos humanos con métricas estandarizadas como AAII v3, MMLU-Pro y ARC-AGI v2. Es decir, ofrece una fotografía completa de rendimiento con precisión técnica, capacidad de razonamiento y valoración subjetiva de los usuarios.

  • AAII v3 (Evaluación Avanzada de Inteligencia Artificial v3): Un benchmark que analiza el razonamiento de los diferentes modelos en 10 tareas técnicas complejas.
  • MMLU-Pro (Massive Multitask Language Understanding – Professional): Una versión avanzada que mide la comprensión del lenguaje en múltiples disciplinas, todo a nivel universitario.
  • ARC-AGI v2 (Abstraction and Reasoning Challenge for AGI v2): Evalúa el razonamiento abstracto mediante rompecabezas visuales. Los humanos alcanzan unos resultados cercanos al 100% mientras que los modelos de IA actualen se mueven entre un 10% y un 20%.

Top 5 mundial de modelos LLM — octubre 2025

PosiciónModeloElo globalCodificaciónVisiónAAII v3MMLU-Pro (%)ARC-AGI v2
1Gemini 2.5 Pro (Google)1466146912666386.24.9
2Grok-4-0709 (xAI)1446145312216185.44.6
3GPT-5 (OpenAI)1443146212486285.84.8
4Claude Sonnet 4.5 (Anthropic)1431144112126084.94.5
5Qwen 2.5 Max (Alibaba Cloud)1409143312075883.74.3

La batalla entre gigantes: diferencias mínimas y estrategias distintas

Lo que se aprecia a simple vista según los datos de OpenLM.ai es una gran igualdad entre grandes modelos de lenguaje. Gemini 2.5 Pro destaca por su capacidad multimodal, además de por su equilibrio entre razonamiento lógico y generación de código.

En el caso de Chat GPT-5, tenemos un buen rendimiento en programación y resolución de problemas. No obstante, su puntuación Elo global cae por la preferencia de respuestas más “humanas” por parte de los usuarios. Recordemos la polémica llegada de esta nueva versión y como los usuarios forzaron a OpenAI a permitir volver a elegir modelos antiguos como 4o.

El lanzamiento de GPT-5 en agosto de 2025 generó una gran controversia. Los usuarios criticaron duramente la actualización, ya que ahora el agente de IA ofrecía espuestas más cortas y técnicas. Además, el hecho de eliminar la posibilidad de elegir modelos anteriores como GPT-4o, fue la gota que colmó el vaso. A los pocos días, OpenAI lanzaba un comunicado donde se comprometían a revertir parte de estos cambios y recuperar el acceso a modelos previos.

Captura de pantalla de la tabla completa de Chatbot Arena+ con las puntuaciones detalladas de Elo, codificación, visión y otros benchmarks técnicos para los 5 principales modelos de IA.
Figura 2: Detalle de las métricas técnicas del ranking Chatbot Arena+. Captura: ADSLZone / Fuente original de los datos: OpenLM.ai.

Claude 4.5 de Anthropic ha reforzado su enfoque en seguridad y ética, siendo uno de los modelos más fiables. Por su parte Grok-4 gana terreno en contexto conversacional. A nivel personal, coincido bastante con esta clasificación según mis hábitos, pero sí es cierto que le daría algo más de puntuación a la IA de Elon Musk en codificación.

El auge de la IA China

Aunque nos hemos centrado en ver a los modelos más conocidos por todos como Gemini 2.5 Pro de Google, GPT-5 (OpenAI), Claude Sonnet 4.5 (Anthropic) y Grok-4-0709 (xAI), lo cierto es que el ranking esconde muchas cosas que analizar. Seguro que a muchos les sorprende ver en cuarta y quinta posición, por encima de Claude, a dos inteligencias artificiales chinas.

Por un lado, tenemos a GLM-4.6, un modelo de lenguaje desarrollado por Zhipu AI que amplía la ventana de contexto hasta unos 200 000 tokens. Por otro lado, encontramos a Qwen3-Max-2025-9-23, el modelo tope de gama de Alibaba Cloud, con más de un billón de parámetros. Ambos modelos se acercan muchísimo a Gemini-2.5-Pro, Grok-4-0709 o GPT-5. No obstante, la gran diferencia es que son de código abierto.

Qué significa este resultado para la industria

La primera posición de Gemini 2.5 Pro no es definitiva, ni pude permitir a los de Google dormirse en los laureles. Una diferencia de menos de 30 puntos Elo entre los cuatro primeros muestran una madurez bastante interesante de los modelos de lenguaje. Tampoco podemos dejar de fijarnos en las inteligencias artificiales que vienen de China y que están pisando los talones.

Ahora mismo, los cuatro gigantes de la IA mundial pasan por este punto:

  • Google lidera la integración multimodal con texto, imagen y audio.
  • OpenAI mantiene el liderazgo en tareas técnicas y compatibilidad API.
  • Anthropic apuesta por la seguridad, rigor y transparencia.
  • xAI apuesta por un tono más emocional del lenguaje.

Para el usuario son todo buenas noticias. Cada vez más y mejor competencia que nos permite ir probando cada uno de los modelos hasta encontrar el que mejor se ajusta a nuestras necesidades. Incluso, podemos optar por tener varios al mismo tiempo, dedicando cada uno de ellos a un tipo de tareas.

¿Qué modelo de IA usar según la tarea?

ModeloFortaleza PrincipalBenchmark ClavePuntuación DestacadaIdeal para...
Gemini 2.5 ProAnálisis Multimodal (texto + imagen)MMMU79.6%Analizar documentos con gráficos, auditorías visuales, investigación científica.
GPT-5Programación AlgorítmicaHumanEval92.7%Desarrolladores, resolución de problemas de código, integración en ecosistema Microsoft.
Claude 4.5Seguridad y Codificación RealSWE-bench72.5%Proyectos empresariales, mantenimiento de código, entornos con altos requisitos de seguridad.
Grok-4Contexto ConversacionalDialogQA84.3%Atención al cliente avanzada, análisis de diálogos largos, coherencia narrativa.

¿Cuánto cuesta usar estos modelos?

Gemini 2.5, GPT-5, Claude 4.5 y Grok-4 pueden utilizarse de forma limitada con sus versiones gratuitas. También es posible pagar por acceso a más funciones, con un coste que ronda los 20 euros al mes dependiendo de la plataforma. Gemini 2.5 Pro se puedes conseguir desde 21,99 euros al mes, GPT-5 a través de OpenAI cuesta 23 euros al mes, Claude 4.5 son 17 dólares al mes y Grok 4, integrado en X Premium, son unos 16 euros.

Conclusión

Según los analistas de OpenLM.ai, “la era del modelo dominante ha terminado; ahora la clave es la adaptabilidad y la integración en ecosistemas de uso real”. Esto implica que se debe buscar otros caminos para convencer a los usuarios y seguir marcando el puso del mercado de la inteligencia artificial.

Gemini 2.5 Pro, GPT-5, Claude 4.5 y Grok-4 ya no se separan por potencia bruta, sino que lo hacen por sutiles diferencias de integración, API y filosofía de diseño. La próxima actualización del ranking, prevista para enero de 2026, volverá a darnos una imagen fiel de las nuevas versiones y de los modelos abiertos que están despegando.

Fuentes consultadas

OpenLM.ai — Chatbot Arena+ (2025)

Google DeepMind — Blog oficial de Gemini 2.5 Pro

Anthropic — Actualización Claude Sonnet 4.5

xAI — Presentación Grok-4-0709

OpenAI — Notas técnicas GPT-5

Dudas sobre el ranking de LLMs

¿Qué es Chatbot Arena+?
Es un ranking abierto mantenido por OpenLM.ai que combina tanto votaciones humanas y como métricas técnicas. Esto permite comparar grandes modelos de lenguaje (LLMs).
¿Cuántos votos acumula el sistema?
Más de 5 millones sumando todos los modelos en modo anónimo.
¿Qué diferencia hay entre Elo Arena y AAII v3?
Elo Arena refleja la preferencia de los usuarios mientras que AAII v3 agrupa pruebas de rendimiento técnico en 10 tareas de razonamiento.
¿Por qué Gemini 2.5 Pro está por encima de GPT-5?
Por mejor rendimiento multimodal y equilibrio entre lenguaje y razonamiento según las últimas métricas disponibles.
¿Cambian los resultados con el tiempo?
Sí, los rankings se actualizan con el tiempo y esperamos una gran actualización del Chatbot Arena+ en enero de 2026.