Llega ChatGPT-4o, la versión ultra mejorada de ChatGPT para imágenes, vídeo, audio y texto

Claudio Valero Publicado el 13 de mayo, 2024 • 20:47

OpenAI es la empresa que marca el ritmo en el mercado de la inteligencia artificial y quiere que así siga siendo. Por eso, esta misma tarde ha vuelto a ser noticia al anunciar muchísimas mejoras a su asistente, más conocido como ChatGPT: llega ChatGPT-4o, la versión ultra mejorada de ChatGPT para imágenes, vídeo, audio y texto. Que, además, es un asistente como lo pueden ser Google Assistant o Siri. Te contamos todos los detalles.

GPT-4o, la “o” es de “omni”, es la nueva versión del asistente de inteligencia artificial por excelencia. OpenAI lo define como un paso en la interacción entre el humano y la máquina, haciendo que todo sea más natural y aceptando cualquier tipo de medio como entrada.

@adslzone
ChatGPT 4o es el nuevo JARVIS de Ironman #chatgpt #chatgpt4o #ia

♬ sonido original – ADSLzone – ADSLzone

Es decir, ya no solo podemos interactuar con ella a través de la voz. Ahora, Chat GPT-4o va a poder, también, recibir texto, audio, imagen o, lo que es más sorprendente, una combinación de estos elementos. Sin duda, un paso hacia delante que hace apenas unos meses parecía ciencia ficción. De hecho, es tan potente que puede responder en tan solo 232 milisegundos, con un promedio de 320 milisegundos (esto es similar al tiempo de reacción de un humano). Una buena comparación para entender de todo lo que va a ser capaz a partir de ahora.

Un paso más hacia una IA total

¿Te imaginas estar hablando con un ordenador y recibir las mismas respuestas, con la misma naturaleza, que lo haría cualquier otra persona? Puesta es precisamente la propuesta de Chat GPT-4o. Y uno de los principales motivos que nos van a llamar la atención desde las primeras interacciones. Se trata de un modelo de Inteligencia Artificial que, una vez ha implementado todas las mejoras, replica a la perfección la misma experiencia que tendríamos si estuviéramos hablando con cualquier otra persona. Si Chat GPT ya fue una revolución, esta nueva evolución pretende dar un paso más allá.

Antes del lanzamiento de GPT-4o, las latencias en la respuesta eran de 2,8 segundos (GPT-3.5) y 5,4 segundos (GPT-4). Viendo las cifras que se han anunciado para esta nueva versión, vemos como el salto es significativo. OpenAI no ha dudado en mostrar una comparativa con otras IA como Claude 3 Opus o Gemini Pro 1.5. GPT-4o se muestra mejor en prácticamente todas las áreas.

rendimiento de chat gpt-4o

Pero, ¿y qué ocurre con el precio? Esta es una de las dudas más comunes que iban surgiendo a medida que la presentación, de apenas 30 minutos, ha ido avanzando. Y es que la mayoría de las grandes tecnológicas dan prioridad a los usuarios de pago a la hora de aterrizar las principales novedades en sus productos. Sin embargo, OpenIA también ha decidido romper con esta tendencia.

De entre las diferentes ventajas de este nuevo modelo, sabemos que será gratuito, mientras que la versión 4.0 seguirá siendo de pago. Esto es lo que ha asegurado Mira Murati, la directora de tecnología de la compañía. El anuncio de esta nueva versión llega en medio de los rumores sobre la compañía, el lanzamiento de un motor de búsqueda que puede poner patas arriba los cimientos de Internet e incluso un acuerdo con Apple para ser la IA de la manzana mordida.

Además, ha llegado una aplicación para ordenadores. Sobre la disponibilidad, la compañía ha explicado lo siguiente: «Las capacidades de texto e imagen de GPT-4o están comenzando a implementarse hoy en ChatGPT. Estamos haciendo que GPT-4o esté disponible en el nivel gratuito y para usuarios Plus con límites de mensajes hasta 5 veces mayores. Lanzaremos una nueva versión del Modo de Voz con GPT-4o en alfa dentro de ChatGPT Plus en las próximas semanas».

Eliminando la barrera del idioma

Uno de los puntos de la presentación que más ha llamado la atención ha sido el momento en el que Muratti, junto a un ingeniero de OpenIA, han comenzado a interactuar en diferentes idiomas. Concretamente, en italiano y en inglés, de manera simultánea. ChatGPT ha comenzado a traducir la conversación de una forma similar a la que lo haría cualquier traducir, favoreciendo la comunicación y eliminando cualquier barrera idiomática. La diferencia más importante con el resto de herramientas de traducción que tenemos actualmente a nuestro servicio es su capacidad para añadir contexto a cada pregunta y cada respuesta.

OpenIA ha demostrado, además, sus habilidades para mejorar el potencial que tiene Chat GPT para interpretar cualquier imagen. Si bien es cierto que siempre ha presentado un muy buen rendimiento al respecto, la realidad es que en ocasiones aparecían ciertos fallos que había que corregir de manera manual. Ahora, únicamente tenemos que subir una fotografía o una imagen para que nos dé todo tipo de detalles, de manera muy precisa, sobre ella. Garantizando una mejor respuesta en comparación con lo que estábamos acostumbrados. Ahora, apenas necesitamos un teléfono móvil para que este modelo desarrollado por OpenIA analice todo lo que puede ver a través de nuestra cámara.

La seguridad

Desde OpenIA son conscientes de todo lo que tiene que ver con la polémica en torno a la seguridad y la protección de los datos de los usuarios. Por este motivo, OpenIA asegura que GPT-4o «se ha sometido a una amplia reunión externa con más de 70 expertos externos en dominios como la psicología social, el sesgo y la equidad, y la desinformación para identificar los riesgos que se introducen o amplifican con las nuevas modalidades añadidas«.

GPT-4o va a disponer de seguridad integrada en todas sus modalidades. Entre las diferentes técnicas que han anunciado se encuentra, por ejemplo, la filtración de los datos de entrenamiento. Así como el refinamiento de cada comportamiento a través del entrenamiento posterior. Además, se han creado nuevas medidas de seguridad para que toda la información se encuentra más protegida.

La disponibilidad

OpenIA también ha demostrado una gran celeridad para implementar estos cambios y aterrizarlos en el público general. De hecho, todo lo que tiene que ver con las nuevas capacidades de texto e imagen de GPT -4o estará disponible desde hoy mismo. Aunque, eso sí, el despliegue no se realizará de manera uniforme y es posible que algunos usuarios todavía tengan que esperar algunos días hasta poder comenzar las nuevas posibilidades que nos brinda GPT-4o.

También ha afirmado que la nueva versión del modo voz con GPT-4o comenzará a estar disponible «en las próximas semanas«, sin dar más detalles al respecto.