Google va a por todas: lanza Gemini 1.5 para destrozar a OpenAI y ChatGPT

David Soriano Publicado el 15 de febrero, 2024 • 18:28

Google tiene nuevo modelo de Inteligencia Artificial. El gigante tecnológico va a por todas en el campo de la IA y está apostando muy fuerte por la marca Gemini. Tanto, que va a dejar a GPT-4 muy atrás en poco tiempo.

Solo han pasado apenas dos meses después del lanzamiento de Gemini, el modelo lingüístico grande (LLM) que Google espera que lo lleve a la cima de la industria de la Inteligencia Artificial. Sin embargo, pese al poco tiempo que ha pasado, el gigante tecnológico ha presentado a su sucesor para ir de una vez a por todas a por OpenAI y GPT-4.

El potencial bruto de Gemini 1.5

A grandes rasgos, la nueva versión de Gemini de Google puede manejar cantidades de datos mucho mayores. El modelo de IA actualizado ahora puede hacer cosas realmente impresionantes con vídeos o textos largos.

En el vídeo de su presentación hemos visto un ejemplo que sirve a la perfección para ejemplificar que la era de un chatbot que simplemente responde es pasado. El equipo de Google subió una película muda de 44 minutos protagonizada por Buster Keaton y pidió a la IA que identificara qué información había en un trozo de papel que, en algún momento de la película, se saca del bolsillo de un personaje. En menos de un minuto, Gemini 1.5 encontró la escena e identificó correctamente el texto escrito en el papel. Los investigadores también pidieron al modelo que encontrara una escena de la película basándose en un dibujo, lo cual completó con éxito.

Dejando atrás a ChatGPT

Para poner en contexto el potencial de un modelo de Inteligencia Artificial, tenemos que tener en cuenta el concepto de ventana contextual y los tokens. Este último término, algo complejo de definir, sería la unidad de medida de los componentes básicos necesarios para procesar la información. Tal y como explica Google, «pueden ser partes enteras o subsecciones de palabras, imágenes, vídeos, audio o código. Cuanto más grande sea la ventana de contexto de un modelo, más información podrá absorber y procesar en un mensaje determinado, lo que hará que su resultado sea más consistente, relevante y útil».

Gemini 1.5 Pro tiene una enorme ventana de contexto, lo que significa que puede manejar consultas mucho más grandes y ver mucha más información a la vez. Esa ventana es de 1 millón de tokens, un dato bastante considerable comparados con los 128.000 del GPT-4 de OpenAI y los 32.000 del Gemini Pro actual. Efectivamente, se trata de a ventana de contexto más grande jamás vista en un modelo de lenguaje de gran tamaño.

Eso sí, todo tiene cierto truco. Por ahora, Gemini 1.5 Pro -y su millón de tokens- solo estará disponible para usuarios empresariales y desarrolladores, a través de Vertex AI y AI Studio de Google. Con el tiempo reemplazará a Gemini 1.0 y la versión estándar de Gemini Pro, la que está disponible para todos en gemini.google.com y en las aplicaciones de la compañía, será la 1.5 Pro con una ventana contextual de 128.000 tokens, superando los actuales 32.000 tokens.

Tendrás que pagar más para llegar al millón de tokens. Google también está probando los límites éticos y de seguridad del modelo, particularmente en lo que respecta a la nueva ventana de contexto más grande. Cuando eso se produzca y Gemini 1.5 con 128.000 tokens sea el modelo que puedes probar gratuitamente en la web del proyecto, supondrá que la versión gratuita del asistente de IA generativa será equiparable a la actual versión de pago de ChatGPT Plus, que es la que usa el modelo GPT-4 (o lo puedes probar gratis con Bing).