Google se encamina a los agentes de inteligencia artificial con Gemini 2.0
Google sacó Gemini (antes Bard) un año después de que se diese el boom de la inteligencia artificial con el lanzamiento de ChatGPT de OpenAI. Sin embargo, era una tecnología en la que llevaban muchos años trabajando y consiguieron situarse como una de las empresas más relevantes del sector. Esta semana han presentado la versión Gemini 2.0, que les acerca un poco más a los agentes de IA.
Los agentes de inteligencia artificial son el siguiente paso que se espera que se tome en el desarrollo de dicha tecnología. En un principio, los sistemas con funciones ‘agenciales’ podrían realizar tareas específicas automáticamente, sin apenas intervención humana. Lo único que tendríamos que hacer es darle un objetivo final y la IA se encargaría de ejecutar acciones para llegar al resultado en cuestión.
La próxima generación de Gemini aplicará funciones que nos aproximan a esa idea futura a la que las empresas de IA quieren llegar. Como adelanto, han lanzado una versión previa experimental a la que han llamado Gemini 2.0 Flash. Este modelo es capaz de generar texto, imágenes y voz basándose en prompts con texto, imágenes, audio y vídeo. En definitiva, sus capacidades son similares a los modelos de IA multimodales, como ChatGPT-4o de OpenAI.
El doble de velocidad que la versión Gemini 1.5 Pro
En un comunicado de prensa, Google explicó que «Gemini 2.0 Flash se basa en el éxito de 1.5 Flash», que es su modelo más popular hasta la fecha para desarrolladores. Sin embargo, el equipo ha optimizado su rendimiento, con tiempos de respuesta más rápidos: «2.0 Flash incluso supera a 1.5 Pro en los principales puntos de referencia, al doble de velocidad».
El director ejecutivo de Google, Sundar Pichai, considera que Gemini 2.0 es el principio de una «nueva era con agentes». «Durante el último año, hemos estado invirtiendo en el desarrollo de más modelos con agentes, lo que significa que pueden comprender más sobre el mundo que les rodea, pensar en varios pasos por adelantado y actuar en su nombre», aclara el CEO de la empresa. Sin embargo, para las personas preocupadas por la IA pensando por su cuenta, aclara que siempre requerirá de la supervisión del usuario.
Pensando en el futuro, la compañía tecnológica ha explicado que la inteligencia de Gemini 2.0 podría aplicarse a las búsquedas de Google. También sería útil para abordar preguntas más complejas, como los problemas matemáticos y la codificación de varios pasos.
Dentro de la familia Gemini 2.0, la versión Flash que han lanzado primero es el modelo más pequeño «en términos de cantidad de parámetros». Su vista previa ya está disponible para desarrolladores de Google, como Gemini API, AI Studio y Vertex AI. Pero todavía sigue en fase de pruebas. Eso se traduce en funciones de generación de imágenes y de conversión de texto a voz limitadas hasta enero de 2025. Próximamente, cuando implementen mejoras, la marca implementará esta tecnología a otros productos, como Android Studio, Chrome DevTools y Firebase.
Con el propósito de adentrarse al mundo de los agentes de IA por todo lo alto y en todas las áreas, Google está colaborando con los desarrolladores de juego Supercell. Con este nuevo socio, esperan crear agentes de IA que comprendan el juego y puedan proporcionar sugerencias en tiempo real. De hecho, han puesto un ejemplo de lo que están haciendo en un vídeo publicado en YouTube.
Sin embargo, Google aclara que lo que quiere conseguir con Gemini 2.0 todavía está en proceso: «Todavía estamos en las primeras etapas de desarrollo, pero estamos emocionados de ver cómo los evaluadores confiables usan estas nuevas capacidades y qué lecciones podemos aprender, para que podamos hacerlas más ampliamente disponibles en productos en el futuro». Por lo tanto, tardaremos en ver cumplirse todas las ideas que el equipo ha pensado para esta nueva generación de IA. Posiblemente, vayamos viendo actualizaciones del modelo, con versiones más grandes y otras mejoras.