OpenAI lanza su agente de IA: la herramienta que se encargará de realizar tareas online por ti

Los agentes de inteligencia artificial (IA) son el verdadero futuro de la tecnología. Si bien los modelos de lenguaje grande (LLM son sus siglas en inglés), como ChatGPT o Gemini, han sido de gran ayuda para millones de usuarios durante varios años, ahora es momento de dar el siguiente paso. Eso es lo que ha hecho OpenAI al sacar su nuevo agente Operator AI, que puede realizar tareas por ti en la web.
Bill Gates, cofundador de Microsoft, vaticinó a finales de 2023 que la llegada de los agentes de IA sucedería en algún punto de los próximos cinco años. Según explicaba el empresario, estos ayudarían al usuario a llevar a cabo tareas digitales como si fuese un amigo cercano. «Simplemente, le dirás a tu dispositivo, en el lenguaje cotidiano, lo que quieres hacer. Y dependiendo de la cantidad de información que elijas compartir con él, el software podrá responder personalmente porque tendrá una rica comprensión de tu vida», indicaba en su blog.
No han pasado ni dos años de las palabras de Gates y ya estamos viendo los primeros indicios de que esto será una realidad. Primero fue Google, con el anuncio de Gemini 2.0 con funciones ‘agenciales’. Ahora, ha sido el turno de OpenAI y la presentación de Operator AI.
OpenAI@OpenAIA research preview of Operator, an agent that can use its own browser to perform tasks for you. https://t.co/wkBBDIlVqj23 de enero, 2025 • 20:22
8.6K
761
En el caso de la empresa liderada por Sam Altman, aseguran que su agente de IA puede «ir a la web para realizar tareas por ti». Es decir, la inteligencia artificial utilizará el navegador por su cuenta, mirará las páginas webs y podrá interactuar por ellas «escribiendo, haciendo clic y desplazándose». Pero, ¿cómo funciona Operator AI? ¿Quiénes podrán acceder a sus funciones antes que nadie?
Así es Operator AI, el agente de IA de OpenAI
Según ha detallado OpenAI en una publicación en su blog, la nueva herramienta de IA se basa en un modelo de «agente de uso de computadora». Operator AI es capaz de combinar ChatGPT-4o con «razonamiento avanzado a través del aprendizaje por refuerzo» para interactuar con la interfaz gráfica de usuario (GUI).
Los desarrolladores indican que Operator AI es capaz de ‘ver’ lo que está haciendo a través de capturas de pantalla y que ‘interactúa’ con el ordenador con el ratón y el teclado. De este modo, han conseguido que sea capaz de moverse por la web «sin necesidad de integraciones API personalizadas».
La inteligencia artificial ‘agencial’ puede utilizar el razonamiento para «autocorregirse», según aclara OpenAI. Y, si falla y no es capaz de seguir con la tarea, le dará el control al usuario de nuevo.
En algunos casos, la intervención humana seguirá siendo importante. Por ejemplo, cuando una página web pida información confidencial, como las credenciales para iniciar sesión, cederá el mando al usuario. Además, el internauta también deberá aprobar ciertas acciones, como mandar un correo electrónico.
Otro factor que la firma tecnológica ha tenido en cuenta es que Operator AI no acepte solicitudes de sitios webs que puedan resultar dañinas. Por ejemplo, si una página te pide descargar un archivo, irá con cuidado y no lo aceptará a la ligera, sobre todo teniendo en cuenta que podría tratarse de un malware. En suma, el agente de IA bloqueará el «contenido no permitido», como webs para adultos o similares.
Con el fin de que Operator AI «aborde las necesidades del mundo real respetando las normas establecidas», la marca de Sam Altman ha colaborado con DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack y Uber. Sin embargo, podría tener errores y no funcionar como se espera de momento. Los primeros usuarios en poder disfrutar de sus prestaciones serán los suscriptores de ChatGPT Pro (que sale por 200 dólares al mes) de EEUU. Más adelante se integrará en otros países del mundo y llegará a usuarios de Plus, Team y Enterprise.