OpenAI lanza o1: así es su primer modelo de inteligencia artificial con capacidades de «razonamiento»
OpenAI continúa siendo una de las empresas especializadas en inteligencia artificial que más da de qué hablar. Desde que sacó ChatGPT-3 hace ya casi dos años, no han parado de trabajar en el desarrollo de algo mejor. Su último lanzamiento es o1-preview, una vista previa de un modelo de IA que aseguran que tiene capacidades de «razonamiento».
Los rumores ya estaban vaticinando la llegada de o1 hace unos días, aunque bajo otro nombre: Strawberry (fresa en inglés). Pese a que OpenAI se haya decantado por una denominación distinta, lo cierto es que sigue siendo lo mismo que las filtraciones prometían: el primer modelo de «razonamiento» de la marca.
El equipo de OpenAI ha explicado que o1 ha sido entrenado para responder preguntas verdaderamente complejas con rapidez. Con esta herramienta, la empresa quiere acercarse a esa IA soñada que imita el pensamiento humano. En un principio, la compañía tiene como propósito que mejore en los resultados de escribir código y resolver problemas de varios pasos.
De momento, lo que OpenAI ha lanzado es la vista previa de o1 (o1-preview), aunque también ha sacado o1-mini, una versión más pequeña y económica. Sin embargo, ha querido diferenciar estos modelos racionales de ChatGPT, por lo que marca un antes y un después en su desarrollo de inteligencia artificial.
OpenAI@OpenAIWe’re releasing a preview of OpenAI o1—a new series of AI models designed to spend more time thinking before they respond.These models can reason through complex tasks and solve harder problems than previous models in science, coding, and math. https://t.co/peKzzKX1bu
12 de septiembre, 2024 • 19:09
15.2K
1.7K
¿Cómo probar o1-preview u o1-mini?
El anuncio de o1 ayer por parte de OpenAI fue acompañado del lanzamiento de la vista previa y la versión mini para algunos usuarios. En concreto, los suscriptores de ChatGPT Plus y Team ya pueden emplearla. Al menos es lo que dicen en su publicación, pero es posible que llegue antes a Estados Unidos y en inglés que a España. De todos modos, está claro que los primeros españoles en poder usar o1 serán los usuarios de la versión Plus, que vale 20 dólares al mes; o Team, que sale por 25-30 dólares al mes.
Según ha aclarado OpenAI en su post, los siguientes en aprovecharse de o1-preview y o1-mini serán los de Enterprise. Su plan para empresas no cuenta con un precio fijo, sino que depende del uso que se le da. Quienes disfruten de una cuenta de este tipo comenzarán a poder usar estas versiones a principios de la próxima semana.
Por su parte, la firma de IA ha adelantado que pretenden dar acceso a o1-mini de manera gratuita. Es decir, si utilizas ChatGPT sin pagar ningún plan premium, podrás aprovecharte de la versión más simple de su modelo de «razonamiento» próximamente. No obstante, OpenAI no ha fijado ninguna fecha de lanzamiento. Por lo tanto, es de esperar que tarde en llegar a estos usuarios.
El verdadero cambio de precio para usar o1 se notará para los desarrolladores. En la API, la versión previa cuesta 15 dólares por 1 millón de tokens de entrada o fragmentos de texto analizados por el modelo, y 60 dólares por 1 millón de tokens de salida. Si lo comparamos con GPT-4o, que es el último modelo que OpenAI lanzó, sale realmente caro, ya que el millón de tokens de entrada salía por 5 dólares, y el millón de salida, por 15 dólares.
¿En qué se diferencia o1 de otros modelos de OpenAI?
La vista previa de o1 da un paso más allá en la inteligencia artificial de OpenAI. Jerry Tworek, líder de investigación de la marca, señala que el entrenamiento de dicho modelo ha sido fundamentalmente diferente a los de los anteriores, pero no da muchos detalles al respecto. En concreto, el experto afirma que o1 «ha sido entrenado utilizando un algoritmo de optimización completamente nuevo y un nuevo conjunto de datos de entrenamiento específicamente diseñado para él». Esto es lo que marca la diferencia entre o1 y los modelos de ChatGPT que le preceden.
La manera en la que han enseñado a o1 a resolver problemas por sí solo es a través de la técnica de aprendizaje de refuerzo. Es decir, han entrenado al modelo mediante un sistema de recompensas y penalizaciones. Así, han logrado que o1 tenga una «cadena de pensamiento» para procesar los prompts de los usuarios de una manera similar a la que usamos los humanos para procesar los problemas.
Tworek cuenta que o1 tiene menos alucinaciones que los anteriores modelos anteriores, pero reconoce que es un problema que persiste y que no han resuelto por completo. Sin embargo, es realmente bueno para abordar problemas complejos. Lo pusieron a prueba con un examen de matemáticas y aseguran que su clasificación era digna de entrar en la Olimpiada Internacional de Matemáticas.