Cómo es Hyena: una IA alternativa a ChatGPT

Juan Scaliter Actualizado el 26 de enero, 2024 • 09:22

Detrás de este programa hay nombres muy ilustres en el campo de la inteligencia artificial, como Yoshua Bengio, Premio Turing 2019 o Christopher Ré, quien ha ayudado en los últimos años a promover la noción de IA como «software 2.0”. Por lo tanto, un punto clave de esta Inteligencia artificial es que hay muchas personas que trabajan dentro del campo de las IAs. Hyena consigue lo mismo que ChatGPT con menos entrenamiento y mucho menos procesamiento.

Si bien el programa de OpenAI, ChatGPT, merece toda la admiración que se le está rindiendo en los últimos tiempos, la realidad es que se trata apenas de un software más complejo de lo habitual. Pero uno que requiere una enorme cantidad de entrenamiento para funcionar y precisa de una potencia notable para responder a desafíos cada vez más complejos. Y aquí es cuando puede empezar a fallar.

Los fallos en la programación de una IA se pueden dar por varios motivos, pero dos de ellos tienen especial relevancia. El primero es que no se cuente con suficientes datos. Sin información, ¿de qué aprendería una máquina o una IA? Y a esto hay que sumarle el extremo opuesto: ¿Cuándo se considera suficiente la información? Darle demasiados datos puede provocar redundancia, confusión por contradicciones y demora en el procesamiento.

En este caso, la solución, de acuerdo con los expertos, es comprender claramente de qué modo una IA procesa la información con la que se le «alimenta»; su modo exacto de utilizar los datos de que dispone. Y esta es la clave de Hyena y su enorme capacidad. De primeras, puedes llevar a cabo todo lo que hace ChatGPT, pero cuenta con un mayor rendimiento al procesar la información con menos tiempo de entrenamiento.

La AI que todos desean probar online

Todo comenzó en 2017 cuando Ashish Vaswani, por entonces uno de los líderes en investigación de Google, presentó el programa Transformer AI, la base o el padre de los actuales programas de IA. El problema es que Transformer tenía un gran defecto. Para llevar a cabo las tareas recurre a lo que lo que se conoce como “atención”: el programa recibe la información en un grupo de símbolos, como palabras, y mueve esa información a un nuevo grupo de símbolos, como la respuesta que vemos en ChatGPT.

Esa operación de atención, la herramienta esencial de todos los programas actuales, incluidos ChatGPT y GPT-4, tiene una complejidad computacional «cuadrática». Eso significa básicamente que el tiempo que le toma a ChatGPT generar una respuesta aumenta como el cuadrado de la información que recibe.

Es decir, si hay demasiados datos (demasiadas palabras, muchas líneas de chat o pixels de una imagen), el programa necesita más potencia del ordenador para responder. Y esa necesidad se multiplica por sí misma hasta llegar a un límite en el que ya no es capaz de responder adecuadamente.

En un reciente artículo un equipo de científicos de la Universidad de Stanford y el instituto MILA de Canadá propusieron una tecnología que podría ser mucho más eficiente que GPT-4 y la bautizaron Hyena. Los autores incluyen a Michael Poli de Stanford y Yoshua Bengio, director científico de MILA y ganador del Premio Turing 2019 (el equivalente informático del Premio Nobel). A Bengio se le atribuye el desarrollo del mecanismo de atención mucho antes que existiera el programa Transformador, de Google. A ellos se suma Christopher Ré, quien ha ayudado en los últimos años a promover la noción de IA como «software 2.0”. Vamos, una selección interesante de cerebros especializados.

Esta IA en particular, y al igual que ocurre con otras como ChatGPT, lo cierto es que se puede aplicar a diferentes tareas o aplicaciones. Por ejemplo, algunas de estas son para asistentes virtuales o chatbots, generar contenido, resúmenes de texto y su análisis; además de otras opciones como la traducción automática. Por lo tanto, esta Inteligencia Artificial se puede emplear para este tipo de aplicaciones.

Rendimiento multiplicado por 100

Para demostrar la capacidad de Hyena, los autores lo sometieron a diferentes pruebas. Una de ellas es conocida como The Pile, una colección de textos de 825 gigabytes (equivalente a más de 250.000 libros) reunida en 2020 por Eleuther.ai, un equipo de investigación de IA sin fines de lucro. Los textos se obtienen de fuentes de «alta calidad» como PubMed, arXiv, GitHub, la Oficina de Patentes de EE. UU. y otras, de modo que la información es más rigurosa que las discusiones que se pueden ver en Twitter.

El programa Hyena logró una puntuación equivalente a la de ChatGPT, pero con un 20 % menos de operaciones informáticas. En otras tareas Hyena logró puntuaciones iguales o cercanas a las de una versión de GPT aunque se la entrenó con menos de la mitad de los datos. Mayor eficiencia para un mismo resultado.

Pero, y aquí viene lo interesante, cuando el equipo de Poli aumentó la exigencia de Hyena (se le pidió más datos y el intercambio aumentó en el tiempo), mejor se comportaba el programa. Con 2048 «tokens», que pueden considerarse como palabras, Hyena necesita menos tiempo para completar una tarea de lenguaje que GhatGPT, pero cuando llegaban a los 64.000 tokens, los autores señalan que «las aceleraciones de Hyena alcanzan 100x», una mejora del rendimiento de cien veces. Y es que, aunque puedan ser similares en diferentes aspectos como en sus aplicaciones o los términos de su arquitectura, lo cierto es que hay diferencias clave entre ambas IAs.

Por si todo esto fuera poco, el programa es bastante más pequeño que GPT-4 o incluso GPT-3. Mientras que GPT-3, por ejemplo, tiene 175 mil millones de parámetros, la versión más grande de Hyena tiene solo 1300 millones. Es decir, tiene una mejora de cien veces el rendimiento cuando más se le exige… con cien veces menos parámetros. Un avance más que interesante y que podría dejar a ChatGPT como un recuerdo muy bonito… mientras duró.

Todas estas ventajas (más potencia, menos entrenamiento previo y un espacio más reducido en programación) hacen que Hyena sea un candidato muy interesante para llevar una IA a dispositivos más reducidos, como aquellos que se utilizan en medicina, deporte y hasta transporte.

En el ámbito de salud estaríamos hablando de usos tan avanzados como el de identificar células malignas y ser capaces de reaccionar a ellas con los fármacos adecuados. En deporte, se aspiraría a que determinados textiles respondan a las condiciones climáticas y a las del deportista mediante sensores en metamateriales. Y en transporte, seríamos capaces de evaluar los flujos de tráfico en una ciudad y recomendar las mejores y más rápidas alternativas para reducir la contaminación y el estrés que caracteriza a sus habitantes.

En medio de todos los miedos que surgen en torno a la Inteligencia Artificial, aparecen también oportunidades que hace solo unos años parecían formar parte de la ficción. En cualquier caso, esta competencia entre IAs consigue que evolucionen y mejoren más con el paso del tiempo.