Las revisiones de especialistas de las respuestas de Google Gemini las hacen personas no expertas
La inteligencia artificial (IA) está lejos de ser perfecta. Pese a que las respuestas de herramientas como Gemini o ChatGPT sorprendan, todavía son inexactas y sufren alucinaciones (afirmaciones que dan como certeras y son falsas). Para mejorar los resultados, Google recurre a una empresa externa que va corrigiéndolos. Sin embargo, han descubierto que los evaluadores de las respuestas no son personas expertas como prometían.
En la presentación de Gemini 2.0, Google aludió a que estaban «trabajando con evaluadores de confianza y expertos externos» para mejorar su IA. GlobalLogic, la compañía que han contratado para realizar «evaluaciones exhaustivas de riesgos y de seguridad y garantía«, no parece dar ejemplo de lo que Google aseguraba. En un artículo del medio de comunicación TechCrunch, han investigado a la empresa escogida para revisar las respuestas y han descubierto que los trabajadores no tienen el «conocimiento del dominio» necesario.
El propósito de Google al contratar a evaluadores externos era que analizasen las respuestas en busca de contenido sensible y dañino. Sin embargo, Google parece quitarse responsabilidades con las alucinaciones y las respuestas inexactas de su inteligencia artificial. Los evaluadores, que ni siquiera son expertos, no se fijan en ello. En ese caso, la compañía únicamente advierte que «Gemini puede cometer errores» y anima a que sean los propios usuarios los que lo comprueben. Por ese motivo, la marca contratada para revisar los resultados parece que no prestan tanta atención a que sus empleados sean especialistas en las revisiones que hagan.
Los moderadores de Gemini no tienen herramientas suficientes
En un principio, GlobalLogic (subsidiaria de Hitachi) enseñó a los ingenieros y analistas que trabajaban con Gemini a omitir las respuestas que no se entendiesen de la IA. En el manual que daban explicaban que, si no tenían «conocimientos críticos para clasificar esta solicitud», había que omitir la tarea. Por ejemplo, imagínate que tienen que evaluar una respuesta relacionada con programación y no saben nada sobre ese tema. Antes podían saltárselo, para cerciorarse de que el revisor que evaluase lo que decía Gemini supiese qué estaba corrigiendo.
No obstante, eso ha cambiado recientemente. La semana pasada pidieron a sus trabajadores que no omitiesen «las indicaciones que requieren conocimientos especializados del dominio». Por lo contrario, debían clasificar las partes que comprendían y poner en las observaciones que no tenían experiencia requerida en su análisis. Por lo tanto, muchos evaluadores examinaban resultados que no llegaban a comprender, sin tener conocimientos previos. Es decir, deben corregir las respuestas incluso si no entra dentro de su área de especialización.
En estos momentos, los contratados por GlobalLogic únicamente pueden omitir la corrección de respuestas de Gemini si «falta completamente información», o cuando atisban contenido sensible que requiere un formulario de consentimiento. Uno de los moderadores de Gemini explica a TechCrunch que creía que el propósito de poder omitir la prueba «era aumentar la precisión al dársela a alguien mejor». Pero, tras los cambios, no parecen cumplir con los objetivos que Google prometía en la presentación de Gemini de ser cada vez más precisos con los datos.
La respuesta de Google
El medio de comunicación estadounidense ha preguntado directamente a Google y su portavoz Shira McNamara justifica el trabajo de estos evaluadores de GlobalLogic. Estos no revisan solo el contenido, sino también el estilo, el formato y otros factores. «Las calificaciones que brindan no afectan directamente a nuestros algoritmos, pero cuando se toman en conjunto, son un punto de datos útil para ayudarnos a medir el funcionamiento de nuestros sistemas», aclara en la publicación de TechCrunch.
Por lo tanto, los moderadores contratados por GlobalLogic no se encargan tanto de la exactitud de las respuestas de la inteligencia artificial. Más bien deben prestar atención a que lo escrito se entienda bien.