“El sistema falla donde menos te lo esperas”. Así evaluaron GPT-4 estos dos españoles por encargo de OpenAI

En el verano de 2022, los que buceaban en las aguas más profundas de la inteligencia artificial —investigadores, empleados del sector, directores de IA en empresas— sabían bien que OpenAI preparaba el lanzamiento de su siguiente GPT (su modelo de lenguaje o LLM). Pero no se conocían detalles. Ni cuándo sería, ni quién tendría acceso, ni qué capacidades nuevas demostraría respecto a la versión anterior, GPT-3, de uso restringido. Así estaban José Hernández-Orallo y Cèsar Ferri cuando en septiembre, Lama Ahmad, investigadora de políticas en OpenAI, les propuso formar parte del equipo externo que evaluaría GPT-4.

Hernández-Orallo y Ferri, ambos catedráticos del departamento de Sistemas Informáticos y Computación de la Universitat Politècnica de València (UPV), pertenecen al mismo grupo de investigación y tienen una amplia experiencia en evaluación de sistemas de inteligencia artificial. Quizá por eso se cuentan entre las poco más de 40 personas que OpenAI seleccionó en todo el mundo para probar su nuevo modelo de lenguaje. El objetivo era encontrar fallas en el sistema durante los seis meses anteriores al lanzamiento, en marzo de 2023.

“Ya desde GPT-3 nos han dado acceso siempre a sus sistemas de manera gratuita, a veces antes del lanzamiento, para hacer investigación”, indica Hernández-Orallo, que colabora con OpenAI desde hace cuatro años y destaca la buena comunicación entre la empresa y los investigadores que quieren analizar sus sistemas. El año pasado, ese verano en que se rumoreaba la llegada del próximo GPT, el acercamiento se estrechó. Los investigadores de la UPV organizaron un taller dentro de la Conferencia conjunta internacional sobre inteligencia artificial, uno de los eventos de inteligencia artificial más prestigiosos del año, y allí conocieron a más gente de OpenAI. Recibieron su llamada en septiembre.

“Nos dieron bastante libertad”, comenta Ferri. “Solo teníamos pautas a grandes rasgos de lo que debíamos buscar, como detectar contestaciones que incluyera texto peligroso, sexista o racista. El fin era evitar que la herramienta generara texto que pudiera causar algún problema. Fuimos jugando y probando diferentes prompts (instrucciones) que pudieran provocar ese tipo de respuestas”. Los investigadores formaron un equipo, compuesto por ellos mismos y tres estudiantes: Yael Moros, Lexin Zhou, Wout Schellaert.

José Hernández-Orallo, experto en inteligencia artificial en la Universidad Politécnica de Valencia.Mònica Torres

“Ellos se veían que lo iban a lanzar e iban a tener millones de usuarios, así que cuantas más cosas raras probaras más puedes cubrir el espacio de las locuras que pueda hacer la gente”, explica Hernández-Orallo. Se trataba de ponerle la zancadilla a GPT-4 para ver si tropezaba. Desde los ordenadores de su laboratorio, en la UPV, introducían textos en los que de alguna forma invitaban al sistema a tener una contestación con un sesgo peligroso.

En busca de fallos

Ferri confiesa que le resultaba emocionante tener acceso en primicia a la herramienta. GPT-3 (lanzado de forma restringida en 2020) ya funcionaba muy bien, así que los investigadores sabían que tenían entre manos lo más avanzado en inteligencia artificial generativa.

Había mucho que probar y cada uno experimentaba en el campo que más le interesaba. Hernández-Orallo exploró la fiabilidad: “El sistema falla donde tú menos te lo esperas. Y esto es bastante habitual con los modelos de lenguaje. Te resuelve una ecuación diferencial, pero luego no te suma bien una suma de cinco dígitos. Una persona de la calle se confía cuando hace bien una ecuación diferencial de primero de carrera. Pero en el último paso del problema tiene que hacer una suma de dos vectores y falla”. El catedrático de la UPV describe esta problemática como un desajuste entre las expectativas del usuario y la capacidad de la IA.

No todos los expertos seleccionados por OpenAI para evaluar GPT-4 tenían un bagaje computacional. Algunos tenían formación en leyes, en medicina, en derechos humanos o en defensa contra armas químicas. El objetivo era pulir el sistema. Uno de los evaluadores, según recoge el informe técnico que publicó OpenAI sobre GPT-4, lograba mediante una instrucción que el sistema redactara paso por paso cómo sintetizar un compuesto químico peligroso de forma casera. Este tipo de respuestas se invalidaban para evitar que persistieran en la versión abierta al público.

Y en medio de este proceso de revisión en la sombra se desató la tormenta. El 30 de noviembre de 2022, OpenAI lanzó ChatGPT. “Para nosotros fue una sorpresa. Nadie nos había dicho que había un proyecto en paralelo”, cuenta Hernández-Orallo. “De la noche a la mañana aparece ChatGPT, que ni siquiera teníamos claro si era la versión que nosotros estábamos evaluando o no”. Al cabo de unos días se aclaró que el sistema lanzado en abierto se basaba en un GPT-3.5, una versión previa a la que ellos evaluaban.

Los investigadores siguieron con su trabajo. Quedaban aún unos meses para el lanzamiento de GPT-4 y seguían enrocados en su asombro. “Veíamos que era capaz de resolver una sopa de letras, donde tienes que buscar patrones de palabras que aparecen en vertical o diagonal. Era algo inesperado. Nadie esperaba que funcionara así”, comenta Ferri.

César Ferri, catedrático en el departamento de Sistemas Informáticos y Computación de la Universidad Politécnica de Valencia.
Mònica Torres

Ahora ChatGPT permite introducir gráficos en una consulta, pero en aquel momento los investigadores no podían hacerlo. Para probar sus capacidades, le pasaban coordenadas espaciales que unidas entre sí formaban una figura. “Le decíamos ‘te voy a pasar las coordenadas de unos trazos’. Le explicabas que el primer trazo iba de (0,0) a (5,5) y así”, indica Ferri. “Esto si tú se lo das a un humano, le cuesta, lo tenemos que pintar. Y GPT-4 era capaz de adivinar las figuras, como cuadrados, rectángulos y dibujos más elaborados, como un coche o un avión”. Era una capacidad de abstracción que no se había visto antes en inteligencia artificial. El investigador lo resume así: “Habíamos pasado la barrera del texto”.

“Con GPT-4 sí se pueden romper cosas”

ChatGPT, al principio con el modelo GPT-3.5 y ahora también con GPT-4, fue el primer sistema de generación de texto avanzado en llegar a las masas. Y los investigadores eran conscientes de que esto significaba un salto cualitativo salpicado de incertidumbres. “Es una irresponsabilidad desde el punto de vista cognitivo”, afirma Hernández-Orallo sobre el lanzamiento al público masivo de la herramienta. “No tanto porque el sistema se vaya a ir de madre o vaya a soltar improperios”, añade. Lo que le preocupa es que “estos sistemas puedan llevar a atrofias cognitivas o a gente que use este sistema como su terapeuta o su compañero de vida. Este tipo de cosas están pasando a un nivel mucho menor de lo que podía haber pasado, pero están pasando”.

Esta inquietud entronca con el cataclismo que hubo en OpenAI, cuando el consejo de administración despidió al CEO Sam Altman, solo para devolverlo a su puesto tras unos días de truculenta inestabilidad. Por lo que ha trascendido, en el fondo de esta pugna estaba la pelea entre priorizar o no la seguridad de la inteligencia artificial frente a su despliegue comercial.

Los investigadores encuentran sentido a este debate: “Hasta ahora no habíamos llegado a un nivel tan avanzado en IA, así que tampoco se podían romper muchas cosas. Con GPT-4 sí que vemos que se pueden romper cosas, con lo cual igual necesitamos tomárnoslo con calma”, apunta Ferri, en referencia al deseo expresado por parte de la comunidad investigadora de frenar la carrera por la IA con el fin de ganar margen para evaluar su impacto social.

Puedes seguir a EL PAÍS Tecnología en Facebook y X o apuntarte aquí para recibir nuestra newsletter semanal.

Suscríbete para seguir leyendo

Lee sin límites

“El sistema falla donde menos te lo esperas”. Así evaluaron GPT-4 estos dos españoles por encargo de OpenAI | Tecnología

En busca de fallos

“Con GPT-4 sí se pueden romper cosas”

Suscríbete para seguir leyendo

Por Denis Escalante Olivera