La nueva herramienta de OpenAI intenta explicar el comportamiento de los modelos de lenguaje
A menudo se dice que los modelos de lenguaje grande (LLM) en la línea de ChatGPT de OpenAI son una caja negra, y ciertamente hay algo de verdad en eso. Incluso para los científicos de datos, es difícil saber por qué un modelo siempre responde de la forma en que responde, como si estuviera inventando hechos de una sola fuente.
En un esfuerzo por despegar las capas de los LLM, OpenAI está desarrollando una herramienta para identificar automáticamente qué partes de un LLM son responsables de cuál de sus comportamientos. Los ingenieros detrás de él enfatizan que está en una etapa temprana, pero el código para ejecutarlo está disponible como código abierto en GitHub a partir de esta mañana.
"Lo intentamos [develop ways to] anticipando cuáles serán los problemas con un sistema de IA", dijo William Saunders, gerente del equipo de interpretabilidad de OpenAI, a TechCrunch en una entrevista telefónica. "Realmente queremos estar seguros de que podemos confiar en lo que está haciendo el modelo y en la respuesta que está brindando".
Para hacer esto, la herramienta de OpenAI (irónicamente) utiliza un modelo de lenguaje para descubrir las capacidades de los componentes de otros LLM arquitectónicamente más simples, en particular el propio GPT-2 de OpenAI.


La herramienta de OpenAI intenta simular el comportamiento de las neuronas en un LLM.
¿Cómo? Primero, una breve explicación de los LLM para los antecedentes. Al igual que el cerebro, están formados por "neuronas" que observan ciertos patrones en el texto para influir en lo que "dice" el modelo general a continuación. Por ejemplo, ante un mensaje sobre superhéroes (p. ej., "¿Qué superhéroes tienen los superpoderes más útiles?"), una "neurona de superhéroe de Marvel" podría aumentar la probabilidad de que el modelo nombre superhéroes específicos de las películas de Marvel.
La herramienta OpenAI utiliza esta configuración para dividir los modelos en sus partes individuales. Primero, la herramienta ejecuta secuencias de texto a través del modelo para ser evaluado, esperando instancias en las que una neurona en particular se "active" con frecuencia. A continuación, "muestra" estas neuronas altamente activas a GPT-4, el último modelo de IA de generación de texto de OpenAI, y permite que GPT-4 genere una explicación. Para determinar qué tan precisa es la explicación, la herramienta alimenta GPT-4 con secuencias de texto y le permite predecir o simular cómo se comportaría la neurona. Luego compara el comportamiento de la neurona simulada con el comportamiento de la neurona real.
"Con esta metodología, básicamente podemos encontrar, para cada neurona individual, una especie de explicación tentativa en lenguaje natural de lo que está haciendo, y también tener una evaluación de qué tan bien esa explicación coincide con el comportamiento real", Jeff Wu dirige el equipo de alineación escalable. en OpenAI dijo. "Usamos GPT-4 como parte del proceso para proporcionar explicaciones de lo que busca una neurona y luego evaluar qué tan bien esas explicaciones coinciden con la realidad de lo que está haciendo".
Los investigadores pudieron generar explicaciones para las 307.200 neuronas en GPT-2, que compilaron en un conjunto de datos que se publicó junto con el código de la herramienta.
Herramientas como esta podrían usarse algún día para mejorar el rendimiento de un LLM, dicen los investigadores, por ejemplo, para reducir el sesgo o la toxicidad. Pero reconocen que todavía queda un largo camino por recorrer antes de que sea realmente útil. La herramienta confiaba en sus explicaciones para unas 1.000 de esas neuronas, una pequeña fracción del total.
Una persona cínica también podría argumentar que la herramienta es esencialmente un anuncio de GPT-4, ya que requiere que GPT-4 funcione. Otras herramientas de interpretación de LLM dependen menos de las API comerciales, como Tracr de DeepMind, un compilador que traduce programas en modelos de redes neuronales.
Wu dijo que ese no es el caso, el hecho de que la herramienta use GPT-4 es simplemente "accidental" y, por el contrario, muestra las debilidades de GPT-4 en esta área. También dijo que no fue desarrollado para aplicaciones comerciales y teóricamente podría adaptarse para usar LLM junto con GPT-4.


La herramienta identifica las neuronas que se activan a través de capas en el LLM.
"La mayoría de las explicaciones funcionan bastante mal o no explican gran parte del comportamiento real de la neurona", dijo Wu. "Muchas de las neuronas, por ejemplo, están activas de una manera que hace que sea muy difícil saber qué está pasando, como si estuvieran activándose en cinco o seis cosas diferentes, pero no hay un patrón perceptible. a veces hay Es un patrón reconocible, pero GPT-4 no puede encontrarlo".
Sin mencionar modelos más complejos, más nuevos y más grandes o modelos que pueden buscar información en Internet. Pero en ese segundo punto, Wu cree que navegar por la web no cambiaría significativamente la mecánica subyacente de la herramienta. Simplemente podría modificarse, dice, para descubrir por qué las neuronas deciden hacer ciertas consultas en los motores de búsqueda o acceder a ciertos sitios web.
"Esperamos que esto abra una vía prometedora para abordar la interpretabilidad de una manera automatizada para que otros puedan desarrollar y contribuir", dijo Wu. "La esperanza es que tengamos explicaciones realmente buenas no solo de a qué responden las neuronas, sino también del comportamiento general de estos modelos: qué tipos de circuitos computan y cómo ciertas neuronas afectan a otras neuronas".
Si quieres conocer otros artículos parecidos a La nueva herramienta de OpenAI intenta explicar el comportamiento de los modelos de lenguaje puedes visitar la categoría Noticias.
Deja una respuesta