HomeMarketingLa investigación antrópica muestra cómo los LLM perciben el texto
spot_img

La investigación antrópica muestra cómo los LLM perciben el texto

spot_img

Los investigadores de Anthropic investigaron la capacidad de Claude 3.5 Haiku para decidir cuándo dividir una línea de texto dentro de un ancho fijo, una tarea que requiere que el modelo rastree su posición mientras escribe. El estudio arrojó el sorprendente resultado de que los modelos de lenguaje forman patrones internos que se asemejan a la conciencia espacial que los humanos utilizan para rastrear la ubicación en el espacio físico.

Andreas Volpini tuiteó sobre este artículo e hizo una analogía con la fragmentación de contenido para el consumo de IA. En un sentido más amplio, su comentario funciona como una metáfora de cómo tanto los escritores como los modelos navegan por la estructura, encontrando coherencia en los límites donde termina un segmento y comienza otro.

Este trabajo de investigación, sin embargo, no trata de leer contenido sino de generar texto e identificar dónde insertar un salto de línea para ajustar el texto a un ancho fijo arbitrario. El propósito de hacer esto era comprender mejor lo que sucede dentro de un LLM, ya que realiza un seguimiento de la posición del texto, la elección de palabras y los límites de los saltos de línea mientras se escribe.

Los investigadores crearon una tarea experimental para generar texto con un salto de línea de un ancho específico. El propósito era comprender cómo Claude 3.5 Haiku decide qué palabras deben caber dentro de un ancho específico y cuándo insertar un salto de línea, lo que requirió que el modelo rastreara la posición actual dentro de la línea de texto que está generando.

El experimento demuestra cómo los modelos de lenguaje aprenden estructuras a partir de patrones en el texto sin programación ni supervisión explícita.

El desafío de romper líneas

La tarea de salto de línea requiere que el modelo decida si la siguiente palabra cabe en la línea actual o si debe comenzar una nueva. Para tener éxito, el modelo debe aprender la restricción de ancho de línea (la regla que limita cuántos caracteres pueden caber en una línea, como en el espacio físico de una hoja de papel). Para hacer esto, el LLM debe realizar un seguimiento del número de caracteres escritos, calcular cuántos quedan y decidir si la siguiente palabra encaja. La tarea exige razonamiento, memoria y planificación. Los investigadores utilizaron gráficos de atribución para visualizar cómo el modelo coordina estos cálculos, mostrando características internas distintas para el recuento de caracteres, la siguiente palabra y el momento en que se requiere un salto de línea.

Leer  Maratón y Riot: estrategias comparadas para financiar Bitcoin Mining en el segundo trimestre

Conteo continuo

Los investigadores observaron que Claude 3.5 Haiku representa el conteo de caracteres de línea no como un conteo paso a paso, sino como una estructura geométrica suave que se comporta como una superficie continuamente curvada, lo que permite al modelo rastrear la posición de manera fluida (sobre la marcha) en lugar de contar símbolo por símbolo.

Otra cosa interesante es que descubrieron que el LLM había desarrollado un cabezal de límite (un “cabezal de atención”) que es responsable de detectar el límite de la línea. Un mecanismo de atención sopesa la importancia de lo que se está considerando (tokens). Un cabezal de atención es un componente especializado del mecanismo de atención de un LLM. El cabezal de límites, que es un cabezal de atención, se especializa en la tarea específica de detectar el límite del final de la línea.

El trabajo de investigación afirma:

“Una característica esencial de la representación de los recuentos de caracteres de línea es que la “cabeza límite” tuerce la representación, permitiendo que cada recuento se empareje con un recuento ligeramente mayor, lo que indica que el límite está cerca. Es decir, hay un mapa lineal QK que desliza la curva de recuento de caracteres a lo largo de sí mismo. Tal acción no es admitida por incrustaciones genéricas de alta curvatura del círculo o del intervalo como las del modelo físico que construimos. Pero está presente tanto en la variedad que observamos en Haiku como, como ahora espectáculo, en la construcción de Fourier “.

Cómo funciona la detección de límites

Los investigadores descubrieron que Claude 3.5 Haiku sabe cuándo una línea de texto está casi llegando al final comparando dos señales internas:

  1. Cuántos personajes ya ha generado, y
  2. Cuánto se supone que debe ser la fila.

Los jefes de atención de límites antes mencionados deciden en qué partes del texto centrarse. Algunos de estos jefes se especializan en detectar cuando la línea está a punto de llegar a su límite. Lo hacen girando o alineando ligeramente las dos señales internas (el recuento de caracteres y el ancho máximo de línea) de modo que cuando casi coincidan, la atención del modelo se desvíe hacia la inserción de un salto de línea.

Los investigadores explican:

“Para detectar un límite de línea que se acerca, el modelo debe comparar dos cantidades: el recuento de caracteres actual y el ancho de la línea. Encontramos cabezales de atención cuya matriz QK gira un colector de conteo para alinearlo con el otro en un desplazamiento específico, creando un gran producto interno cuando la diferencia de los recuentos cae dentro de un rango objetivo. Múltiples cabezales con diferentes desplazamientos trabajan juntos para estimar con precisión los caracteres restantes”.

Etapa final

En esta etapa del experimento, el modelo ya ha determinado qué tan cerca está del límite de la línea y qué tan larga será la siguiente palabra. El último paso es utilizar esa información.

Leer  Cómo el marketing de rendimiento + la marca alimenta el crecimiento y las conversiones del tráfico

Así es como se explica:

“El paso final de la tarea de salto de línea es combinar la estimación del límite de la línea con la predicción de la siguiente palabra para determinar si la siguiente palabra encajará en la línea o si la línea debe romperse”.

Los investigadores descubrieron que ciertas características internas del modelo se activan cuando la siguiente palabra hace que la línea exceda su límite, sirviendo efectivamente como detectores de límites. Cuando eso sucede, el modelo aumenta la posibilidad de predecir un símbolo de nueva línea y reduce la posibilidad de predecir otra palabra. Otras funciones hacen lo contrario: se activan cuando la palabra aún cabe, lo que reduce la posibilidad de insertar un salto de línea.

Juntas, estas dos fuerzas, una que impulsa un cambio de línea y otra que la frena, se equilibran para tomar la decisión.

¿Los modelos pueden tener ilusiones visuales?

La siguiente parte de la investigación es algo increíble porque se esforzaron por probar si el modelo podría ser susceptible a ilusiones visuales que podrían causar que tropezara. Comenzaron con la idea de cómo los humanos pueden ser engañados por ilusiones visuales que presentan una perspectiva falsa que hace que líneas de la misma longitud parezcan de diferentes longitudes, una más corta que la otra.

Captura de pantalla de una ilusión visual

Los investigadores insertaron tokens artificiales, como “@@”, para ver cómo alteraban el sentido de posición del modelo. Estas pruebas provocaron desalineaciones en los patrones internos del modelo que utiliza para realizar un seguimiento de la posición, similares a ilusiones visuales que engañan a la percepción humana. Esto provocó que el sentido de los límites de las líneas del modelo cambiara, lo que demuestra que su percepción de la estructura depende del contexto y los patrones aprendidos. Aunque los LLM no ven, experimentan distorsiones en su organización interna similar a cómo los humanos juzgan mal lo que ven al alterar las cabezas de atención relevantes.

Ellos explicaron:

“¡Descubrimos que modula el siguiente token predicho, interrumpiendo la predicción de nueva línea! Como se predijo, las cabezas relevantes se distraen: mientras que con el mensaje original, las cabezas atienden de nueva línea a nueva línea, en el mensaje modificado, las cabezas también atienden a @@”.

Se preguntaron si había algo especial en los personajes @@ o si algún otro personaje aleatorio interrumpiría la capacidad del modelo para completar con éxito la tarea. Entonces realizaron una prueba con 180 secuencias diferentes y descubrieron que la mayoría de ellas no alteraban la capacidad del modelo para predecir el punto de ruptura de línea. Descubrieron que sólo un pequeño grupo de caracteres relacionados con el código podían distraer las cabezas de atención relevantes e interrumpir el proceso de conteo.

Leer  Solo Bitcoin Miner logra una sorprendente recompensa de bloqueo de 3.1 BTC

Los LLM tienen una percepción visual del texto

El estudio muestra cómo las características basadas en texto evolucionan hacia sistemas geométricos fluidos dentro de un modelo de lenguaje. También muestra que los modelos no sólo procesan símbolos, sino que crean mapas basados ​​en la percepción a partir de ellos. Esta parte, sobre la percepción, es para mí lo realmente interesante de la investigación. Siguen volviendo a las analogías relacionadas con la percepción humana y cómo esas analogías siguen encajando en lo que ven que sucede dentro del LLM.

Ellos escriben:

“Aunque a veces describimos las primeras capas de los modelos de lenguaje como responsables de “destokenizar” la entrada, tal vez sea más evocador pensar en esto como percepción. El comienzo del modelo es realmente responsable de ver la entrada, y gran parte de los primeros circuitos están al servicio de sentir o percibir el texto de manera similar a cómo las primeras capas en los modelos de visión implementan la percepción de bajo nivel”.

Luego, un poco más tarde escriben:

“Los patrones geométricos y algorítmicos que observamos tienen paralelos sugerentes con la percepción en los sistemas neuronales biológicos… Estas características exhiben dilatación, que representa recuentos de caracteres cada vez más grandes que se activan en rangos cada vez más grandes, reflejando la dilatación de las representaciones numéricas en los cerebros biológicos. Además, la organización de las características en una variedad de baja dimensión es un ejemplo de un motivo común en la cognición biológica. Si bien las analogías no son perfectas, sospechamos que todavía existe una superposición conceptual fructífera debido a una mayor colaboración entre la neurociencia y la interpretabilidad”.

Ver también: Cómo los LLM interpretan el contenido: cómo estructurar la información para la búsqueda con IA

¿Implicaciones para el SEO?

Arthur C. Clarke escribió que la tecnología avanzada es indistinguible de la magia. Creo que una vez que entiendes una tecnología, se vuelve más identificable y menos mágica. No todo el conocimiento tiene un uso utilitario y creo que comprender cómo un LLM percibe el contenido es útil en la medida en que ya no es mágico. ¿Esta investigación te convertirá en un mejor SEO? Profundiza nuestra comprensión de cómo los modelos de lenguaje organizan e interpretan la estructura del contenido, lo hace más comprensible y menos mágico.

Lea sobre la investigación aquí:

Cuando los modelos manipulan variedades: la geometría de una tarea de conteo

Imagen destacada de Shutterstock/Krot_Studio

spot_img
ARTÍCULOS RELACIONADOS

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Más popular

spot_img