HomeMarketingLos LLM 'no existirían' sin los datos de Reddit
spot_img

Los LLM ‘no existirían’ sin los datos de Reddit

spot_img

El director ejecutivo de Reddit, Steve Huffman, dijo que los grandes modelos de lenguaje “no existirían tal como los conocemos” sin el contenido de Reddit. Llamó a los datos generados por los usuarios de la plataforma “petróleo moderno” para la IA.

Huffman hizo los comentarios durante una entrevista en la Cumbre de Empresas Más Innovadoras de Fast Company.

Lo que dijo Huffman sobre el valor de Reddit para la IA

Huffman describió la posición que ocupan los datos de Reddit en el ecosistema de IA.

Huffman dijo:

“Los LLM no existirían tal como los conocemos sin Reddit. Reddit es una de las mayores fuentes de datos de capacitación para los LLM y Reddit sigue siendo una de las fuentes principales de ambos datos de capacitación y también somos la plataforma más citada en todos los modelos”.

Atribuyó el reclamo de citación a Profound, una firma que rastrea datos de citas de IA.

Huffman explicó por qué las empresas de IA dependen del contenido.

“No hay inteligencia artificial sin inteligencia real. Al final del día, estos modelos son bastante simples. Están regurgitando en una escala absolutamente masiva lo que han consumido en otros lugares y una gran parte de ese consumo es en realidad sólo la conversación humana en Reddit porque es natural y cubre básicamente todos los temas imaginables”.

Ofertas para algunos, demandas para otros

Reddit anunció acuerdos de licencia de datos con Google y OpenAI en 2024. Huffman los mencionó como los dos acuerdos de datos de IA originales de Reddit y no anunció ningún acuerdo adicional.

“Desde que hicimos los dos acuerdos originales con Google y OpenAI, eso fue hace más de dos años, hemos aprendido mucho. Ellos han aprendido mucho. El mundo entero ha aprendido mucho. Específicamente, cuán valiosos son los datos de Reddit y cuán útiles son. Por eso, creo que estamos siendo muy deliberados y selectivos allí. Pero sí, estamos abiertos y abiertos a los negocios”.

Para las empresas que no han aceptado los términos de la licencia, Reddit ha emprendido acciones legales. La empresa demandó a Anthropic en el Tribunal Superior de California, alegando uso no autorizado del contenido de Reddit y violaciones de los términos de Reddit. Reddit presentó una demanda federal contra Perplexity en el Distrito Sur de Nueva York, junto con tres empresas de extracción de datos, alegando violaciones contra la elusión de la DMCA y reclamos relacionados.

Leer  Los ingresos de Soluna aumentan un 58% a medida que el negocio de alojamiento compensa la debilidad de la minería de Bitcoin

Huffman trazó una línea entre los dos grupos.

“Empresas como Google y OpenAI, con las que teníamos buenas relaciones, podemos llegar a un acuerdo y poner algunas barreras en el uso y acceso a nuestros datos en nombre de nuestros usuarios, pero luego colaborar en la creación de productos para la próxima generación de Internet”.

Añadió que “no todas las empresas están dispuestas a ser socios colaborativos y, lamentablemente, tenemos que ir por el otro lado, que son las demandas judiciales”.

Huffman dijo a la audiencia que la posición de Reddit sobre el uso comercial es simple. “El uso comercial de nuestros datos requiere términos comerciales”, dijo. Reddit comenzó a cobrar por el acceso a la API comercial en 2023, una medida que precedió a los acuerdos de licencia actuales.

Huffman dijo que Reddit todavía brinda acceso gratuito a datos a investigadores y universidades y trata de permanecer flexible para uso no comercial.

¿Qué cambió la apertura de Reddit?

Según Huffman, la voluntad de Reddit de compartir datos libremente cambió cuando la industria de la IA se alejó de la investigación abierta. Como informó anteriormente SEJ, Reddit limitó el acceso a muchos rastreadores de motores de búsqueda, mientras que Google siguió siendo una excepción.

“Históricamente, Reddit ha sido como si naciésemos de una Internet abierta y Reddit ha sido abierto y muy permisivo para el acceso a sus datos. Y, sinceramente, creo que hoy estaríamos en una posición diferente si las empresas de IA todavía fueran básicamente abiertas y de código abierto y hicieran investigaciones abiertas”.

Huffman dijo que el problema era que Reddit ya no podía rastrear cómo se utilizaban sus datos. “La gente está utilizando nuestros datos y no sabemos para qué se utilizan”, dijo a la audiencia.

Leer  Inteligencia artificial en gestión de servicios empresariales: qué esperar en 2025

Más allá de los términos comerciales, Huffman dijo que Reddit quiere evitar que sus datos se utilicen para identificar a los usuarios, dirigirlos con anuncios o reemplazar o desintermediar la plataforma.

Los propios esfuerzos de IA de Reddit

Huffman reconoció lo que llamó una “paradoja”. El contenido de Reddit impulsa sistemas de IA externos, pero la empresa también utiliza IA en toda su plataforma.

El producto más visible es Reddit Answers, una función de búsqueda impulsada por LLM. Lee publicaciones y comentarios y luego los organiza en respuestas creadas a partir de citas textuales de los usuarios. Huffman señaló que está diseñado para preguntas sin respuestas definitivas.

“Lo que Reddit Answers hace es un par de cosas que son exclusivas de Reddit. Una, básicamente solo responde con citas textuales de personas reales. Y luego, la segunda cosa que hace es tratar de presentar múltiples perspectivas porque el punto central si estás en Reddit es que quieres la perspectiva humana”.

Detrás de escena, Reddit utiliza IA para la moderación y clasificación de contenido. Los LLM pueden evaluar si un comentario se convierte en acoso, algo que Huffman describió como anteriormente difícil debido a la subjetividad involucrada.

Huffman presentó la moderación de la IA como una forma de reducir la exposición al peor contenido, no como un reemplazo del modelo de moderación comunitaria de Reddit.

“El peor trabajo en Internet solía ser mirar el peor contenido de Internet y decidir si podía estar en línea o no”, dijo Huffman. “Ese trabajo simplemente desaparece”.

El área gris de las publicaciones escritas con IA

Huffman también abordó el desafío de que los usuarios escriban contenido con herramientas de inteligencia artificial y lo peguen en Reddit. Eso es diferente de la actividad automatizada de los bots, enfatizó.

“Lo más molesto que veo no sólo en Reddit, sino en todo Internet es alguien que escribió su publicación o comentario con ChatGPT y luego lo pegó en Reddit. ¿Es eso un bot? Ciertamente se siente como un bot, pero hay un ser humano detrás de la idea”.

Huffman planteó la cuestión como una cuestión de intención. “Es muy importante para nosotros que haya un ser humano detrás de la idea, detrás del contenido, detrás del mensaje”, dijo Huffman. Pero también señaló que “la escritura apesta” cuando los usuarios dependen de la IA para redactar sus publicaciones.

Leer  El equipo de Bing describe en qué se diferencia la conexión a tierra de la indexación de búsqueda

En lugar de crear una política para abordarlo, Huffman indicó que Reddit dejará que su comunidad se encargue del problema. Los usuarios ya están rechazando el contenido escrito por IA y mencionándolo en los comentarios. Huffman dijo que Reddit “facultará más a los usuarios y a los subreddits para que simplemente rechacen ese tipo de contenido por completo”.

Comparó la pregunta más amplia con las calculadoras de la clase de matemáticas. “Los niños de hoy en día apenas están aprendiendo a escribir con IA. ¿Qué vamos a hacer al respecto?” dijo. “Creo que tenemos que aprender, junto con todos los demás”.

Por qué esto importa

Los comentarios de Huffman refuerzan el argumento de Reddit de que las discusiones con los usuarios son un aporte fundamental para los sistemas de inteligencia artificial.

El problema del contenido escrito por IA que describió Huffman es uno que SEJ cubrió como parte de una investigación más amplia sobre la corrupción de la IA en YouTube. La decisión de Reddit de permitir que la votación de la comunidad maneje las publicaciones generadas por IA, en lugar de crear herramientas de detección, es un camino diferente al de las plataformas que han implementado etiquetado automatizado.

Mirando hacia el futuro

Huffman le dijo a Fast Company que Reddit está “en el mercado hablando con la gente todo el tiempo” sobre nuevos acuerdos de datos, aunque no insinuó un tercer acuerdo.

Las demandas de Reddit contra Anthropic y Perplexity están en curso. El caso Anthropic fue objeto de una audiencia de prisión preventiva en un tribunal federal en marzo.

spot_img
ARTÍCULOS RELACIONADOS

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Más popular

spot_img