Glosario IA

modelos de lenguajes grandes (LLM)

MODELOS DE LENGUAJE GRANDES (LLM)

Los Modelos de Lenguaje Grandes o GrandesModelos de Lenguaje (LargeLanguageModels, LLM) son un ejemplo de IA generativa que produce textos o código, que se han popularizado recientemente por la difusión y el uso creciente de herramientas como el mencionado ChatGPT. Se trata de un tipo de Modelo Básico o Fundacional, que opera con algoritmos basados en redes neuronales artificiales entrenadas con inmensos conjuntos de datos sin etiquetar, autosupervisados para producir texto y código significativo de manera similar a los que puede crear un ser humano. Los LLM pueden generar textos fluidos y coherentes sobre diversos temas.

Estos sistemas aprenden patrones de los datos y producen resultados generalizables y adaptables. Los Modelos de Lenguaje Grandes son ejemplos de Modelos Básicos o Fundacionales pero aplicados específicamente a textos que se entrenan actualmente con una gran cantidad de artículos, entradas de Wikipedia, libros y otros recursos provenientes de Internet. Cuando decimos que son “grandes” nos referimos a bases de datos que pueden tener decenas de gigabytes, hablamos entonces de petabytes de datos. Un gigabyte de datos alberga 178 millones de palabras, en un petabyte contiene un millón de bytes.

La estructura de los Modelos de Lenguaje Grandes posee entonces tres componentes: los datos, la arquitectura, constituida por redes neuronales, y el entrenamiento. Existen distintos ejemplos de Modelos de Lenguaje Grandesdesarrollados por grandes empresas como Google o Facebook: BERT, USE, T5, RoBERT. El más conocido es el GPT, creado por OpenAI; más recientemente surgió BLOOM, que se presenta como una propuesta alternativa al GPT. Sus tecnologías difieren pero tienen dos modelos básicos de funcionamiento: el “autorregresivo” y el “enmascarado”.Son predictores generativos de palabras. La “autorregresión” utiliza el contexto de las palabras anteriores en un texto para predecir la siguiente y así producir oraciones de manera nuevas. En cambio, los que operan con pruebas de cierre (cloze test) o de manera enmascarada, lo hacen completando predictivamente partes que faltan en un segmento de texto.

Las tareas que desarrollan los LLM se centran en el manejo de texto o código; pueden generar texto nuevo (redacción de notas, descripciones de productos, publicaciones, ensayos) pero también logran resumir información, contestar preguntas y automatizar procesos porque contienen una gran cantidad de parámetros que los hacen capaces de aprender conceptos avanzados.

Asimismo, cuando nos referimos a Modelos de Lenguaje Grandes debemos hacer algunas consideraciones sobre las características de su estado evolutivo aún prematuro. Por ejemplo, existen comportamientos de los LLMque aparecen como impredecibles. En la instancia actual de esta tecnología, los expertos no pueden interpretar su funcionamiento interno cabalmente. Por otro lado los Modelos de Lenguaje Grandesno necesariamente revelarán en sus desarrollos los valores codificados por sus creadores, y ciertas interacciones con los LLM pueden resultar engañosas. De allí surge el concepto de “alucinación” de los Modelos de Lenguaje Grandes. Los LLM pueden crear contenido significativo sobre diversos temas y tópicos pero también son propensos a “inventar” información. Estas desviaciones de datos, cuyo arco puede ir desde inconsistencias menores hasta grandes contradicciones o incongruencias en los contenidos, están siendo estudiadas y clasificadas.

Se establecen entonces distintos grados de “granularidad” de los LLM. En el nivel más bajo aparecen las contradicciones en oraciones. Aquí el LLM desarrolla una oración que es incoherente con otra generada previamente en el mismo texto. Otro ejemplo es el de la contradicción inmediata. En este caso el resultado que brinda el sistema es incongruente con la solicitud que se le dio al mismo para generarlo. Brinda un resultado errado o fallido. Existen las “alucinaciones” o contradicciones fácticas, otros casos en los que el modelo desarrolla información falsa y, por último, las incongruencias de contenido irrelevante. En estos casos la IA agrega oraciones que resultan impropias o desubicadas respecto del resto del texto.

Describir los sesgos resulta una tarea evidente, pero explicar las causas de estos sucesos es una posibilidad aún esquiva, incluso por parte de ingenieros expertos en estos sistemas, debido al desconocimiento del funcionamiento interno de estos grandes modelos de lenguaje. Sin embargo, hay ciertas advertencias importantes a tener en cuenta en la interacción LLM para optimizar sus resultados y disminuir los fallidos. En primer término atender a la calidad de los datos de entrenamiento, su exactitud y relevancia. Por otro lado, es clave revisar la indicación que el usuario ingresa al sistema. Un requerimiento o un prompt(instrucción) mal estructurado o descontextualizado, será más propenso a generar un resultado desacertado.

REFERENCIAS
Amazon (s/d). “¿Qué es la IA generativa?” https://aws.amazon.com/es/what-is/generative-ai/#:~:text=Adem%C3%A1s%20de%20la%20creaci%C3%B3n%20de,datos%20sint%C3%A9ticos%20y%20mucho%20m%C3%A1s
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin (2017). “Attention Is All You Need”. https://arxiv.org/abs/1706.03762.
Bowman, Samuel R. (2023).“Eight Things to Know about Large Language Models”.https://arxiv.org/abs/2304.00612.
García Reyes, Luis (2023). “¿Qué son los modelos fundacionales NLP? ¿Qué son BERT, GPT-3 y LaMDA? ¿yChatGPT?”. https://www.ibm.com/blogs/think/es-es/2023/03/01/modelos-fundacionales-nlp-y-su-aplicacion-en-asistentes-virtuales-como-chatgpt/
Keen, Martin (2023a). “How Large Language Models Work”. IBM Technology.
https://www.youtube.com/watch?v=5sLYAQS9sWQ
Keen, Martin (2023b). “Why Large Language Models Hallucinate”. IBM Technology.
https://www.youtube.com/watch?v=cfqtFvWOfg0
Nvidia (s/d). “What is a Transformer Model?” https://blogs.nvidia.com/blog/2022/03/25/what-is-a-transformer-model/
VV.AA. (2021) “On the Opportunities and Risks of Foundation Models”.https://arxiv.org/pdf/2108.07258.pdf
Wolfram, Stephen (2023). “What Is ChatGPT Doing … and Why Does It Work?”. Wolfram Research, Inc., 2023.
https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/