Conoce más sobre lo llamados modelos de lenguaje de gran tamaño (LLM)
Conoce más sobre lo llamados modelos de lenguaje de gran tamaño (LLM)
Rolando Quiroz
Los modelos de lenguaje de gran tamaño (LLMs) son un tipo de inteligencia artificial estrechamente relacionado con la inteligencia artificial generativa (Generative AI). Los dos son subconjuntos del aprendizaje profundo (deep learning) y utilizan enormes cantidades de datos que pueden entender y usar para generar y/o predecir nuevo conocimiento o contenido.
Entre los beneficios de usar LLMs se encuentra la capacidad de ser usados para diferentes tareas. Estos modelos se entrenan con datos en orden de los Petabytes y generan billones de parámetros o valores que el modelo puede cambiar independientemente mientras aprende, lo que lo hace lo suficientemente inteligente para realizar traducciones de idiomas, completar oraciones, clasificar texto, responder preguntas, y más. Por otro lado los LLMs requieren una cantidad reducida de datos específicos para adaptarse a un problema en concreto, obteniendo un desempeño decente aun con mínimas cantidades de datos de entrenamiento del dominio en cuestión, logrando que este desempeño crezca a medida que estos datos y/o parámetros se incrementan.
¿Cómo funcionan los LLMs?
Un LLM se construye a partir de datos, inmensas cantidades de datos como mencionamos inicialmente, algunos ejemplos son GPT-3 con 175 billones de parámetros o BLOOM con 176 billones de parámetros. Se especula que el mayor modelo conocido, GPT-4, tiene 1700 billones de parámetros. El tamaño de un LLM es importante, porque ciertas capacidades sólo surgen cuando los modelos crecen más allá de ciertos tamaños.
Otro factor importante del LLM es su arquitectura que se basa en transformadores (transformers) que permite que el modelo maneje secuencias de datos entendiendo el contexto de cada palabra en una sentencia en relación a cada otra palabra en la secuencia. Esto le permite al modelo construir un entendimiento comprensivo de la estructura de la sentencia y el significado de las palabras en ella.
Finalmente, se tiene el entrenamiento del LLM, es decir entrenar la arquitectura sobre los datos. Durante el entrenamiento el modelo aprende, por ejemplo, a predecir la siguiente palabra en una oración: “el cielo es”, generando inicialmente una respuesta aleatoria: “el cielo es mamífero”.
Con cada iteración, el modelo ajusta sus parámetros internos para reducir la diferencia entre sus predicciones y los resultados verdaderos y lo continúa haciendo mejorando sus predicciones de palabras hasta el punto en que el modelo puede generar oraciones coherentes de manera confiable, reemplazando el “mamífero” por “azul” en nuestro ejemplo inicial. El modelo puede ser ajustado con mayor precisión (fine tuned) en un conjunto de datos más pequeño . Es este caso el modelo refina su entendimiento para ser capaz de realizar tareas específicas con mayor exactitud. Este ajuste fino es lo que permite que un LLM se convierta en un experto en una tarea específica.
Aplicaciones de los LLMs
Los LLMs se destacan en aplicaciones de servicio al cliente en donde se usan para crear chatbots inteligentes que pueden manejar variadas solicitudes de los clientes liberando a los agentes humanos para problemas de mayor complejidad. La creación de contenido se puede beneficiar de los LLMs quienes pueden generar artículos, emails, posts de redes sociales o incluso guiones de videos. Los LLMs pueden contribuir incluso en el desarrollo de software mediante la generación de código y la revisión del mismo.
Con lo anterior solo estamos tocando la superficie. A medida que los LLMs evolucionan se usan en aplicaciones más innovadoras y eso es lo que cautiva acerca de los LLMs.