Proyecto BERTIN: Entrenando LMs en Español de manera abierta

En esta charla presentaremos el origen de BERTIN y los nuevos modelos generativos liberados como parte de la iniciativa, que tiene como objetivo entrenar modelos de lenguaje en español de forma abierta, lo que significa que los datos y el código utilizados en el proceso de entrenamiento son accesibles para cualquier persona interesada en ellos.

¿Qué vas a aprender al asistir a esta charla?

Entrenar #LLM con pocos recursos/tiempo
Conocer las maneras de decodificar modelos generativos
Especializar un modelo generativo

Ponentes

Álvaro Pérez Pozo es lingüista computacional en la UNED y ha publicado trabajos sobre temas como la clasificación automática de estrofas en poesía española y aplicaciones de inteligencia artificial para humanidades.

Javier de la Rosa es Senior Research Scientist en el Laboratorio de Inteligencia Artificial de la Biblioteca Nacional de Noruega, y antiguo postdoc en NLP en la UNED. Cuenta con un doctorado especializado en Humanidades Digitales y una maestría en Inteligencia Artificial. Su interés es el procesamiento de lenguaje natural aplicado a textos históricos y literarios, con un enfoque en los grandes modelos de lenguaje. Ha trabajado previamente en Stanford y en la Universidad de Western Ontario.

Charlas relacionadas

Estrategias de simplificación para LLMs, Paulo Villegas | Hackathon SomosNLP 2023
Muestreo de datos para entrenamiento de modelos, Paulo Villegas | Hackathon SomosNLP 2022