La carrera por los datos pequeños
GPT-3, Bard, Gopher y GLaM son algunos de los modelos de lenguaje que se consideran gigantes. Estos sistemas, similares a ChatGPT fueron entrenados con millones de parámetros y conjuntos de datos de tamaños astronómicos, para volverse buenos intérpretes del lenguaje humano. Ello demanda una gran cantidad de recursos que solo pueden ser abordados por las grandes empresas tecnológicas, las cuales son las únicas que se encuentran en condiciones de invertir y competir en investigación y desarrollo de los más poderosos LLMs.
En los últimos años, en un intento de democratizar la IA y hacerla más accesible, han surgido iniciativas que valoran y promueven el entrenamiento de modelos a partir de conjuntos de datos más pequeños, que, a través de técnicas innovadoras, logran alcanzar tasas de acierto igualmente aceptables. Por ejemplo, a comienzos de este año, ha sido lanzado el BabyLM Challenge que convoca a investigadores para que presenten propuestas en este sentido, estableciendo pautas como la cantidad de palabras permitidas para entrenar un modelo.
Además, este enfoque es especialmente valioso en contextos en los que, de por sí, no existen suficientes datos, o no se dispone del tiempo necesario para construir enormes datasets, o los datos disponibles presentan problemas de representatividad para equilibrar el conjunto.
La técnica de aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) y los datos pequeños
El aprendizaje por refuerzo a partir de la retroalimentación humana no es del todo nuevo, sino que es una nueva vertiente del aprendizaje por refuerzo a secas, el cual venía ganando cada vez más terreno en el campo del machine learning. Sobre esta base, OpenAI ha incorporado en ChatGPT la retroalimentación humana para proporcionar un mejor abordaje a ciertas problemáticas, como los sesgos injustos o discriminatorios o la generación de discurso del odio.
En este nuevo paradigma la señal de recompensa es proporcionada por un ser humano, en lugar de un sistema automatizado con parámetros predefinidos. De esta forma es un evaluador de carne y hueso el que le proporciona retroalimentación en forma de recompensas o penalizaciones al modelo, con subjetividades, preferencias personales, sesgos y una comprensión particular de la tarea.
En Legal HUB hemos evaluado la implementación de esta técnica en nuestros últimos proyectos y hemos advertido enormes ventajas. En particular, la reducción de la cantidad de datos necesarios que se necesitan para refinar un LLMs y volverlo “especialista” en el ámbito jurídico. Aproximadamente, bajo este enfoque, sólo se utiliza el 20% de los datos que se requerían por métodos distintos. En esta línea, se disminuyen los costos, el tiempo insumido y la IA se vuelve más fácilmente escalable.
El aprendizaje por refuerzo a partir de la retroalimentación humana se beneficia de conjuntos de datos pequeños pero de alta calidad, aprovechando la información proporcionada por los seres humanos para mejorar y acelerar el proceso de aprendizaje. Este feedback humano, al ser más específico y relevante para el problema en cuestión, puede ayudar a reducir la dependencia del aprendizaje por refuerzo a grandes cantidades de datos generales, lo que resulta especialmente útil cuando los datos son escasos o costosos de recopilar.
La semana de la Inteligencia Artificial
Durante la primera semana de julio estamos entusiasmados por acompañar a Lawit, nuestro partner mexicano, en la semana de la Inteligencia Artificial. En esta serie de reuniones virtuales, los principales expertos del sector comparten sus experiencias sobre el ecosistema de IA, su impacto en los sectores legal y empresarial y las oportunidades y riesgos que conlleva.
El día viernes 7 a las 9:30 hs México, los invitamos a acompañar a nuestro CEO, Pablo Balancini junto Juan G. Corvalán, Director del IALAB, para conversar sobre IA legal centrada en el ser humano. Se debatirá sobre la IA generativa, la técnica de aprendizaje por refuerzo a partir de la retroalimentación humana y el problema de los datos pequeños, entre otras cuestiones innovadoras para el sector legal ¡Te esperamos!