Centrarse en «Big Science», el proyecto colaborativo para desarrollar un modelo de lenguaje de código abierto eficiente

https://www.youtube.com/watch?v=pK5wRIc_kKQ

Con el fin de desarrollar un modelo lingüístico multilingüe de código abierto eficiente en un año, se unieron varios laboratorios, grandes grupos y nuevas empresas. Utilizarán la supercomputadora francesa Jean Zay para completar el proyecto «Gran ciencia». El objetivo principal es diseñar una red neuronal gigante capaz de «hablar» ocho idiomas, incluidos el francés, el inglés y varios idiomas africanos. El taller de lanzamiento tuvo lugar a finales de abril y ofrecemos un enfoque en este interesante proyecto participativo.

Proyecto que involucra a unas 100 instituciones

«Summer of Language Models 21» o «Big Science» es un proyecto de investigación de un año que se centra en los modelos de lenguaje utilizados y estudiados en el campo del procesamiento del lenguaje natural (PNL). A él contribuyen más de 250 investigadores de alrededor de un centenar de instituciones como CNRS, Inria, Airbus, Ubisoft, Facebook, Systran, Ubisoft, Airbus, OVH, así como varias universidades francesas y extranjeras.

El proyecto nació de las discusiones iniciadas a principios de 2021 entre Thomas Wolf (Hugging Face), Stéphane Requena y Pierre-François Lavallee (de GENCI e IDRIS respectivamente). Rápidamente, varios expertos del equipo científico de HuggingFace (compuesto en particular por Victor Sanh y Yacine Jernite), así como miembros de la comunidad de investigación académica e industrial francesa en IA y PNL se unieron a las discusiones para promover el proyecto.

Por tanto, Big Science se define como un taller de investigación de un año en el que se llevarán a cabo un conjunto de tareas colaborativas en torno a la creación de un gran conjunto de datos a partir de una amplia variedad de idiomas y un modelo lingüístico multilingüe.

El uso de la supercomputadora francesa Jean Zay en un proyecto colaborativo

GENCI e IDRIS quisieron participar en el proyecto proponiendo el uso del superordenador Jean Zay, instalado en Orsay. Las dos instituciones proporcionaron 5 millones de horas de computación (unos 208 días), lo que corresponde a una cuarta parte de la capacidad de la máquina.

Paralelamente, se realizará un taller online para el público los días 21 y 22 de mayo, con tareas colaborativas orientadas a crear, compartir y evaluar una amplia base de datos multilingüe para comenzar a diseñar el modelo. Se llevarán a cabo debates para identificar los desafíos de los principales modelos lingüísticos y comprender mejor su funcionamiento.

Si tiene éxito, este taller puede repetirse y actualizarse dependiendo del avance del proyecto, que se pretende que sea participativo.

Cómo funciona el proyecto «Big Science»

Este programa de investigación consistirá en:

  • Un comité directivo que brindará asesoramiento científico o general.
  • Un comité organizador, dividido en varios grupos de trabajo que se encargarán de determinar y llevar a cabo las tareas colaborativas, así como de organizar talleres y otros eventos que permitan la creación de la herramienta de PNL.

En el marco de este proyecto se asignarán varios roles, tres están reservados para investigadores y especialistas, el último involucra la participación pública:

  • Rol de asesor científico y organización funcional: tarea que requiere un ligero compromiso, es decir, leer un boletín quincenal y enviar comentarios dentro de un grupo de trabajo.
  • Un rol como miembro activo de uno de los grupos de trabajo del proyecto: diseño e implementación de tareas colaborativas, organización de eventos en vivo.
  • Papel de presidente / copresidente de un grupo de trabajo: esto requiere un compromiso mucho mayor, coordina esfuerzos y organiza el proceso de toma de decisiones del grupo de trabajo.
  • Rol del participante en un taller o evento público: participación en la realización de una tarea colectiva de forma guiada, siguiendo las pautas establecidas por los grupos de trabajo.

La solución desarrollada bajo este proyecto pretende ser más exitosa y menos «sesgada» que las desarrolladas por OpenAI y Google. O GPT-3 OpenAI entrega 4.500 millones de palabras al día a aproximadamente 300 clientes, contiene 570GB de texto (745GB para Interruptor-C, Google Tool) y 175 mil millones de parámetros (10 veces más en Google).

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *