Entrega del modelo lingüístico multilingüe de ciencia abierta más grande jamás capacitado

Los modelos de lenguaje son inteligencias artificiales cuyas primeras aplicaciones se refieren a textos en lenguaje natural: respuestas a preguntas, generación automática de frases, detección de “sentimientos”, resumen y simplificación automáticos o incluso traducción automática. Usualmente concebidos por gigantes de las nuevas tecnologías, la mayoría de los modelos existentes fueron entrenados únicamente con textos escritos en inglés y según principios y métodos difíciles de reproducir en todos sus detalles. Por ejemplo, no es posible saber, cuando un modelo responde una pregunta, si la respuesta es el resultado de un cálculo o si la respuesta ya apareció en sus bases de datos de aprendizaje.

El proyecto BigScience lo inició en la primavera de 2021 la startup franco-estadounidense de inteligencia artificial Hugging Face, para remediar estos problemas entrenando a un nuevo modelo: Bloom. Aprende de grandes corpus de textos, usando un principio simple, que es predecir oraciones completas, palabra por palabra. Cada predicción del modelo se compara con la palabra correcta, lo que permite ajustar los parámetros internos del modelo. En el caso de Bloom, el aprendizaje se logra evaluando billones de palabras, lo que lleva a un modelo que contiene 176 mil millones de parámetros. Este aprendizaje tomó varios meses y requirió cientos de unidades de procesamiento de gráficos (GPU) funcionando en paralelo, lo que equivale a 5 millones de horas de cómputo. Tal poder computacional solo se puede obtener en supercomputadoras como la máquina de Jean Zay.

Bloom se diferencia de otros modelos lingüísticos en que se forma simultáneamente en 46 lenguas, repartidas en fuentes tan variadas como la literatura, los artículos científicos o los reportajes deportivos e incluyendo muchas lenguas rara vez tenidas en cuenta, en concreto una veintena de lenguas africanas. ¡El corpus de aprendizaje incluso contiene código de computadora! El conjunto vale varios millones de libras. Sin embargo, cuanto más diversos sean el enfoque y las fuentes, más capaz será el modelo de cumplir diferentes tareas. Tampoco se ordenaron los datos según su idioma porque, paradójicamente, Bloom aprende mejor así. Agregar contenido en varios idiomas permite aprender modelos robustos y eficientes para todos los idiomas considerados y, a menudo, incluso conduce a mejores resultados que los modelos monolingües. Otra característica: la arquitectura de Bloom, la lista de datos utilizados y su registro de aprendizaje estarán completamente disponibles en ciencia abierta, para facilitar la investigación sobre modelos lingüísticos. Bloom finalmente se distribuye gratis con un licencia responsableque prohíbe explícitamente el uso malicioso del modelo.

READ  Comportamiento animal: ¡la sepia pasó la 'prueba del malvavisco'!

» La creación del modelo Bloom y el éxito de la colaboración de investigación BigScience muestran que es posible otra forma de crear, estudiar y compartir innovaciones en IA, reuniendo a industriales, académicos y asociaciones en torno a un acceso internacional, multidisciplinario y abierto. Estoy encantado de que Hugging Face haya encontrado el apoyo necesario en Francia para este enfoque sin precedentes a escala mundial. “dice Thomas Wolf, cofundador y director científico de la empresa emergente Hugging Face.

» BigScience inicia una primicia mundial y allana el camino para nuevos descubrimientos científicos. Se benefició de los recursos del superordenador convergente Jean Zay, uno de los más potentes de Europa, puesto en marcha en 2019 como parte del plan AI for Humanity. Hoy, más de 1000 proyectos de investigación movilizan sus recursos. Decisivo en este éxito, la extensión Jean Zay implementada a principios de año es el resultado de un trabajo conjunto entre el Ministerio de Educación Superior e Investigación, el CNRS a través del Instituto de Desarrollo y Recursos en Computación Científica (Idris), y GENCI dice Philippe Lavocat, presidente y director ejecutivo de GENCI.

» Estamos encantados con esta original asociación público-privada, que muestra hasta qué punto la complementariedad de habilidades y medios, como el poder de la supercomputadora Jean Zay, es esencial para abordar un desafío tan importante y actual como la investigación en inteligencia artificial. Detrás del progreso científico, acogemos con satisfacción la participación del equipo de Idris que hizo posible esta formación en supercomputadoras, y acogemos con satisfacción el papel esencial desempeñado por el CNRS al movilizar a toda la comunidad de procesamiento automático del lenguaje. », añade Antoine Petit, presidente y director general del CNRS.

READ  lo que sabemos sobre el primo mutante de la variante inglesa

» Estoy feliz de que este proyecto internacional ubicado en una de las fronteras tecnológicas actuales de IA haya sido respaldado por la Estrategia Nacional de IA, y que el modelo Bloom pronto sea accesible en un marco abierto. Esto permitirá a todos los jugadores innovadores desarrollar nuevos casos de uso y aplicaciones. “, subraya Jean-Noël Barrot, Ministro Delegado de Digital y Telecomunicaciones.

» El consorcio BigScience refleja una colaboración público-privada de clase mundial con más de 1000 colaboradores. Aunque estos modelos aún requieren mucha investigación científica y si su impacto energético requiere una evaluación en profundidad antes de cualquier implementación a escala, estoy orgulloso de que el ecosistema francés de IA albergue un proyecto tan internacional. », declara Sylvie Retailleau, Ministra de Educación Superior e Investigación.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.