Grand modèle de langage (LLM) -

Extrait court

Ce type de transformateur à usage général est entraîné à partir de grandes quantités de données textuelles. »

Définition courte

Type de système d’intelligence artificielle fondé sur l’apprentissage profond et entraîné sur de vastes corpus de textes. Ces modèles analysent statistiquement le langage pour générer du contenu inédit, répondre à des questions ou traduire des documents, et servent souvent de base aux agents conversationnels modernes.

Définition longue

Les grands modèles de langage (souvent appelés LLM pour l’anglais Large Language Models ou GML en français) sont une évolution majeure au cœur de l’intelligence artificielle générative. Ils s’appuient sur l’apprentissage profond et des réseaux de neurones artificiels qui ont été préentraînés sur des ensembles de données massifs. Le fonctionnement fondamental d’un LLM repose sur des probabilités statistiques : en analysant des milliards de mots, le système apprend à prédire la séquence de texte la plus logique pour répondre à une requête (ou invite), bien qu’il ne comprenne pas réellement le sens des mots ni la réalité du monde qu’il décrit.

Ces systèmes, que l’on qualifie parfois de modèles fondationnels, ne sont pas conçus pour une seule tâche spécifique. Ils sont hautement polyvalents et peuvent être adaptés à une grande variété d’applications, allant de la rédaction et la traduction de textes au résumé de documents complexes, en passant par le développement d’agents conversationnels très populaires (comme ChatGPT, Copilot ou Gemini). Bien qu’ils offrent des possibilités immenses, leur déploiement soulève des préoccupations importantes, notamment en ce qui concerne leur très forte consommation énergétique, la reproduction inévitable des biais sociaux présents dans leurs données d’entraînement, et leur propension à générer des informations fausses ou inventées (les fabulations).

Éléments clés

Entraînement massif : Modèles nourris par des mégadonnées textuelles provenant souvent d’Internet pour apprendre à repérer et reproduire les structures et les nuances du langage.
Prédiction statistique : Fonctionnement basé sur le calcul probabiliste visant à générer la suite logique de mots, sans véritable conscience ou compréhension du sens.
Polyvalence : Capacité d’accomplir un large éventail de tâches de traitement du langage naturel (rédaction, traduction, résumé, programmation) en s’adaptant à de multiples contextes.
Risques inhérents : Tendance à reproduire les préjugés contenus dans les données d’entraînement initiales et à inventer des faits plausibles mais totalement erronés.
Impact environnemental : L’entraînement et l’utilisation continue de ces immenses modèles mathématiques sont extrêmement énergivores, posant des défis importants en matière de sobriété numérique.

Exemple d’application

Une personne étudiante utilise un grand modèle de langage grand public, comme Copilot, pour générer des ébauches de plans de textes ou pour résumer la matière à l’étude lors de la préparation d’un travail. Elle doit toutefois faire preuve d’esprit critique et valider rigoureusement les informations fournies par l’outil avec des sources fiables, car ces modèles peuvent produire des affirmations fausses ou inventer des faits, ce que l’on nomme des fabulations

Sources d’inspiration

Conseil de l’innovation du Québec (CIQ). (2024). Prêt pour l’IA : Répondre au défi du développement et du déploiement responsables de l’IA au Québec.
Conseil supérieur de l’éducation (CSE) et Commission de l’éthique en science et en technologie (CEST). (2024). Intelligence artificielle générative en enseignement supérieur : enjeux pédagogiques et éthiques.
Organisation des Nations Unies pour l’éducation, la science et la culture (UNESCO). (2024). Orientations pour l’intelligence artificielle générative dans l’éducation et la recherche.

Retour au glossaire