Dans notre société, ceux qui ne maîtrisent pas la langue nationale se heurtent sans cesse à des difficultés. Ils ne peuvent ni communiquer avec l'administration publique, ni s'informer des actualités régionales dans la presse locale, ni profiter pleinement de notre système éducatif. Les barrières linguistiques conduisent rapidement à des expériences négatives et entravent considérablement la participation à la vie sociale.
Au quotidien, nous sommes souvent confrontés à des textes difficiles à comprendre, tels que des contrats, des directives et des courriers administratifs. De nombreuses personnes, en particulier celles dont la langue maternelle n’est pas la langue du texte ou celles qui ont des difficultés d’apprentissage, ont du mal à comprendre ces textes. Cela peut les amener à se sentir exclues et à se retirer de la vie sociale. En rendant les textes plus faciles à comprendre – grâce à l'utilisation de mots plus simples, à une présentation claire d'informations complexes et au recours à des aides visuelles –, nous pouvons réduire les inégalités dont souffrent ces groupes et prévenir leur marginalisation. Rendre l'information accessible à ces groupes et, ce faisant, éliminer les obstacles à leur participation peut donc être considéré comme une mission qui incombe à l'ensemble de la société.
C'est dans ce contexte que les concepts de « langage simplifié » et de « langage facile » se sont imposés. L'offre de textes simplifiés ne cesse de croître et, dans certains cas, il existe même un droit légal à des informations faciles à comprendre. Cependant, le coût élevé de leur production limite leur quantité. C'est là que les systèmes d'IA générative peuvent apporter leur aide. Dans cet article, nous souhaitons exposer les aspects positifs et négatifs de l'utilisation de l'IA dans ce domaine et mettre en évidence les questions en suspens.
L'état actuel de l'IA et ses risques
L'intelligence artificielle (IA) générative est capable de créer de manière autonome des contenus, tels que des textes ou des images. Depuis la sortie de ChatGPT, ces algorithmes font désormais partie intégrante de notre quotidien. L'IA est utilisée tout naturellement pour la traduction, la synthèse ou même comme chatbot ouvert, qui semble apporter une aide pour chaque problème. Mais ce développement s'accompagne également de nouveaux problèmes et de nouvelles questions découlant de l'utilisation de l'IA :
- Quel est l'impact de l'IA sur la pratique scientifique ?
- Quel est l'impact de l'IA sur l'enseignement et la formation ?
- Quel est l'impact de l'utilisation malveillante de l'IA, par exemple dans la création de fausses informations, sur notre société ?
- …
De tels risques peuvent se répercuter sur les systèmes d'IA destinés à la simplification linguistique. Il convient toutefois de prendre en compte les aspects méthodologiques et sociaux spécifiques liés à la simplification linguistique.
À qui s'adresse ce programme ?
Examinons tout d'abord le public cible des simplifications linguistiques. Ce groupe est très hétérogène et va des locuteurs non natifs ou des personnes non initiées au sujet aux enfants ou aux personnes présentant des difficultés d'apprentissage. Certaines parties de ce public cible peuvent être particulièrement « vulnérables ». Nous entendons par là que ces personnes risquent d'être induites en erreur ou exploitées par le biais d'informations textuelles.
En utilisant ce terme, nous ne souhaitons pas présenter le public cible de manière stéréotypée comme « facile à tromper », mais souligner que certaines personnes devraient bénéficier d'une protection particulière. De plus, même des groupes que l'on a tendance à considérer comme « non vulnérables » peuvent être induits en erreur. C'est le cas, par exemple, des non-initiés qui lisent un texte technique délibérément trompeur.
Outre la grande diversité du public cible, nous souhaitons également distinguer différents types d'utilisation de l'IA lors de l'évaluation des risques.
Simplification grâce à l'IA
Tout d'abord, l'IA peut être utilisée pour simplifier les informations existantes. Dans ce cas, on peut partir du principe que la qualité du contenu des informations d'origine est déjà garantie. Il en résulte divers effets positifs pour le public cible : par exemple, la disponibilité accrue d'informations accessibles renforce l'autonomie et la participation. Pour les personnes qui bénéficient d'un accompagnement et d'un soutien au quotidien, l'effort nécessaire à la lecture et à la compréhension communes de textes diminue. Les capacités ainsi libérées peuvent être utilisées à d'autres fins dans le cadre de l'accompagnement.
D'autre part, les professionnels chargés de simplifier les textes veillent à ce que leurs formulations ne puissent pas prêter à confusion. Cela évite que les personnes qui dépendent de ces textes simplifiés n'en tirent des conclusions erronées. La simplification de textes complexes nécessite souvent des modifications, telles que des raccourcissements, l’utilisation d’exemples, etc., afin de rendre le contenu plus compréhensible. Sans une nouvelle vérification humaine, ces modifications pourraient entraîner des malentendus, même si le texte original a été soigneusement vérifié. Ces adaptations sont nécessaires pour rendre les textes réellement plus simples et plus compréhensibles.
IA générative pour la création de nouveaux contenus
Penchons-nous maintenant sur la génération de nouveaux contenus à l'aide de l'IA. La diffusion rapide de ChatGPT montre que de nombreuses personnes aiment utiliser l'IA générative et semblent en tirer profit. Les personnes qui ont besoin de textes simplifiés ont elles aussi le droit de bénéficier des aspects positifs de cette technologie. Cela pourrait toutefois avoir des conséquences négatives pour les groupes cibles vulnérables.
L'utilisation des LLM, en particulier dans les systèmes de chat ouverts tels que ChatGPT, pose des problèmes bien connus liés à des faits apparemment inventés (hallucinations), à des représentations erronées ou à des mécanismes de sécurité faciles à contourner. Ces problèmes peuvent donc également s'appliquer aux solutions examinées ici.
Des données en ligne sont utilisées pour l'entraînement des modèles d'IA. Celles-ci peuvent parfois contenir des informations délibérément erronées ou des représentations partiales. Ces informations peuvent s'infiltrer de manière latente dans les modèles lors de l'entraînement. Quelle influence cela peut-il avoir sur une IA qui communique spécifiquement avec un groupe cible vulnérable ? Dans quelle mesure peut-on limiter les conséquences négatives grâce à des mesures de sécurité ? Il convient d'éviter qu'un modèle d'IA ne confronte un groupe cible vulnérable à ce type d'informations.
Notre recommandation
Nous en tirons les recommandations suivantes pour les développements futurs. Nous nous limitons ici aux aspects spécifiques à la simplification du langage. D'une part, nous avons besoin d'un mécanisme permettant d'adapter le type de simplification – c'est-à-dire le degré de simplification linguistique et de réduction du contenu – à chaque utilisateur. Nous devons éviter que les utilisateurs soient systématiquement pris en charge par une IA qui réduit trop fortement la complexité. Nous avons besoin d'une nouvelle méthodologie permettant d'évaluer la compréhensibilité dans ce cadre particulier.
Dans des domaines particulièrement sensibles tels que l'accompagnement et le soutien, les modèles d'IA devraient être utilisés à titre d'aide, compte tenu des risques existants. Ils ne doivent pas se substituer à l'interaction humaine.
Si l'IA générative doit communiquer sous une forme simplifiée sans contrôle humain, nous devrions alors limiter le champ d'application de l'IA de manière à ce qu'il soit techniquement possible de vérifier les réponses. À l'heure actuelle, nous ne pensons pas qu'il soit possible de tenir compte des risques décrits dans des systèmes ouverts. C'est pourquoi nous recommandons de restreindre le champ d'application afin de pouvoir intégrer des mécanismes de sécurité.
Pour conclure, nous souhaitons attirer l'attention sur la question encore en suspens de la manière dont l'accès à ces systèmes doit être réglementé. Compte tenu des risques décrits, on pourrait opter pour des systèmes fermés. Cela signifierait que seuls les utilisateurs vérifiés pourraient y accéder. En revanche, les systèmes librement accessibles permettent une utilisation simple et anonyme et offrent un plus grand potentiel pour accroître concrètement la participation.
Auteurs
Lars Klöser, titulaire d'un master en sciences