Qu'est-ce que le NLP ?
Le NLP (Natural Language Processing), ou Traitement Automatique du Langage Naturel (TALN) en français, est une branche de l'intelligence artificielle (IA) qui vise à imiter via des outils informatiques la capacité humaine à manipuler une langue. On permet ainsi à des machines de comprendre, d’interpréter et de générer du langage humain de manière naturelle. Le NLP a ouvert de nouvelles perspectives en matière de communication entre l'homme et la machine, facilitant ainsi notre interaction avec les technologies et les dispositifs numériques.
Les spécificités du NLP
Différents domaines sont en jeu : l’informatique théorique et les mathématiques évidemment mais également la sémantique et la linguistique. Les données textuelles présentent de nombreuses spécificités qu’il faut appréhender pour les traiter ; elles sont :
- non structurées,
- séquentielles (l’ordre des mots est majeur),
- souvent de très grande dimension (on manipule aujourd’hui d’énormes corpus documentaires),
- complexes (nombreuses règles orthographiques et grammaticales, enrichissement de la langue, etc.),
- bruitées (avec des erreurs de frappe, des fautes grammaticales, etc.),
- ambigües (synonymie, polysémie, figures de style, etc.).
Des cas d’application nombreux
De plus en plus d’outils de la vie courante intègrent désormais des solutions NLP :
- La recherche d’informations via des moteurs de recherche web.
- L’analyse de sentiments (dans des avis recueillis, sur les réseaux sociaux, etc.).
- L’élaboration de synthèses automatiques.
- Les outils de traduction automatique tels que Google Translate ou DeepL.
- Les assistants vocaux.
- Les robots conversationnels ou chatbots tels que ChatGPT ou, Google Bard qui permettent de répondre à des questions d’utilisateurs et de produire des contenus textuels.
Des avancées technologiques majeures
Si le NLP trouve ses sources dans les années 1950, il faut bien reconnaitre que les dernières années ont été particulièrement fructueuses en termes d’innovation technologique. Les premiers travaux, portant essentiellement sur la traduction, s’appuyaient sur des systèmes de règles. Ce n’est que dans les années 1980 que les méthodes statistiques gagnent en popularité, avec notamment les modèles de Markov cachés (HMM : Hidden Markov Models).
Les réseaux de neurones permettent des avancées importantes. A la fin des années 1980 apparait une architecture de réseaux de neurones particulièrement adaptées aux données séquentielles dont le texte fait partie : les réseaux de neurones récurrents (RNN). En 1996, une architecture de RNN connait une grande popularité : le modèle LSTM (Long Short Term Memory). Tout dernièrement l’introduction des embeddings (ex : Word2Vec) et des modèles de langage pré-entrainés (ex : GPT Generative Pre-trained Transformer) a révolutionné le traitement du langage naturel. Et l’histoire du NLP va encore évoluer, à suivre...