Machine learning et Deep learning : les challenges à relever
S’il permet de résoudre de nombreuses problématiques jusque-là peu accessibles, le machine learning (et donc le deep learning) soulève néanmoins un certain nombre d’interrogations.
Quelques challenges techniques
Techniquement, il requiert des données en nombre et de qualité, ainsi que des moyens informatiques importants, que ce soit en stockage ou en capacité de calcul. Le principe de parcimonie doit primer autant que possible : adopter des modèles plus petits afin de réduire l’empreinte environnementale et disposer de modèles plus robustes.
Des modèles trop complexes peuvent en effet conduire au phénomène de sur-apprentissage (overfitting) : le modèle s'adapte trop finement aux données d'apprentissage au point de compromettre sa capacité à généraliser et à produire de bonnes prédictions sur de nouvelles données. Afin de contrôler la complexité des modèles, on utilise habituellement des techniques de validation croisée (ou d’apprentissage-test), avec des critères adaptés (selon qu’il s’agit de régression ou de classification supervisée) pour mesurer la qualité prédictive des modèles.
Quelques enjeux non techniques
Une des limites usuellement évoquées est l’aspect « boîte noire » de ces modèles. Si le cœur algorithmique des modèles est totalement explicitable, il est beaucoup plus délicat d’identifier les « raisons » pour lesquelles une machine a pris une décision particulière, d’interpréter les résultats. Il est donc primordial que les utilisateurs des modèles de machine learning disposent d’une forte expertise métier et de recul pour valider ou invalider les résultats en sortie. Il ne faut jamais oublier que les méthodes d’apprentissage ne produisent que des outils d’aide à la décision au service d’utilisateurs à qui la responsabilité de la décision revient au final.
Un autre problème réside dans les biais algorithmiques liés aux données d’apprentissage qui peuvent conduire à des résultats fallacieux.
Un travail de recherche en 2018 (gendershades.org) a notamment a mis en évidence les biais de la reconnaissance faciale sur le genre et la couleur de peau, un homme blanc est beaucoup mieux identifié qu’une femme noire. Ce problème est le reflet des bases d’apprentissage qui ne comportent pas les mêmes proportions d’images par genre, couleur de peau, âge, etc.
Ces biais se retrouvent dans d’autres cas d’usage, comme l’attribution de crédit ou l’aide au recrutement. Amazon avait par exemple dû renoncer à utiliser leur outil d’IA pour le recrutement, la préconisation majoritaire pour des candidats masculins traduisait la prédominance des hommes dans le milieu des nouvelles technologies. Pour une discussion plus large sur l’IA dans le cadre des ressources humaines, on pourra se référer à www.hec.edu/en/knowledge/articles/ai-hr-how-it-really-used-and-what-are-risks.
L’aide à la décision dans le cadre de procès est également sujette à critiques pour ces biais, on pourra se référer à www.bu.edu/articles/2023/do-algorithms-reduce-bias-in-criminal-justice/. Si l’IA était censée objectiver des décisions relatives au risque de récidive dans le cadre de libération conditionnelle, la réalité a mis en évidence des inégalités de traitement : par l’algorithme à cause de données biaisées en entrée et par le juge à cause d’une utilisation différentiée des résultats en sortie des modèles. Le Conseil de l’Europe a émis de recommandations sur ce sujet en 2018 : www.coe.int/fr/web/artificial-intelligence/justice.
Cette question éthique, tout comme de nombreuses autres questions, font l’objet de rapports et de préconisations, notamment celui produit par l’UNESCO en 2021 (www.unesco.org/fr/artificial-intelligence/recommendation-ethics). Des questions comme le respect des droits de l’Homme et des libertés fondamentales, le pacifisme des solutions ou l’accès équitable aux connaissances et aux outils sont abordés. La reconnaissance faciale à des fins de notation sociale en Chine est un exemple concret où l’usage de l’IA interpelle les sociétés démocratiques.
Ajoutons enfin que si l’IA est sujette à des questions génériques comme la confidentialité et la protection des données, la sécurité et la cybersécurité, elle porte aujourd’hui de nouvelles questions comme la propriété intellectuelle. Les modèles génératifs, de textes ou d’images, s’appuient sur des données en entrée ; la question de la propriété de ce qui est produit est aujourd’hui discutée, voire même déjà portée en justice. On pourra se référer à : www.ieepi.org/chatgpt-et-propriete-intellectuelle/.