Comprendre et adapter un Large Vision Model (LVM) NEW

 
  3 jours       2450       Avancé    
Objectifs de la formation
  • Comprendre les principes de l’analyse d’images grâce aux modèles de fondation
  • Savoir utiliser un modèle de fondation
  • Adapter un modèle de fondation pour les images
Comprendre et adapter un Large Vision Model (LVM)
Prérequis

Le contenu des formations Python intermédiaire et Les fondamentaux du Machine learning avec Python ou éventuellement avec R doit être maîtrisé.


Public visé

Développeurs, data scientists, ingénieurs, chefs de projet


Programme détaillé

Après une présentation des principaux concepts, la formation permet d’acquérir les bonnes pratiques pour analyser les images à l’aide d’un large spectre de méthodes. La mise en pratique s’effectuera sur le cluster de calculs de l’ENSAE.

La base du Deep learning pour le Computer vision

  • Panorama du Computer vision
    • Les différentes tâches
    • Les évolutions méthodologiques (deep learning, supervised et self-supervised learning)
  • Panorama des modèles existants
  • Les réseaux de neurones convolutionnels
    • Les principes de la convolution
    • Les différentes couches : convolution, pooling, fully connected
    • Entraînement d’un réseau de neurones
    • TP : application aux jeux de données MNIST et CIFAR10

Quelques éléments techniques avancés

  • Les techniques classiques d’entraînement
    • Data Augmentation
    • Learning rate scheduler
    • Dropout
    • Adversarial training
    • Agrégation de modèles
    • Le transfer learning pour la classification d’images
    • Classification head
    • Premier pas vers le « few-shot learning »
  • Les transformers: la nouvelle architecture pour le deep learning en image.
    • La notion de patch
    • Le mécanisme d’attention
    • Multi-head attention
    • Mise en oeuvre informatique
    • TP : tâche de fine-tuning de modèle à partir de « feature-extractor imagenet »

Au-delà du « supervised learning » en images

  • Eléments sur l’entraînement « self-supervised » en image (les modèles de fondations avec l’image)
    • Masked learning
    • Contrastive learning
  • Quelques éléments sur la segmentation
  • TP : tâche de fine-tuning pour de la segmentation
  • Éléments complémentaires sur les transformers

Qu'est ce qu'un Large Vision Model ?

 

Un Large Vision Model (LVM), ou grand modèle visuel, est une classe de modèles d’intelligence artificielle spécifiquement conçus pour traiter et analyser des données visuelles, telles que des images et des vidéos, à une échelle et avec une précision élevées.

Les LVMs sont souvent formés sur de vastes ensembles de données contenant des millions voire des milliards d’images ou de vidéos. Cela permet au modèle d’apprendre une grande variété de caractéristiques visuelles et d’améliorer ses capacités de généralisation. Ces modèles utilisent des architectures de réseau de neurones avancées, comme les réseaux convolutionnels (CNN), les réseaux de neurones profonds (DNN) et les transformateurs visuels (ViT). Ces architectures permettent au modèle de capturer des caractéristiques complexes et des relations spatiales dans les données visuelles.

En raison de leur taille et de la complexité de leur formation, les LVMs nécessitent une puissance de calcul considérable, souvent fournie par des clusters de GPU ou d’autres matériels spécialisés. Les LVMs sont utilisés dans une multitude d’applications, notamment la reconnaissance d’objets, la classification d’images, la segmentation sémantique, la génération d’images, la vision par ordinateur pour les véhicules autonomes, et bien d’autres domaines.

Souvent, les LVMs sont d’abord pré-entraînés sur des ensembles de données génériques, puis affinés (fine-tuned) sur des ensembles de données spécifiques pour des tâches particulières. Cela permet d’utiliser le modèle de base pour de nombreuses applications différentes avec des ajustements mineurs.