APPRENTISSAGE
PAR
RENFORCEMENT
Concepts et mise en pratique
pour ingénieurs ou équivalent

Apprentissage par renforcement : concepts et mise en pratique

AlphaZero qui bat les meilleurs joueurs du monde au Go, le robot d’OpenAI qui manipule un cube sous toutes ses faces ou qui résout le Rubik’s cube, un groupe d’agents qui bat des joueurs professionnels à StartCraft ou Dota2, un algorithme qui diminue de 40 % la facture de refroidissement des centres de calcul de Google, autant de succès très médiatisés de l’apprentissage par renforcement qui en ont fait une composante majeure de l’intelligence artificielle.

Cette formation vous donnera les bases pour comprendre l’apprentissage par renforcement et vous guidera vers la mise en œuvre des algorithmes les plus utilisés dans le domaine.

Public visé

ingénieurs & équivalent

Ingénieurs ou équivalent possédant une expérience en apprentissage automatique et en programmation python, qui souhaitent comprendre en profondeur les principes de l’apprentissage par renforcement et en développer une maîtrise pratique.

Une première expérience avec une librairie de différentiation automatique (tensorflow, pytorch, keras...) est requise.

Les plus de la formation

experts enseignants pédagogie active

Des enseignants experts de l’apprentissage par renforcement, alliant couverture large et profonde du domaine, et bonne connaissance de la pratique.

Une formation qui fournit les bases, les méthodes, et une expérience pratique de l’apprentissage par renforcement pour donner aux participants les moyens de progresser au-delà de la formation.

Une pédagogie active qui s’adapte aux questions et attentes des participants au fil des séances.

Intervenants

Olivier Sigaud Thomas Pierrot
Olivier Sigaud
Olivier Sigaud est professeur à Sorbonne Université, membre de l’Institut des Systèmes Intelligents et de Robotique (ISIR), et spécialiste d’apprentissage par renforcement depuis 1996.

Il enseigne l’apprentissage par renforcement en Master depuis 2001 et encadre des recherches fondamentales et appliquées dans le domaine.

Thomas Pierrot
Thomas Pierrot est doctorant à Sorbonne Université et ingénieur de recherche chez Instadeep.

Il possède une expérience solide de la mise en œuvre des algorithmes d’apprentissage par renforcement sur des problèmes industriels concrets.

Objectifs

bases théoriques savoir-faire

À l’issue de la formation, les participants auront acquis les bases théoriques et les savoir-faire leur permettant de:

  • Identifier dans quelle mesure une problématique professionnelle se prête à une modélisation sous la forme d’un problème d’apprentissage par renforcement
  • Choisir les bons algorithmes et une infra-structure de calcul adaptée face à un problème d’apprentissage par renforcement donné
  • Mettre en œuvre ces algorithmes, en régler les hyper-paramètres et s’assurer de l’obtention d’une solution satisfaisante
  • Suivre les progrès de la recherche en apprentissage par renforcement grâce à une bonne vue d’ensemble de ce domaine

Calendrier & Programme prévisionnel

Tous les jeudi du 20 mai 2021 au 17 juin 2021 inclus (5 jeudi), de 9h à 18h (35h).

Une formation limitée aux trois premières journées portant sur les bases générales est possible : Des contenus plus ambitieux peuvent être mis en place en fonction de la disponibilité et de la motivation des participants.

Chaque journée est rythmée par :

  • Un cours (2h30 environ)
  • Des travaux pratiques encadrés fondés sur le cours et évalués d’une semaine à l’autre
  • Un déjeuner pris en commun
  • En fin de journée, de courtes évaluations des notions acquises (QCM)
  • Une séance de débreifing
  • Des éléments d’ouverture à la demande

Jeudi 20 mai 20219h-18h

  • Introduction générale
  • Cadre de l’apprentissage par renforcement
  • Algorithmes d’apprentissage par renforcement tabulaires (états et actions discrets)

Travaux pratiques sur la programmation dynamique, Q-learning et Sarsa.

Jeudi 27 mai 20219h-18h

Algorithmes d’apprentissage par renforcement profond avec espace d’état de grande taille et actions discrètes :

  • DQN
  • Rainbow
  • AlphaZero

Travaux pratiques sur DQN.

Jeudi 3 juin 20219h-18h

  • Méthodes de gradient sur les politiques
  • Vue d’ensemble des algorithmes de deep RL

Travaux pratiques sur REINFORCE et algorithmes proches.

Jeudi 10 juin 20219h-18h

  • Parallélisation, algorithmes d’apprentissage par renforcement profond avec actions continues : DDPG, PPO, TD3, SAC
  • Remise d’un sujet de mini-projet didactique à réaliser en autonomie : challenge de recherche de performance sur un benchmark classique

Travaux pratiques sur les algorithmes DDPG, PPO, TD3 et SAC.

Jeudi 17 juin 20219h-18h

  • Cours d’ouverture à la demande
  • Evaluation des projets réalisés en autonomie

Evaluation générale de la formation, discussion générale.

Contenu à la demande

En fonction de la disponibilité des participants, des contenus complémentaires suivis de débreifing en classe pourront être envisagés, tels que :

  • Travaux pratiques,
  • Projets,
  • Visionnage de vidéos dédiées.

Points forts

Un mini-projet didactique est réalisé en autonomie la dernière semaine.

Il est construit à partir d'un challenge de recherche de performance sur un benchmark classique.

Public concerné

Ingénieurs ou équivalent avec expérience en apprentissage automatique et en programmation python, souhaitant comprendre en profondeur les principes de l’apprentissage par renforcement et en développer une maîtrise pratique

Validation

Attestation de compétences

Prérequis

Une première expérience avec une librairie de différentiation automatique (TensorFlow, PyTorch, Keras...) requise

Organisation

  • Un poste de travail dédié à l’apprentissage automatique par participant
  • Formation appuyée sur TensorFlow ou PyTorch (selon la demande)
  • 12 participants maximum

Calendrier

Tous les jeudi du 20 mai 2021 au 17 juin 2021 inclus (5 jeudi), de 9h à 18h

Durée de la formation

35 heures

Lieu

Sorbonne Center for Artificial Intelligence (SCAI), à Jussieu

Effectif maximum

12 participants

Responsables pédagogiques

  • Olivier Sigaud enseignants-chercheurs à Sorbonne Université et membre de l'ISIR
  • Thomas Pierrot doctorant à Sorbonne Université et ingénieur de recherche chez Instadeep

Frais de participation

3 000 € (repas compris)

Pour candidater :

SORBONNE UNIVERSITE
SCAI
Contact et inscription :

Sorbonne Université – Formation Continue - 4, place Jussieu, 75005 Paris

Tél. 01 44 27 82 82 ingenierie-fc@sorbonne-universite.fr