AlphaZero qui bat les meilleurs joueurs du monde au Go, le robot d'OpenAI qui manipule un cube sous toutes ses faces ou qui résout le Rubik's cube, un groupe d'agents qui bat des joueurs professionnels à StartCraft ou Dota2, un algorithme qui diminue de 40 % la facture de refroidissement des centres de calcul de Google, autant de succès très médiatisés de l'apprentissage par renforcement qui en ont fait une composante majeure de l'intelligence artificielle.
Cette formation vous donnera les bases pour comprendre l'apprentissage par renforcement et vous guidera vers la mise en œuvre des algorithmes les plus utilisés dans le domaine.
Ingénieurs ou équivalent possédant une expérience en apprentissage automatique et en programmation python, qui souhaitent comprendre en profondeur les principes de l'apprentissage par renforcement et en développer une maîtrise pratique.
Une première expérience avec une librairie de différentiation automatique (tensorflow, pytorch, keras...) est requise.
Des enseignants experts de l'apprentissage par renforcement, alliant couverture large et profonde du domaine, et bonne connaissance de la pratique.
Une formation qui fournit les bases, les méthodes, et une expérience pratique de l'apprentissage par renforcement pour donner aux participants les moyens de progresser au-delà de la formation.
Une pédagogie active qui s'adapte aux questions et attentes des participants au fil des séances.
Il enseigne l'apprentissage par renforcement en Master depuis 2001 et encadre des recherches fondamentales et appliquées dans le domaine.
À l'issue de la formation, les participants auront acquis les bases théoriques et les savoir-faire leur permettant de:
Les mardi 7, lundi 13, mardi 14, lundi 20 et mardi 21 juin 2022, de 9h à 18h (35h).
Une formation limitée aux trois premières journées portant sur les bases générales est possible : Des contenus plus ambitieux peuvent être mis en place en fonction de la disponibilité et de la motivation des participants.
Travaux pratiques sur la programmation dynamique, Q-learning et Sarsa.
Algorithmes d'apprentissage par renforcement profond avec espace d'état de grande taille et actions discrètes :
Choix d'un mini-projet à remettre en fin de formation.
Travaux pratiques sur REINFORCE et algorithmes proches.
Travaux pratiques sur les algorithmes DDPG, PPO, TD3 et SAC.
Evaluation générale de la formation, discussion générale.
En fonction de la disponibilité des participants, des contenus complémentaires suivis de débreifing en classe pourront être envisagés, tels que :
Un mini-projet didactique est réalisé en autonomie la dernière semaine.
Il est construit à partir d'un challenge de recherche de performance sur un benchmark classique.
Ingénieurs ou équivalent avec expérience en apprentissage automatique et en programmation python, souhaitant comprendre en profondeur les principes de l'apprentissage par renforcement et en développer une maîtrise pratique
Attestation de compétences
Une première expérience avec une librairie de différentiation automatique (TensorFlow, PyTorch, Keras...) requise
Les mardi 7, lundi 13, mardi 14, lundi 20 et mardi 21 juin 2022, de 9h à 18h
35 heures
Sorbonne Center for Artificial Intelligence (SCAI), à Jussieu
12 participants
3 000 € (repas compris)
Sorbonne Université – Formation Continue - 4, place Jussieu, 75005 Paris
Tél. 01 44 27 82 82 ingenierie-fc@sorbonne-universite.fr