Recherche avancée
Par formation
Par date
Par ville
logo HUB Formation
Organisme de Formation
aux Technologies et métiers de L'informatique
La pédagogie au service de la technologie
Accueil > Domaines > Statistiques > Machine Learning : l'état de l'art

Machine Learning : l'état de l'art

Concepts, modèles mathématiques et statistiques, outils.

À la confluence des mathématiques et de l’informatique, le Machine Learning est un ensemble de modèles et d’algorithmes permettant à des systèmes d’apprendre automatiquement à partir de ces données et d’effectuer des tâches variées. Les progrès accomplis au cours de la dernière décennie dans cette discipline en plein essor ont conduit à la création d’algorithmes et de modèles de prédiction toujours plus performants. Combinés à la ressource en données et en puissance de calcul, ils constituent un levier de transformation puissant pour les entreprises.

Objectifs

  • Connaitre et comprendre le rôle essentiel du Machine Learning dans la révolution du Big Data. Augmentation du nombre de capteurs,explosion des réseaux sociaux, émergence de l’internet des objets,
  • capacité de stockage toujours plus grande : autant de facteurs quiaujourd’hui confrontent les entreprises à un véritable déluge dedonnées.
  • Cette formation vous permet de savoir comment le Machine Learningpermet d’analyser et de valoriser cette manne de données complexes,dont la variabilité, la forte volumétrie et la grande dimensionnalité empêchent bien souvent l’application de méthodes statistiques traditionnelles.
  • Elle donne une vue d’ensemble des techniques deMachine Learning (principes, champs d’application et limites), desalgorithmes les plus couramment utilisés aux approches les plusrécentes comme le Deep Learning, ainsi que des méthodologies de Data Science, cruciales pour appliquer avec succès le MachineLearning.
  • Seront abordés également les technologies Big Data dupoint de vue du Machine Learning, ainsi que les problématiques demise en production

Public

  • DSI
  • manager
  • chefs de projets
  • maîtres d’ouvrage
  • responsables
  • marketing,
  • analystes BD

Prérequis

  • Connaissances de base en Systèmes d’Information.

Programme de la formation

A quoi le Machine Learning peut-il servir ? Motivations par des cas d’usages.

  • Reconnaissance d’images : application à la détection de cancer, la reconnaissance faciale, le recensement de bâtiments, l’empreinte écologique, l’art.
  • Séries temporelles : détections de complications post-opératoires, prédiction de stocks et de consommation, prédiction des résiliations, détection de fraude.
  • Aide à la décision : système de recommandation, publicité ciblée, maintenance prédictive, profils de consommateurs, synthèse de flux d’information.
  • Traitement du langage naturel : regrouper des textes similaires, détection de sentiments et d’opinions, transcription du langage parlé en texte.
  • Villes intelligentes : modélisation et maintenance des réseaux de transports, voitures autonomes, éclairage public intelligent, assistant virtuels.

Le Machine Learning dans la stratégie d’entreprise

  • Comment et pourquoi un changement de paradigme est-il en train de s’opérer dans les processus décisionnels de l’entreprise ?
  • Comment le Machine Learning procure-t-il un nouvel avantage compétitif pour l’entreprise ?
  • Protection des données : ce que le Règlement général sur la protection des données (RGPD) change pour les entreprises.

Le Machine Learning : définition

  • Histoire des statistiques et du Machine Learning
  • Méthode scientifique : raisonnement déductif et raisonnement inductif.
  • Les trois piliers du Machine Learning : la récolte de données, l’apprentissage d’un concept, la prédiction sur des données nouvellement arrivées.

Corrélation, description et prédiction

  • Que signifie la corrélation de deux grandeurs ? Quels sont les outils de mesures de corrélation ?
  • Eviter la confusion entre corrélation et causalité.
  • Exploiter la corrélation pour mieux décrire des faits, des phénomènes.
  • Exploiter la corrélation pour prédire des résultats.
  • L’exemple des modèles linéaires  

La régression linéaire

  • La régression linéaire : le point de départ du Machine Learning.
  • Minimisation de la fonction de coût. Solutions analytique et numérique.
  • Application au cas monovarié. Généralisation au cas multivarié.

La régression logistique

  • De la régression linéaire à la régression logistique : différences et similarités.
  • La descente de gradient : fer de lance du Machine Learning et de l’optimisation.

Les fonctions de coût

  • Pour la régression et la classification.
  • Lien entre fonctions de coût et modèles de Machine Learning.

Evaluation d’un modèle prédictif

  • Séparation des données en jeu d’entraînement et de test.
  • Indicateurs de performance pour la régression : variance expliquée, r2-score, erreurs absolue, quadratique et log-quadratique.
  • Indicateurs de performance pour la classification : matrice de confusion, courbes ROC, précision-rappel.
  • Les grands types d’apprentissage  

Apprentissage supervisé

  • Distinguer les variables « explicatives » et les variables « cibles ».
  • Savoir quand utiliser l’apprentissage supervisé. Exemples d’applications.

Apprentissage non supervisé

  • Différences entre l’apprentissage supervisé et non supervisé.
  • Savoir quand utiliser l’apprentissage non supervisé. Identification de groupes similaires et réduction de dimensionnalité.

Apprentissage adaptatif

  • Limites des algorithmes standards quand les données dépendent du temps et ne sont pas identiquement distribuées.
  • Problématiques de l’apprentissage en temps réel : détection de dérives, algorithmes incrémentaux.
  • Algorithmes adaptatifs : fenêtres glissantes, fenêtres adaptatives, comité dynamique de modèles experts.

Apprentissage par renforcement

  • Savoir développer des systèmes qui agissent intelligemment en environnement inconnu ou partiellement connu.
  • Le compromis exploration-exploitation.

Les langages et bibliothèques associés

  • Présentation des langages les plus utilisés par les Data Scientist : Python,R, Java et Scala.
  • Les bibliothèques de Machine Learning et de Data Science : scikit learn, theano, PyTorch, keras, TensorFlow, caret, MOA.
  • Vers les modèles plus complexes  

De la régression linéaire à la régression polynomiale

  • Comment généralise-t-on la régression linéaire au cas polynomial ?
  • Quelles sont les contraintes engendrées par une complexification du modèle ?

Le compromis biais-variance

  • Régression linéaire et plus proches voisins : les deux extrêmes.
  • Biais et variance des algorithmes : le diagnostic indispensable.
  • Les agents du compromis biais-variance : complexité du modèle, dimensionnalité élevée des données, taille du jeu de données.

Les grandes étapes de construction d’un modèle prédictif

  • Validation croisée, méthodologie d’optimisation, de sélection et d’évaluation des modèles.
  • Courbes d’apprentissage pour évaluer le compromis biais-variance.
  • Régularisation des modèles complexes.
  • Panorama des principaux modèles prédictifs  

Classifieur naïf bayésien

  • Théorème de Bayes et exemple d’application.
  • L’hypothèse d’indépendance des variables pour simplifier les problèmes multidimensionnels.
  • Principe du modèle bayésien, forces et limites.

Arbres de décisions

  • L’arbre de décision simple : structures, principes d’entraînement et de régularisation.
  • Les forêts aléatoires : ensemble d’arbres de décision pour réduire la variance.
  • Le gradient boosting : ensemble d’arbres de décision pour réduire le biais.

Méthodes à noyaux

  • Motivation : non-unicité des solutions pour la classification linéaire.
  • Séparateurs à vastes marges et à marges souples.
  • Définition d’une fonction noyau, intérêt dans le traitement de données à grandes dimensions.
  • Application au cas de Support Vector Machine : principes, avantages, limites.
  • Les réseaux de neurones et le Deep Learning  

Le perceptron

  • Le neurone : poids, biais, fonction d’activation. Lien avec la régression logistique.
  • Descente de gradient : entraînement par rétropropagation.

Deep Learning : le perceptron multicouches

  • Généralisation du neurone au réseau de neurones.
  • Particularités d’un réseau de neurones profond.
  • Apprentissage par transfert : comment utiliser des réseaux préentraînés par les géants du Web.
  • Réseaux de neurones convolutifs : vers des réseaux toujours plus profonds.

Applications propres au Deep Learning

  • Images : reconnaissances de formes, de contenu vidéo, génération de descriptions d’images, colorisation de films en noir et blanc, restauration de tableaux.
  • Sons : reconnaissance automatique de musique, de discours, traducteurs automatiques, lecture sur les lèvres, composition de musique originale.
  • Traitement naturel du langage : méthodes d’analyse sémantique de textes, synthèse de corpus de textes, imitation de styles d’écriture.
  • L’apprentissage non supervisé  

Algorithmes de clustering

  • Identification de groupes similaires. Analyser la structure et le nombre des profils.
  • K-means et k-medoids : identification de groupes convexes.
  • DBScan : identification de groupes de densité, comparaison avec k-means.

Algorithme de réduction de dimensionnalité

  • Intérêt de la réduction de dimension. Rappels sur la régularisation.
  • Analyse en composantes principales.
  • Auto encodeurs.
  • Technologies, Big Data et mise en production du Machine Learning  

Les technologies

  • Présentation du framework Hadoop : principe de stockage HDFS. Paradigme de traitement MapReduce.
  • Spark et la MLlib.
  • Le Cloud : Amazon, Microsoft Azure ML, Google Cloud.
  • Open Data : données publiques et API réglementées.

La mise en production

  • Quelles sont les spécificités liées au développement d’un modèle en environnement distribué ?
  • Quelles sont les contraintes liées au développement d’un modèle en production ? Passage du POC au pilote et à la production.
  • Quelles problématiques anticiper ?
  • Comment assurer la maintenance ?