Recherche avancée
Par formation
Par date
Par ville
logo HUB Formation
Organisme de Formation
aux Technologies et métiers de L'informatique
La pédagogie au service de la technologie
> > > Data Science - Mise en œuvre du Machine Learning

Data Science - Mise en œuvre du Machine Learning

Transformer des volumes massifs de données en informations utiles

La maitrise du Data Mining et du Machine Learning est devenue une compétence nécessaire, voire même indispensable à toute personne souhaitant développer une expertise Big Data puisqu’elle permet d’explorer ou de fouiller de très importants volumes de données pour construire des modèles et répondre aux problèmes très variés des entreprises lorsque les méthodes statistiques traditionnelles deviennent inopérantes. Pour cela, les experts en Big Data doivent maitriser l’élaboration et l’étude des algorithmes permettant à des machines d’apprendre automatiquement à partir des données et à effectuer des tâches de façon autonome pour modéliser des tendances.

Objectifs

  • Comprendre les différences entre apprentissage automatique supervisé, non supervisé et meta-apprentissage
  • Savoir transformer un gros volumes de données à priori hétérogène en information utile
  • Maîtriser l’utilisation d’algorithmes d'auto-apprentissage adaptés à une solution d'analyse
  • Comprendre comment exploiter de gros volumes de données textuelles
  • Être capable d'appliquer ces différentes techniques aux projets Big Data

Public

  • Ingénieurs, analystes, responsables marketing
  • Data Analysts, Data Scientists, Data Steward
  • Toute personne intéressée par les techniques de Data Mining et de Machine Learning

Prérequis

  • Connaître l’utilité du Data Mining et les problématiques du Big Data dans le ciblage économique

Programme de la formation

Introduction

  • Data Mining vs Big Data
  • Data Mining vs Machine Learning vs Deep Learning
  • Apprentissage supervisé vs Apprentissage non supervisé et méta-apprentissage

Ingénierie de la décision

  • Analyse procédurale hiérarchique
  • Problème d’association stable (algorithme de Lloy Shaply)
  • Chaîne de Markov discrète (DTMC)
  • Jeu d’entraînement et jeu de test

Sélection d’instances

  • Échantillonnage balancé
  • Échantillonnage stratifié (probabilité non égales)

Data Mining (fouille de données)

  • Analyse en composantes principales
  • Analyse d'affinité
  • Agglomération hiérarchique & dendrogrammes
  • Bagging de dendrogrammes (bootstrop aggregating)
  • Positionnement multidimensionnel
  • K-means
  • SVM (Support Vector Machines)

Machine Learning

  • Régression logistique binaire
  • GLM
  • One-R (technique de règle unique de regroupement)
  • Regroupement ID-3
  • Liste de décision
  • Regroupement par régression d’arbres (CRT)
  • Arbres aléatoires (CRT bootstrap)
  • K plus proches voisins (K-NN)
  • Classification bayésienne naïve
  • Détections automatiques d’interactions par le chi-2 (CHAID)
  • Analyse discriminante linéaire et quadratique (LDA/QDA)
  • Réseaux de neurones

Text Mining

  • Analyse statistique de corpus
  • Détection automatique de langues
  • Noms/Prénoms et détection automatique de genres
  • Nuage de mots
  • Table de contingence de mots
  • Matrice d’adjacence de mots dans un corpus
  • Exploration dynamique d’un graphe connexe de mots
  • Analyse de sentiments
  • Analyse Sémantique Latente (LSA)

Big Data

  • Gestion de gros volumes de données

Les + de cette formation

Une formation très pratique : 70% du temps de la formation est dédié à la mise en pratique pour une meilleure assimilation de notions de base. Cette formation est basée sur des exercices principalement proposés par le formateur et tirés de l'ouvrage qui sert de support pour la formation. Les travaux pratiques sont principalement réalisés avec R et Pyhton. Des consultants expérimentés partagent leur savoir-faire avec les participants.