Recherche avancée
Par formation
Par date
Par ville
logo HUB Formation
Organisme de Formation
aux Technologies et métiers de L'informatique
La pédagogie au service de la technologie

Cursus Data Analyst

Cursus Métier

Objectifs

  • Disposer d’une vision claire du Big Data, de ses enjeux, de son écosystème et des principales technologies et solutions qui y sont associées
  • Maîtriser le cycle de vie de la donnée et savoir garantir la qualité des données
  • Être en mesure d’aligner les usages métiers avec le cycle de vie de la donnée
  • Savoir transformer de gros volumes de données hétérogènes en informations utiles
  • Comprendre comment utiliser des algorithmes d'auto-apprentissage adaptés à une solution d'analyse
  • Disposer des compétences techniques nécessaires à la mise en œuvre d’analyses Big Data
  • Maîtriser la boite à outils technologique que constitue Hadoop et son écosystème et savoir comment utiliser chaque brique (PIG, HIVE, MapR,…)
  • Savoir concevoir des modèles de documents et des graphiques répondant aux attentes de l’entreprise, en fonction du sujet analysé

Prérequis

  • La connaissance du langage SQL est nécessaire pour suivre ce cursus. Il est conseillé d’avoir suivi la formation Interroger des bases de données avec le langage SQL ou de disposer des connaissances équivalentes

Programme de la formation

1 - Big Data – Les fondamentaux de l’analyse de données (3j)

  • Objectif : Disposer des connaissances et compétences nécessaires pour identifier et collecter des données et s’assurer de leur qualité et de leur alignement sur les besoins et usages métiers de l’entreprise
  • Introduction : les nouvelles frontières du Big Data : immersion, l’approche des 4 Vs, cas d'usages du Big Data, technologies, architecture, stockage, introduction au Machine Learning, Data Scientist & Big Data, compétences, la vision du Gartner
  • La collecte des données : typologie des sources, les données non structurées, typologie 3V des sources, les données ouvertes (Open Data), nouveau paradigme de l’ETL à l’ELT, le concept du Data Lake,les API de réseaux sociaux
  • Le calcul massivement parallèle : genèse et étapes clés, Hadoop : Fonctions cœurs, HDFS – Différenciation, HDFS - un système distribué, MapReduce : aspects fonctionnels et techniques, Apache PIG et Apache HIVE, Comparatif des 3 approches, limitations de MapReduce, moteur d'exécution Apache TEZ, la rupture Apache SPARKHive in Memory : LLAP, vers une prochaine Révolution
  • Les nouvelles formes de stockage : enjeux, le “théorème” CAP, nouveaux standards : ACID => BASE, panorama des bases de données NoSQL, bases de données Clé-Valeur, bases de données Document, bases de données colonnes, bases de données Graphes
  • Le Big Data Analytics : Analyse de cas concrets, que peuvent apprendre les machines ?, les différentes expériences (E), l’apprentissage, choisir un algorithme d’apprentissage machine, anatomie d’un modèle d’apprentissage automatique, les librairies de machine learning standards et Deep Learning, assurer la qualité de la donnée
  • SPARK :Les différents modes de travail,les 3 systèmes de gestion de cluster ,modes d'écriture des commandes Spark, machine learning avec Spark , travail sur les variables prédictives, la classification et la régression
  • : architectures types de traitement de Streams, Apache NIFI,Apache KAFKA, articulation NIFI et KAFKA, Apache STORM, langage (agnostique), articulation KAFKA et STORM, comparatif STORM / SPARK
  • Déploiement d’un projet Big Data : Cloud Computing , 5 caractéristiques essentielles, 3 modèles de services, modes (SaaS , PaaS, IaaS), Hadoop : exemples d'usages types, écosystème, fonctions cœurs, système de stockage HDFS, Map Reduce, infrastructure YARN, distributions Hadoop
  • La gouvernance des données Big Data : outils de gouvernance Big Data, les 3 piliers, le management de la qualité des données, le management des métadonnées Big Data, management de la sécurité, de la conformité et la confidentialité

2 - Data Mining et Machine Learning (3j)

  • Objectif : Maîtriser le Data Mining et le Machine Learning pour explorer de très importants volumes de données et construire des modèles répondant aux problèmes très variés des entreprises lorsque les méthodes statistiques traditionnelles deviennent inopérantes
  • Introduction : Data Mining vs Big Data, Data Mining vs Machine Learning vs Deep Learning, apprentissage supervisé vs Apprentissage non supervisé et méta-apprentissage
  • Ingénierie de la décision : analyse procédurale hiérarchique, problème d’association stable, chaîne de Markove discrète, jeu d’entraînement et jeu de test
  • Sélection d’instances : échantillonnages balancés et stratifié
  • : analyse en composantes principales, analyse d'affinité, agglomération hiérarchique & dendrogrammes, bagging de dendrogrammes, positionnement multidimensionnel, K-means, SVM
  • Machine Learning : régression logistique binaire, GLM, One-R, regroupements, arbres aléatoires, K-NN, détections automatiques d’interactions, analyses discriminantes, réseaux de neurones
  • Text Mining : analyse statistique de corpus, détection automatique de langues, de genres, nuage de mots, table de contingence de mots, analyse de sentiments, LSA
  • Big Data : gestion de gros volumes de données

3 - Big Data : mise en œuvre d'une solution complète d'analyse des données (4j)

  • Objectif : Savoir mettre en œuvre une solution complète de Big Data en environnement Hadoop et disposer des compétences nécessaires au traitement et à l’analyse des données
  • Collecter les données : sources, outils de collectes et de traitement, données semi-structurées et non-structurées
  • Stocker les données : les formes de stockage, technologies, données non structurées, écosystème Hadoop, infrastructure matérielle et logicielle, MapReduce, PIG, HIVE
  • Analyser les données : Requêter, analyse de données non structurées, analyse statistique et prédictive, tendances, programmes d’automatisation des analyses, Machine Learning, Deep Learning
  • Transformer les données en décisions : besoins utilisateurs, traduction en requêtes, vérification de la qualité des données, indice de confiance

4 - Big Data - Analyse, Data Visualization et Data Storytelling pour la restitution de données (2j)

  • Objectif : Etre en mesure de concevoir des modèles de documents adaptés aux besoins métiers de l’entreprise et savoir mettre en œuvre différentes techniques de visualisation graphique, de mise en récit et de présentation permettant de valoriser les données
  • Data Visualisation ou la découverte de la grammaire graphique : des chiffres aux graphiques, les 3 dimensions, présentation de Tableau Software, de l'idée d'un graphique à sa formalisation dans un outil
  • Data Storytelling : présentation, exemples, techniques de la mise en récit des données, Storytelling des idées et des données
  • Comment construire son histoire : Pitch, scénario, schéma narratif
  • Les outils : fonctions de Storytelling des outils de BI, le module Data Storytelling de Tableau Software, autres outils

Les + de cette formation

Chaque participant établit son propre planning de formation. En fonction de la date de début choisie parmi celles proposées ci-dessous, nos Conseillers Formation proposent différentes dates pour chacun des modules du cursus. Pour des raisons d’efficacité pédagogique, il est fortement recommandé de suivre les modules dans l’ordre présenté sur ce programme.
L’alternance de formations et de périodes de mise en pratique en entreprise favorise l’acquisition rapide et durable de nouveaux savoirs.
Animé par un expert spécialiste du sujet traité, chacun des 4 modules aborde un aspect spécifique de la thématique de formation.
A travers de nombreuses mises en situation, les participants mettront en pratique les aspects théoriques abordés au cours des différentes étapes du cursus.