Recherche avancée
Par formation
Par date
Par ville
logo HUB Formation
Organisme de Formation
aux Technologies et métiers de L'informatique
La pédagogie au service de la technologie
Accueil > Domaines > Big Data > Big Data : l'état de l'art

Big Data : l'état de l'art

Concepts, outils, mise en place, meilleures pratiques.

Big Data s’impose comme l’une des évolutions majeures des Systèmes d’Information, à la fois sur les plans métiers, fonctionnels et technologiques. Big Data est un écosystème riche et complexe que les DSI et Directions Métier doivent maîtriser pour accompagner la transformation Data des entreprises.

Objectifs

  • Hadoop, Spark, In-Memory, MPP, NoSQL, NewSQL : les architectures à mettre en place.
  • Data Science, Machine Learning, Deep Learning, IA, DataViz, Cloud : les compétences et les technologies à maîtriser.
  • Hadoop 2, Hadoop 3, Cassandra, MongoDB, Storm, Impala… : comment tirer parti des évolutions technologiques ?
  • Modélisation, architecture, conception : les outils et les meilleures pratiques du marché.
  • Comment mener un projet Big Data, en tenant compte de l’innovation technologique ?
  • RGPD, règlement e-privacy, Anonymisation, Privacy by Design : quelles implications les nouvelles réglementations auront sur le traitement des données ?
  • Big Data : les nouveaux métiers qui apparaissent en ce moment sur le marché. Quel avenir pour nos métiers historiques ?

Public

  • Directions informatiques et directions métiers
  • (Marketing,Commerciale,Innovation, etc.).

Programme de la formation

Big Data, quelles opportunités pour la DSI ?

  • Big Data et la performance de l’entreprise
  • « Buzzword » à ces début, quel définition pragmatique pouvons-nous donner aujourd’hui au Big Data ?
  • Clients, produits, processus, infrastructures : les nouveaux enjeux de performance des entreprises.
  • L’analyse des données au service de la performance : comment identifier les nouveaux leviers de performance ?
  • En quoi Big Data est un enjeu de performance pour les entreprises et les organisations ?
  • Étude de cas réel.

Rôle de la DSI dans le Big Data

  • La DSI comme fournisseur de services IT ou fournisseur de données à valeur ajoutée ?
  • Quelles sont les notions de Data Lake, Data Hub et de Data Lab
  • Comment, concrètement, le DSI peut-il saisir l’opportunité Big Data ?
  • Quels sont les nouveaux challenges pour la DSI ?
  • Comment travailler conjointement entre une direction Métier et la DSI ?

Création de valeur à partir des données

  • Comment identifier les données à valeur ajoutée ?
  • Comment tirer profit des données clients, produits ou de suivi ?
  • Grille d’analyse de la valeur des données et des objectifs d’analyse.
  • Étude de cas.

L’analyse des données

  •   Ce chapitre synthétise, de façon accessible, les techniques d’analyse des données indispensables au Big Data.

  • Evolutions du Data Mining vers le Machine Learning
  • Les principales évolutions du Data Mining vers le Machine Learning et le Deep Learning.
  • Le Machine Learning : arbre de décision, règle d’association, Support Vector Machines.
  • Les spécificités du Machine Learning pour le Big Data : haute dimension, occurrences élevées.
  • Les meilleures pratiques pour le Machine Learning : Cross Validation, Grid Search, Semi-Supervision.
  • Domaines d’application privilégiés : marketing, finance, e-commerce, transport, ressources humaines.

Sources de données publiques et privées

  • Quelles sont les sources de données internes, externes, gratuites, payantes à exploiter?
  • Comment exploiter les données des réseaux sociaux ? Qu’est-ce que le Data Sourcing?

  • Comment exploiter les données des objets connectés ?
  • Comment croiser données publiques et privées ?
  • Comment utiliser les données provenant du Web ?

Le cadre juridique des données

  • Les données identifiantes et à caractère personnel.
  • Les obligations légales des entreprises. Pseudonymisation, anonymisation de facteur k et differential privacy.
  • La propriété intellectuelle des données dans le cadre du Big Data.
  • L’évolution du cadre légal européen.
  • GDPR, où en sont les entreprises ?
  • Ethique des algorithmes, sujet d’avenir.

Visualisation des données à valeur ajoutée

  • Les limites des outils traditionnels d’analyse de données : Excel, BO, etc.
  • Comment représenter efficacement des données analytiques ?
  • Les outils et composants de visualisation des données Big Data.

Les architectures Big Data  

  • Le fondement des architectures Big Data
  • Quelles sont les évolutions technologiques qui révolutionnent l’architecture technique ?
  • Quelles sont les contraintes techniques ? Performance, scalabilité, disponibilité.
  • Les caractéristiques d’une architecture Big Data hautement performante.

Panorama des nouvelles solutions Big Data

  • Architecture orientée stockage : Hadoop, Spark, MPP.
  • Architecture orientée calcul : Grid Computing, GPU, Many Core.
  • Architecture orientée temps réel: NoSQL, NewSQL.
  • Architecture orientée évènementiel : CEP, ESP, Storm, Flink.
  • Hadoop : Description et évolutions.

Typologie des architectures Big Data

  • Comment positionner un système Big Data dans le SI ?
  • Composants Big Data : Data Lake, Data Lab, Data Hub ?
  • Qu’est-ce que la Lambda Architecture (puis la Kappa et Zeta architecture) ?
  • Déploiement physique, appliance ou Cloud Big Data ?

Le stockage des Big Data, le Data Lake  

  • Technologies de stockage distribué
  • La technologie HDFS : principes et fonctionnement.
  • La granularité de cohérence des données : les différents niveaux de cohérence.
  • Quel dimensionnement ? Serveurs, RAM, CPU, disques, réseau.

Manipulation et extraction des données

  • Outils de requêtage et de traitement Hadoop MapReduce.
  • Performance et limites du MapReduce.
  • Manipulation interactive : Impala, SparkSQL, MPP, Vertical distribué.

Le transactionnel Big Data NoSQL et NewSQL

  • Les principales bases NoSQL : Cassandra, MongoDB, Redis Neo4j.
  • Traitements analytiques en temps réel ? Fusionner Big Data et Fast Data.
  • Panorama des solutions NewSQL : VoltDB, Aerospike, NuoDB.

Le traitement des Big Data, le Data Lab  

  • Programmation parallèle MapReduce
  • Fondamentaux du traitement MapReduce.
  • Fonctionnement MapReduce dans Hadoop.
  • Points de vigilance et administration.

Machine Learning en environnement parallèle

  • Les contraintes de parallélisme des algorithmes de Machine Learning.
  • Les librairies de Machine Learning : Spark MLlib, Mahout, Hama, Scikit Learn, R.
  • Étude de cas.

Traitements des données non structurées

  • Les types de données non structurées : message, document, semi-structuré.
  • Les principes de l’analyse sémantique : sentiment, univers, corrélation.
  • Les principes de l’analyse des images pour le Machine Learning.
  • Étude de cas.

La méthodologie pour un projet Big Data  

  • Le cadrage des projets Big Data
  • Les différentes facettes à cadrer des projets Big Data.
  • Comment intégrer l’incertitude au Business Case projet ?
  • Comment estimer le budget et le délai d’un projet Big Data Analytics ?

Le management des projets de Big Data Analytics

  • Une approche projet nécessairement agile.
  • Comment manager un projet Big Data ?
  • Les étapes d’un projet Big Data phase par phase.

L’organisation des projets Big Data Analytics

  • Quels sont les nouveaux métiers du Big Data?
  • Quelle gouvernance pour le Big Data ?
  • Les différentes formes d’organisation. Retours d’expérience.
  • Comment recruter et organiser la montée en compétences des équipes.