Recherche avancée
Par formation
Par date
Par ville
logo HUB Formation
Organisme de Formation
aux Technologies et métiers de L'informatique
La pédagogie au service de la technologie
Accueil > Domaines > Big Data > Architectures de données Big Data : de Hadoop au NoSQL

Architectures de données Big Data : de Hadoop au NoSQL

concepts, techniques, approches.

Le Big Data bouleverse profondément la gestion traditionnelle de données avec de nouvelles solutions et technologies, adaptées à différents besoins. Afin d’aider à se repérer dans un paysage complexe et à faire les choix stratégiques, ce séminaire fait le point sur les architectures de données Big Data et les meilleures pratiques.

Objectifs

  • Big Data : quels enjeux ? Quels retours d’expériences en entreprise ? Quels sont les meilleurs cas d’utilisation dans l’industrie ? Impact du RGPD sur les données personnelles ?
  • Architectures Big Data : pourquoi de nouvelles approches ? Que dit le théorème CAP ? Différences avec les SGBD relationnels ?
  • Architectures de stockage : objet ou fichier ? Pour quels besoins ?
  • Indexation et recherche de Big Data : comment fonctionnent les moteurs de recherche ?
  • Architectures massivement parallèles : SGBD vs Framework de programmation ? Comment les associer ? Impact du in-memory ?
  • Nouveaux modèles de données : clé-valeur, table, document, graphe, stream. La fin de l’approche taille unique du relationnel ? Impact du Big Data sur l’existant ?
  • SGBD NoSQL : critères de choix ? Comment allier relationnel et NoSQL ? Quid du NewSQL ?
  • Intégration de données : comment intégrer le Big Data avec les données du SI ? Data Warehouse vs Data Lake ?
  • Projets Big Data : quelle méthodologie ?

Public

  • Décideurs informatiques,
  • architectes,
  • consultants,
  • ingénieurs et chefs de projets,
  • responsables fonctionnels,
  • maîtrises d’ouvrage.

Prérequis

  • Connaissances de base en Systèmes d’Information.

Programme de la formation

Big Data : opportunités et enjeux  

  • Evolution vers une science des données
  • Le continuum de la compréhension : données, informations, connaissances, sagesse.
  • Les cinq « V » du Big Data : Volume, Variété, Vélocité, Véracité, Validité.
  • Données structurées : transactionnelles, décisionnelles, référentielles, scientifiques, etc.
  • Données non structurées : Web, documents, réseaux sociaux, Linked Open Data, IoT, etc.
  • Machine Learning et Data Analytics.

Les enjeux pour l’entreprise

  • Enjeux techniques : maîtrise du cycle de vie des données, réactivité face aux flux de données temps réel, protection des données personnelles, impact du RGPD.
  • Enjeux stratégiques : mesure de la performance, exploration des données, analyse des comportements sociaux, expérimentation de nouvelles questions.
  • Quels sont les meilleurs cas d’utilisation dans l’industrie ?
  • Quelle stratégie Big Data mettre en place ? Quel impact sur la gouvernance des données ?
  • Succès et échecs de projets Big Data.

Architectures parallèles

  • La nouvelle hiérarchie de mémoires : RAM, flash, disque SSD, disque HDD.
  • Un teraoctet de RAM sur un chip : l’avènement du traitement de données in-memory ?
  • Processeurs multicœurs, la combinaison CPU/GPU, la nouvelle hiérarchie du calcul parallèle.
  • Les architectures massivement parallèles (MPP) : speed-up, scale-up, scale-out, élasticité.
  • Architectures pour Big Data structuré  

Architectures de gestion de données parallèles

  • La pile logicielle du SGBD SQL : requêtes décisionnelles et transactions.
  • Parallélisme de données : interrequête, interopération, intraopération, pipeline.
  • Le stockage en cluster: DAS vs NAS vs SAN.
  • Architectures parallèles : Cluster Shared Disk vs Shared Nothing.

Techniques distribuées et parallèles

  • Organisation des données : stockage en ligne ou en colonne, Sharding, indexation.
  • Transactions distribuées : modèle ACID, protocole 2PC, tolérance aux pannes et scalabilité.
  • Réplication de données : cohérence des copies, propagation des mises à jour.
  • Haute disponibilité et tolérance aux pannes : le Failover, les points de sauvegarde pour requêtes lourdes.
  • Parallélisation des requêtes, optimisation et équilibrage de charge.

SGBD parallèles

  • Produits principaux : Actian, IBM, Microsoft, Oracle Exadata, MySQL Cluster, SAP Sybase, Teradata, HP Vertica, ParAccel, EMC GreenPlum.
  • Étude de cas Walmart : la Base de Données Teradata.
  • Architectures pour Big Data non structuré  

Motivations

  • La fin de l’approche « taille unique » du relationnel.
  • Architecture scalable dans le Cloud.
  • Le théorème CAP : analyse et impact.

La pile logicielle Big Data

  • Les niveaux fonctionnels : stockage, organisation, traitement, intégration, indexation et analyse.
  • La gestion de clusters.
  • L’architecture Hadoop, comparaison avec les architectures Lambda et Kappa.
  • Comparaison avec les SGBD relationnels.

Stockage d’objets

  • Objectifs : objets volumineux, faciles à transférer sur Internet.
  • Architecture : OID, métadonnées, objets distribués.
  • Services dans le Cloud : Amazon Web Services S3, Rackspace, Microsoft Azure, Google Cloud Storage.

Stockage en fichiers distribués

  • Objectifs : très grands fichiers dans un Cluster, tolérance aux fautes, parallélisme.
  • Architecture : métadonnées, partitionnement et réplication, optimisations.
  • Systèmes de fichiers distribués : Hadoop HDFS, Google File System, IBM GPFS, GlusterFS, Lustre.

Indexation et recherche d’information

  • Techniques : index, fichiers inverses, index multidimensionnels, recherche par mot-clé, recherche par contenu.
  • Moteurs de recherche: Bing, Google Search, ElasticSearch, Exalead, Lucene, Indexma, Qwant, Splink.
  • Étude de cas Google Search: l’algorithme PageRank, l’architecture en Cluster Shared Nothing.
  • SGBD NoSQL  

SGBD clé-valeur

  • Gestion de l’accès sur clé, parallélisme, tolérance aux fautes.
  • Systèmes clé-valeur : Amazon DynamoDB, Amazon SimpleDB, Apache Cassandra, Linkedin Voldemort.
  • Étude de cas Orange : supervision de réseau avec Cassandra.

SGBD grandes tables

  • Modèle de données : table, orienté ligne/colonne, opérateurs ensemblistes.
  • Exemples : Google Bigtable sur GFS, Hadoop Hbase sur HDFS, Apache Accumulo.
  • Étude de cas Scaled Risk: Hbase dans les services financiers.

SGBD documents

  • Modèles XML et JSON, langages de requêtes: XQuery, SQL/XML, JSONiq, Json Query, Jaql.
  • SGBD XML : BerkeleyDB XML, DB2 pureXML, EMC X-Hive/DB, Apache Xindice, etc.
  • SGBD JSON : MongoDB, CouchBase, LinkedIn Espresso, etc.
  • XML/JSON dans les SGBD relationnels : IBM DB2, Oracle, SQLServer, SAP Sybase, MySQL, PostgreSQL.
  • Étude de cas MetLife : vue 360° des assurés avec MongoDB.

SGBD graphes

  • Modèle de données : graphe, RDF, opérateurs de parcours de graphes, langages de requêtes.
  • Exemples : Neo4J, DEX/Sparksee, AllegroGraph, InfiniteGraph, IBM DB2 Sparql.
  • Étude de cas GameSys : intégration sociale et jeux en ligne avec Neo4J.

SGBD NewSQL

  • Le relâchement de la cohérence : problèmes pour les développeurs et les utilisateurs.
  • NoSQL vs relationnel. L’intégration SQL/NoSQL.
  • Les SGBD NewSQL : Google F1, CockroachDB, LeanXcale, MemSQL, SAP HANA, VoltDB.
  • Étude de cas Google : gestion de la base AdWords avec F1.
  • Frameworks de programmation Big Data  

Le framework MapReduce

  • Objectifs : analyse de Big Data en mode batch.
  • Le modèle de données clé-valeur, les fonctions Map et Reduce, partitionnement des fichiers.
  • Architecture : tolérance aux fautes et équilibrage de charge.

L’écosystème Hadoop

  • Les fondements : HDFS, Yarn, MapReduce.
  • Les outils : Pig (interface Workflows), Hive (interface SQL).
  • Editeurs : Cloudera, Datameer, Datastax, Greenplum HD, Hurence, Hortonworks, Talend, VMware.

Traitement des flux de données

  • Les concepts : Data Streams, requêtes continues, données temporaires, fenêtre glissante.
  • Les outils : InfoSphere Streams, Kafka, Parstream, Samza, Storm, Streambase, StreamInsight.
  • Étude de cas Beymani : détection de fraude en temps réel.

Le framework Spark

  • Objectifs : analyse de Big Data en mode interactif et itératif.
  • Extensions du modèle MapReduce : le langage Scala, transformations et actions, Resilient Distributed Datasets.
  • Les outils : Spark SQL, Spark Streaming, MLlib (Machine Learning), GraphX (graphes).
  • Editeurs : Data Bricks, Apache, Cloudera, Amazon EC2, Hortonworks.

Traitement des graphes

  • Le modèle de calcul de graphes de Google Pregel.
  • Étude de cas Facebook : gérer 1 000 milliards de liens avec Apache Giraph.
  • Architectures d’intégration de Big Data  

Intégration de données hétérogènes

  • Intégration réelle (Data Warehouse) ou virtuelle (fédérateur de données).
  • Médiateur, adaptateur et ETL.
  • Intégration de schémas et d’ontologies : les conflits sémantiques, le problème de la résolution d’entité.
  • Qualité des données, nettoyage, MDM.
  • L’offre produits et services.

Intégration du Big Data dans un Data Warehouse

  • Nouveaux besoins en acquisition, organisation, analyse.
  • Place de Hadoop dans une architecture d’intégration, les ETL comme Splunk.
  • Exemples : HadoopDB, Microsoft HDInsight et Polybase, IBM InfoSphere BigInsights, Oracle Big Data Appliance.

Le data lake

  • Problèmes avec les entrepôts de données : développement avec ETL, schéma en écriture.
  • Apports : schéma en lecture, traitement de données Multiworkload, ROI.
  • Enterprise Hadoop : intégration, sécurité et gouvernance avec Hadoop.
  • Étude de cas dans le commerce de détail : performance du marketing ciblé.

Méthodologie pour un projet Big Data

  • Stratégie : objectifs métiers, besoins en données, qualité des données.
  • Equipe : rôles et compétences, cadre pour la gouvernance des données.
  • Outils : le choix de développer du code ou utiliser.
  • Processus : évolutivité et réutilisation.
  • Architecture : de la sandbox à l’architecture idéale.
  • Meilleures pratiques.

Méthode pédagogique

Un support de cours est remis à chaque participant. La théorie est complétée par des cas pratiques ou exercices discutés avec le formateur.

Méthode d'évaluation

Le cours est agrémenté de questions et mises en situation pour maximiser l'apprentissage. A l'issue de la formation, un questionnaire de satisfaction sera à compléter en ligne.