Recherche avancée
Par formation
Par date
Par ville
logo HUB Formation
Organisme de Formation
aux Technologies et métiers de L'informatique
La pédagogie au service de la technologie
> > > Architectures de données Big Data : de Hadoop au NoSQL

Architectures de données Big Data : de Hadoop au NoSQL

concepts, techniques, approches.

Le Big Data bouleverse profondément la gestion traditionnelle de données avec de nouvelles solutions et technologies, adaptées à différents besoins. Afin d’aider à se repérer dans un paysage complexe et à faire les choix stratégiques, ce séminaire fait le point sur les architectures de données Big Data et les meilleures pratiques.

Objectifs

  • Big Data : quels enjeux ? Quels retours d’expériences en entreprise ? Quels sont les meilleurs cas d’utilisation dans l’industrie ? Impact du RGPD sur les données personnelles ?
  • Architectures Big Data : pourquoi de nouvelles approches ? Que dit le théorème CAP ? Différences avec les SGBD relationnels ?
  • Architectures de stockage : objet ou fichier ? Pour quels besoins ?
  • Indexation et recherche de Big Data : comment fonctionnent les moteurs de recherche ?
  • Architectures massivement parallèles : SGBD vs Framework de programmation ? Comment les associer ? Impact du in-memory ?
  • Nouveaux modèles de données : clé-valeur, table, document, graphe, stream. La fin de l’approche taille unique du relationnel ? Impact du Big Data sur l’existant ?
  • SGBD NoSQL : critères de choix ? Comment allier relationnel et NoSQL ? Quid du NewSQL ?
  • Intégration de données : comment intégrer le Big Data avec les données du SI ? Data Warehouse vs Data Lake ?
  • Projets Big Data : quelle méthodologie ?

Public

  • Décideurs informatiques,
  • architectes,
  • consultants,
  • ingénieurs et chefs de projets,
  • responsables fonctionnels,
  • maîtrises d’ouvrage.

Prérequis

  • Connaissances de base en Systèmes d’Information.

Programme de la formation

Big Data : opportunités et enjeux  

  • Evolution vers une science des données
  • Le continuum de la compréhension : données, informations, connaissances, sagesse.
  • Les cinq « V » du Big Data : Volume, Variété, Vélocité, Véracité, Validité.
  • Données structurées : transactionnelles, décisionnelles, référentielles, scientifiques, etc.
  • Données non structurées : Web, documents, réseaux sociaux, Linked Open Data, IoT, etc.
  • Machine Learning et Data Analytics.

Les enjeux pour l’entreprise

  • Enjeux techniques : maîtrise du cycle de vie des données, réactivité face aux flux de données temps réel, protection des données personnelles, impact du RGPD.
  • Enjeux stratégiques : mesure de la performance, exploration des données, analyse des comportements sociaux, expérimentation de nouvelles questions.
  • Quels sont les meilleurs cas d’utilisation dans l’industrie ?
  • Quelle stratégie Big Data mettre en place ? Quel impact sur la gouvernance des données ?
  • Succès et échecs de projets Big Data.

Architectures parallèles

  • La nouvelle hiérarchie de mémoires : RAM, flash, disque SSD, disque HDD.
  • Un teraoctet de RAM sur un chip : l’avènement du traitement de données in-memory ?
  • Processeurs multicœurs, la combinaison CPU/GPU, la nouvelle hiérarchie du calcul parallèle.
  • Les architectures massivement parallèles (MPP) : speed-up, scale-up, scale-out, élasticité.
  • Architectures pour Big Data structuré  

Architectures de gestion de données parallèles

  • La pile logicielle du SGBD SQL : requêtes décisionnelles et transactions.
  • Parallélisme de données : interrequête, interopération, intraopération, pipeline.
  • Le stockage en cluster: DAS vs NAS vs SAN.
  • Architectures parallèles : Cluster Shared Disk vs Shared Nothing.

Techniques distribuées et parallèles

  • Organisation des données : stockage en ligne ou en colonne, Sharding, indexation.
  • Transactions distribuées : modèle ACID, protocole 2PC, tolérance aux pannes et scalabilité.
  • Réplication de données : cohérence des copies, propagation des mises à jour.
  • Haute disponibilité et tolérance aux pannes : le Failover, les points de sauvegarde pour requêtes lourdes.
  • Parallélisation des requêtes, optimisation et équilibrage de charge.

SGBD parallèles

  • Produits principaux : Actian, IBM, Microsoft, Oracle Exadata, MySQL Cluster, SAP Sybase, Teradata, HP Vertica, ParAccel, EMC GreenPlum.
  • Étude de cas Walmart : la Base de Données Teradata.
  • Architectures pour Big Data non structuré  

Motivations

  • La fin de l’approche « taille unique » du relationnel.
  • Architecture scalable dans le Cloud.
  • Le théorème CAP : analyse et impact.

La pile logicielle Big Data

  • Les niveaux fonctionnels : stockage, organisation, traitement, intégration, indexation et analyse.
  • La gestion de clusters.
  • L’architecture Hadoop, comparaison avec les architectures Lambda et Kappa.
  • Comparaison avec les SGBD relationnels.

Stockage d’objets

  • Objectifs : objets volumineux, faciles à transférer sur Internet.
  • Architecture : OID, métadonnées, objets distribués.
  • Services dans le Cloud : Amazon Web Services S3, Rackspace, Microsoft Azure, Google Cloud Storage.

Stockage en fichiers distribués

  • Objectifs : très grands fichiers dans un Cluster, tolérance aux fautes, parallélisme.
  • Architecture : métadonnées, partitionnement et réplication, optimisations.
  • Systèmes de fichiers distribués : Hadoop HDFS, Google File System, IBM GPFS, GlusterFS, Lustre.

Indexation et recherche d’information

  • Techniques : index, fichiers inverses, index multidimensionnels, recherche par mot-clé, recherche par contenu.
  • Moteurs de recherche: Bing, Google Search, ElasticSearch, Exalead, Lucene, Indexma, Qwant, Splink.
  • Étude de cas Google Search: l’algorithme PageRank, l’architecture en Cluster Shared Nothing.
  • SGBD NoSQL  

SGBD clé-valeur

  • Gestion de l’accès sur clé, parallélisme, tolérance aux fautes.
  • Systèmes clé-valeur : Amazon DynamoDB, Amazon SimpleDB, Apache Cassandra, Linkedin Voldemort.
  • Étude de cas Orange : supervision de réseau avec Cassandra.

SGBD grandes tables

  • Modèle de données : table, orienté ligne/colonne, opérateurs ensemblistes.
  • Exemples : Google Bigtable sur GFS, Hadoop Hbase sur HDFS, Apache Accumulo.
  • Étude de cas Scaled Risk: Hbase dans les services financiers.

SGBD documents

  • Modèles XML et JSON, langages de requêtes: XQuery, SQL/XML, JSONiq, Json Query, Jaql.
  • SGBD XML : BerkeleyDB XML, DB2 pureXML, EMC X-Hive/DB, Apache Xindice, etc.
  • SGBD JSON : MongoDB, CouchBase, LinkedIn Espresso, etc.
  • XML/JSON dans les SGBD relationnels : IBM DB2, Oracle, SQLServer, SAP Sybase, MySQL, PostgreSQL.
  • Étude de cas MetLife : vue 360° des assurés avec MongoDB.

SGBD graphes

  • Modèle de données : graphe, RDF, opérateurs de parcours de graphes, langages de requêtes.
  • Exemples : Neo4J, DEX/Sparksee, AllegroGraph, InfiniteGraph, IBM DB2 Sparql.
  • Étude de cas GameSys : intégration sociale et jeux en ligne avec Neo4J.

SGBD NewSQL

  • Le relâchement de la cohérence : problèmes pour les développeurs et les utilisateurs.
  • NoSQL vs relationnel. L’intégration SQL/NoSQL.
  • Les SGBD NewSQL : Google F1, CockroachDB, LeanXcale, MemSQL, SAP HANA, VoltDB.
  • Étude de cas Google : gestion de la base AdWords avec F1.
  • Frameworks de programmation Big Data  

Le framework MapReduce

  • Objectifs : analyse de Big Data en mode batch.
  • Le modèle de données clé-valeur, les fonctions Map et Reduce, partitionnement des fichiers.
  • Architecture : tolérance aux fautes et équilibrage de charge.

L’écosystème Hadoop

  • Les fondements : HDFS, Yarn, MapReduce.
  • Les outils : Pig (interface Workflows), Hive (interface SQL).
  • Editeurs : Cloudera, Datameer, Datastax, Greenplum HD, Hurence, Hortonworks, Talend, VMware.

Traitement des flux de données

  • Les concepts : Data Streams, requêtes continues, données temporaires, fenêtre glissante.
  • Les outils : InfoSphere Streams, Kafka, Parstream, Samza, Storm, Streambase, StreamInsight.
  • Étude de cas Beymani : détection de fraude en temps réel.

Le framework Spark

  • Objectifs : analyse de Big Data en mode interactif et itératif.
  • Extensions du modèle MapReduce : le langage Scala, transformations et actions, Resilient Distributed Datasets.
  • Les outils : Spark SQL, Spark Streaming, MLlib (Machine Learning), GraphX (graphes).
  • Editeurs : Data Bricks, Apache, Cloudera, Amazon EC2, Hortonworks.

Traitement des graphes

  • Le modèle de calcul de graphes de Google Pregel.
  • Étude de cas Facebook : gérer 1 000 milliards de liens avec Apache Giraph.
  • Architectures d’intégration de Big Data  

Intégration de données hétérogènes

  • Intégration réelle (Data Warehouse) ou virtuelle (fédérateur de données).
  • Médiateur, adaptateur et ETL.
  • Intégration de schémas et d’ontologies : les conflits sémantiques, le problème de la résolution d’entité.
  • Qualité des données, nettoyage, MDM.
  • L’offre produits et services.

Intégration du Big Data dans un Data Warehouse

  • Nouveaux besoins en acquisition, organisation, analyse.
  • Place de Hadoop dans une architecture d’intégration, les ETL comme Splunk.
  • Exemples : HadoopDB, Microsoft HDInsight et Polybase, IBM InfoSphere BigInsights, Oracle Big Data Appliance.

Le data lake

  • Problèmes avec les entrepôts de données : développement avec ETL, schéma en écriture.
  • Apports : schéma en lecture, traitement de données Multiworkload, ROI.
  • Enterprise Hadoop : intégration, sécurité et gouvernance avec Hadoop.
  • Étude de cas dans le commerce de détail : performance du marketing ciblé.

Méthodologie pour un projet Big Data

  • Stratégie : objectifs métiers, besoins en données, qualité des données.
  • Equipe : rôles et compétences, cadre pour la gouvernance des données.
  • Outils : le choix de développer du code ou utiliser.
  • Processus : évolutivité et réutilisation.
  • Architecture : de la sandbox à l’architecture idéale.
  • Meilleures pratiques.