Organisme de Formation aux technologies et métiers de L'informatique

Formation Spark, développer des applications pour le Big Data

Informations générales

CB037
3 jours (21h)
2 420 €HT
69 €HT (en option)

Objectifs

Dans ce cours, vous apprendrez à :

  • Comprendre le fonctionnement de Spark et son utilisation dans un environnement Hadoop.
  • Savoir intégrer Spark dans un environnement Hadoop, traiter des données Cassandra, HBase, Kafka, Flume, Sqoop, S3.
  • Prépare l'examen "Certification Hadoop avec Spark pour développeur de Cloudera"

Public

Ce cours s'adresse avant tout aux personnes suivantes :

  • Chefs de projet, data scientists, développeurs.

Prérequis

Pour suivre ce cours, vous devez déjà posséder les connaissances suivantes :

  • Connaissances de Java ou Python, notions de calculs statistiques
  • Avoir des bases de Hadoop

Programme de la formation

Introduction

  • Présentation Spark, origine du projet,apports, principe de fonctionnement.Langages supportés.

Premiers pas

  • Utilisation du shell Spark avec Scala ou Python.Modes de fonctionnement. Interprété, compilé.
  • Utilisation des outils de construction. Gestion des versions de bibliothèques.

Règles de développement

  • Mise en pratique en Java, Scala et Python.Notion de contexte Spark
  • Différentes méthodes de création des RDD : depuis un fichier texte, un stockage externe.
  • Manipulations sur les RDD (Resilient Distributed Dataset).Fonctions, gestion de la persistence.

Cluster

  • Différents cluster managers : Spark en autonome, avec Mesos, avec Yarn, avec Amazon EC2
  • Architecture : SparkContext, Cluster Manager, Executor sur chaque noeud.Définitions : Driver program, Cluster manager, deploy mode, Executor, Task, Job
  • Mise en oeuvre avec Spark et Amazon EC2.Soumission de jobs, supervision depuis l'interface web

Traitements

  • Lecture/écriture de données : Texte, JSon, Parquet, HDFS, fichiers séquentiels.
  • Jointures. Filtrage de données, enrichissement.Calculs distribués de base. Introduction aux traitements de données avec map/reduce.
  • Travail sur les RDDs. Transformations et actions. Lazy execution. Impact du shuffle sur les performances.
  • RDD de base, key-pair RDDs.Variables partagées : accumulateurs et variables broadcast.

Intégration hadoop

  • Présentation de l'écosystème Hadoop de base : HDFS/Yarn.Travaux pratiques avec YARN
  • Création et exploitation d'un cluster Spark/YARN.Intégration de données sqoop, kafka, flume vers une architecture Hadoop.
  • Intégration de données AWS S3.

Support Cassandra

  • Description rapide de l'architecture Cassandra. Mise en oeuvre depuis Spark.Exécution de travaux Spark s'appuyant sur une grappe Cassandra.

DataFrames

  • Spark et SQL
  • Objectifs : traitement de données structurées,.L'API Dataset et DataFrames
  • Optimisation des requêtes.Mise en oeuvre des Dataframes et DataSet.Comptabilité Hive
  • Travaux pratiques: extraction, modification de données dans une base distribuée.Collections de données distribuées.Exemples.

Streaming

  • Objectifs , principe de fonctionnement : stream processing.Source de données : HDFS, Flume, Kafka, ...
  • Notion de StreamingContexte, DStreams, démonstrations.Travaux pratiques : traitement de flux DStreams en Scala.

Machine Learning

  • Fonctionnalités : Machine Learning avec Spark,algorithmes standards, gestion de la persistence, statistiques.
  • Support de RDD.Mise en oeuvre avec les DataFrames.

Spark GraphX

  • Fourniture d'algorithmes, d'opérateurs simples pour des calculs statistiques sur les graphes
  • Travaux pratiques : exemples d'opérations sur les graphes.
plus d'infos

Méthode pédagogique

Chaque participant travaille sur un poste informatique qui lui est dédié. Un support de cours lui est remis soit en début soit en fin de cours. La théorie est complétée par des cas pratiques ou exercices corrigés et discutés avec le formateur. Le formateur projette une présentation pour animer la formation et reste disponible pour répondre à toutes les questions.

Méthode d'évaluation

Tout au long de la formation, les exercices et mises en situation permettent de valider et contrôler les acquis du stagiaire. En fin de formation, le stagiaire complète un QCM d'auto-évaluation.

Mis à jour le 25/10/2023