Recherche avancée
Par formation
Par date
Par ville
logo HUB Formation
Organisme de Formation
aux Technologies et métiers de L'informatique
La pédagogie au service de la technologie
> > > Data Analyse Pig, Hive et Spark

Data Analyse Pig, Hive et Spark

Cette formation permet aux participants d'acquérir les compétences et connaissances nécessaires pour utiliser les outils permettant de traiter et d'analyser des données sur Hadoop. Elle leur permettra de développer des compétences en analyse de données en se focalisant sur Pig, Hive et Spark.

Objectifs

  • Comprendre ce que sont Hadoop et YARN
  • Pouvoir manipuler des données sous Hadoop
  • Savoir manipuler les données PIG
  • Savoir analyser les données avec HIVE

Public

  • Cette formation s'adresse à toute personne souhaitant manipuler et analyser des données dans un système Hadoop.

Prérequis

  • Avoir des connaissances sur les systèmes d'information, les bases de données et lesconcepts de programmation.

Programme de la formation

Introduction

  • Introduction au Big Data - Comprendre les concepts clés et les enjeux du Big Data
  • Introduction à Hadoop – Principales distributions de Hadoop
  • La plateforme Hadoop

Architecture et composants de la plateforme Hadoop

  • NameNode / DataNode / RessourceManager
  • Paradigme MapReduce et YARN
  • Les technologies émergentes

Traitement des données avec Pig

  • Description et caractéristiques de Pig : Présentation Pig, Différence entre Pig et MapReduce, Cas d'utilisation de Pig
  • Traitement des données : Modélisation des données, Programmation avec Pig Latin, Transformations dans la syntaxe Pig Latin, Fonctions de chargement et de stockage
  • Travaux pratiques

Requêtage des données avec Hive

  • Description et caractéristiques de Hive
  • Utilisation de Hcatalog
  • Analyse des données avec Hive
  • Management des données Hive : Formats de données Hive, Création des bases de données et des tableaux de management, Tableaux auto-managés, Simplification des requêtes avec Views, Stockage des résultats de requêtes, Contrôle ‘accès aux données
  • Traitement de texte avec Hive : Fonctions String, Utilisation des expressions habituelles dans Hive

Apache Spark SQL

  • Présentation générale
  • Caractéristiques – Architecture
  • Les bases de Spark
  • DataFrame et DataSets
  • Les RDD
  • Le SQL Contexte
  • Opérations sur le DataFrames et les DataSets
  • Comparaison entre Spark SQL et Hive