Recherche avancée
Par formation
Par date
Par ville
logo HUB Formation
Organisme de Formation
aux Technologies et métiers de L'informatique
La pédagogie au service de la technologie
Accueil > éditeurs > Hadoop > Analyse de données pour Hadoop 2.X Hortonworks avec Pig et Hive

Analyse de données pour Hadoop 2.X Hortonworks avec Pig et Hive

Formation Hadoop officielle Hortonworks "HDP Developer: Apache Pig and Hive"

hadoop

Cette formation présente les grands outils de l’écosystème Hadoop en se focalisant plus spécifiquement sur Pig et Hive (une demi-journée est également consacrée à Spark). Le principal objectif est le développement de compétences de data analyst orientées accès et traitement des données sans nécessairement avoir un fort background technique.

Objectifs

  • Identifier et définir les différents composants de l’écosystème Hadoop
  • Appréhender l’architecture de Hadoop 2.X
  • Expérimenter les outils d’exploration et d’analyse avancée de données

Public

  • Analyste
  • Statisticien
  • Développeur

Prérequis

  • Connaissances de base en scripting (SQL, Python, R) ou en programmation.

Programme de la formation

Jour 1

Comprendre Hadoop 2.X

  • L’architecture de Hadoop 2.X
  • The Hortonworks Data Platform (HDP)

Le système de fichiers distribué HDFS

  • Architecture fonctionnelle de HDFS
  • Exercice d’interaction en ligne de commande avec HDFS

Alimenter HDFS en données

  • Prise en main de l’outil Flume
  • Prise en main de l’outil Sqoop
  • Application de ces deux outils d’import et d’export des données

Le framework MapReduce

  • Architecture et fonctionnement général de MapReduce
  • Exemples d’utilisation d’un job MapReduce
  • Présentation de Hadoop Streaming

Jour 2

Introduction à Pig

  • Types et mots-clés dans Pig
  • Exploration de données avec Pig

Programmation Pig avancée

  • Mots-clés et fonctionnalités avancées dans Pig
  • Jointures dans Pig
  • Astuces d’optimisation de scripts Pig
  • Analyse de cas d’usages métier divers avec Pig

Jour 3

Programmation Hive

  • Types et mots-clés dans Hive
  • Concept de table et base de données dans Hive
  • Présentation et explication des types de jointures
  • Démonstration de jointures
  • Analyse de cas d’usages métier

Utiliser HCatalog

  • Fonctionnement et utilisation de HCatalog
  • Démonstration du fonctionnement de HCatalog

Jour 4

Programmation Hive Avancée

  • Les vues dans Hive
  • Les différents formats de stockage des tables Hive
  • Optimisation de scripts Hive
  • Illustration des fonctions avancées

Hadoop 2.X et YARN

  • Architecture de YARN
  • Démonstration d’une application YARN

Apache Spark

  • Introduction à Spark
  • Programmation Spark (RDD, programmation fonctionnelle)
  • Ecriture d’un job Spark en Python
  • Spark SQL et les DataFrames
  • Utilisation de Spark SQL et des DataFrames sur des tables Hive et des fichiers HDFS

Créer et utiliser un workflow Oozie

  • Workflow et coordinateur Oozie
  • Actions possibles avec Oozie

Méthode pédagogique

Formation mêlant des apports théoriques à de nombreux travaux pratiques sous forme d’exercices d’application et d’analyse de uses cases métier complétés des retours d’expérience du formateur.

L'évaluation des acquis se fait tout au long de la session au travers des ateliers et des mises en pratique. Une évaluation à chaud sur la satisfaction des stagiaires est réalisée systématiquement en fin de session et une attestation de formation est délivrée aux participants mentionnant les objectifs de la formation, la nature, le programme et la durée de l'action de formation ainsi que la formalisation des acquis.