Recherche avancée
Par formation
Par date
Par ville
logo HUB Formation
Organisme de Formation
aux Technologies et métiers de L'informatique
La pédagogie au service de la technologie
> > > Data Analyst - Analyse de données en environnement Hadoop

Data Analyst - Analyse de données en environnement Hadoop

BIG DATA LES DISTRIBUTIONS HADOOP

Objectifs

  • Cette formation Data Analyst –Analyse de données en environnement Hadoop vous permettra de savoir:
  • Comment Hadoop Distributed File System (HDFS) et YARN/MapReduce fonctionnent
  • Comment explorer HDFS
  • Comment suivre l’exécution d’une application YARN
  • Comment fonctionnent et comment utiliser les différents outils de manipulation de la donnée :
  • Hue : Utilisation de l’interface unifiée
  • Hive, Pig : Les générateurs de MapReduce
  • Tez : L’optimisation des générateurs de MapReduce
  • Sqoop : Comment importer les données de l’entreprise dans un cluster Hadoop?
  • Oozie : Comment organiser les exécutions des différentes applications ?

Public

  • Cette formation Data Analyst - Analyse de données en environnement Hadoop est destinée aux personnes qui devront manipuler les données dans un cluster Apache Hadoop.

Prérequis

  • Cette formation Data Analyst - Analyse de données en environnement Hadoop nécessite d'avoir une expérience dans la manipulation de données.
  • Une connaissance préliminaire d’Hadoop n’est pas exigée.

Programme de la formation

INTRODUCTION

  • Présentation générale d’Hadoop 
  • Exemples d’utilisation dans différents secteurs
  • Historique et chiffres clés : Quand parle-t-on de Big Data ?

L’ECOSYSTEME D’HADOOP

  • Le système de fichier HDFS 
  • Le paradigme MapReduce et l’utilisation à travers YARN

MANIPULATION DES DONNEES DANS UN CLUSTER HADOOP

  • Hue : Comment fonctionne cette interface web ? 
  • Hive : Pourquoi Hive n’est pas une base de données ?
  • Requête sur Hive 
  • Utilisation de HCatalog
  • Utilisation avancée sur Hive 
  • Utilisation de fonctions utilisateurs
  • Paramétrage de requête 
  • Pig : Fonctionnement de Pig
  • Programmation avec Pig Latin 
  • Utilisation du mode Local
  • Utilisation de fonctions utilisateurs 
  • Tez : Qu’est-ce que Tez ?
  • Comment et quand l’utiliser ? 
  • Oozie : Fonctionnement de Oozie
  • Création de Workflows avec Oozie 
  • Manipulation des workflows
  • Ajout d’éléments d’exploitation dans les workflows 
  • Ajout de conditions d’exécution
  • Paramétrage des workflows 
  • Sqoop : A quoi sert Sqoop ?
  • Chargement des données depuis une base de données relationnelle 
  • Chargement des données depuis Hadoop
  • Utilisation et paramétrage avancée 
  • Les particularités des distributions : Impala, Hawq
  • Quelles sont les bonnes pratiques d’utilisation des différents outils ?