Recherche avancée
Par formation
Par date
Par ville
logo HUB Formation
Organisme de Formation
aux Technologies et métiers de L'informatique
La pédagogie au service de la technologie
Accueil > éditeurs > Microsoft > Réaliser de l'ingénierie de données avec Microsoft HDInsight

Réaliser de l'ingénierie de données avec Microsoft HDInsight

les outils de restitution & de visualisation ibm cognos bi- microsoft cours officiels

microsoft

Objectifs

  • planifier et mettre en œuvre de grands flux de données sur HDInsight

Public

  • Ingénieurs de données
  • Architectes de données
  •  Data Scientists
  • Développeurs de données

Prérequis

  • Expérience de programmation R et être familiarisé avec les paquets R communs ;
  • Connaissance des méthodes statistiques communes et des meilleures pratiques d'analyse de données ;
  • Connaissances de base du système d'exploitation Microsoft Windows et de ses fonctionnalités principales ;
  • Connaissance pratique des bases de données relationnelles.

Programme de la formation

Démarrer avec HDInsight

  • Que sont les Big Data ? 
  • Introduction à Hadoop
  • Travailler avec les fonctions de MapReduce 
  • Présentation de HDInsight

Déployer des clusters HDInsight

  • Identification des types de cluster HDInsight 
  • Gestion des clusters HDInsight en utilisant le portail Azure
  • Gestion des clusters HDInsight en utilisant Azure PowerShell

Autoriser les utilisateurs à accéder aux ressources

  • Clusters non connectés au domaine 
  • Configuration de clusters HDInsight connectés au domaine
  • Gestion des clusters HDInsight connectés au domaine

Charger des données dans HDInsight

  • Stockage des données pour le traitement HDInsight 
  • Utilisation des outils de chargement de données
  • Maximiser la valeur des données stockées

Dépanner HDInsight

  • Analyse des journaux HDInsight 
  • YARN logs
  • Heap dumps 
  • Operations Management Suit

Mettre en œuvre des solutions par lot

  • Stockage Apache Hive 
  • Requêtes de données HDInsight utilisant Hive and Pig
  • Opérations HDInsight

Concevoir des solutions ETL par lot pour de grands volumes de données avec Spark

  • Qu'est-ce que Spark ? 
  • ETL avec Spark
  • Performance de Spark

Analyser les données avec Spark SQL

  • Implémentation de requêtes itératives et interactives 
  • Effectuer une analyse de données exploratoires

Analyser les données avec Hive et Phoenix

  • Mettre en place des requêtes interactives pour les grandes données avec Hive 
  • Effectuer une analyse de données exploratoires à l'aide de Hive
  • Effectuer un traitement interactif en utilisant Apache Phoenix

Analyse de flux

  • Analyse de flux 
  • Processus de diffusion des données à partir de l'analyse des flux
  • Gérer les travaux d'analyse de flux

Implémenter des solutions en streaming avec Kafka et Hbase

  • Création et déploiement d'un cluster Kafka 
  • Publication, consommation et traitement des données à l'aide du Cluster Kafka
  • Utilisation de HBase pour stocker et rechercher des données

Développer de grandes solutions de traitement en temps réel avec Apache Storm

  • Péréniser les données sur le long terme 
  • Transmission des données avec Storm
  • Création de topologies Storm 
  • Configurer Apache Storm