Recherche avancée
Par formation
Par date
Par ville
logo HUB Formation
Organisme de Formation
aux Technologies et métiers de L'informatique
La pédagogie au service de la technologie
> > > Programmation R pour Hadoop

Programmation R pour Hadoop

hadoop

Objectifs

  • Connaître les principales fonctions statistiques de R
  • Utiliser des programmes R dans un environnement Hadoop en s'appuyant sur le système distribué hdfs et le stockage avec HBase
  • Intégrer R à un environnement Hadoop

Public

  • Chefs de projets
  • Data Scientist
  • Développeurs

Prérequis

  • Connaissances de base en statistiques et en programmation

Programme de la formation

Présentation R

  • Le projet R Programming
  • Calculs statistiques et génération de graphiques
  • Points forts de R Programming
  • Besoins du BigData
  • Positionnement R programming par rapport à Hadoop

Mise en oeuvre de R

  • Travaux pratiques : installation et tests sur une plate-forme CentOS
  • Utilisation de R en mode commande.
  • Commandes de base. Syntaxe.
  • Manipulations de nombres,vecteurs,tableaux,matrices.listes,etc ..

Intégration Hadoop

  • Association de la puissance du calcul distribué fourni par les outils hadoop,
  • et de la richesse des outils d’analyse statistique de R.
  • Différents moyens d’intégration :
  • RHive : fonctions R de calculs statistiques s’appuyant sur HiveQL
  • RHadoop : packages rmr2,
  • rhdfs pour utiliser le système distribué hdfs depuis R,
  • rhbase pour accéder à HBase depuis les programmes en R

Travaux pratiques avec Hadoop

  • Installation d’un cluster,
  • rmr2:traduction programmes R en mapreduce,
  • rhdfs:API d’accès R à des données stockéss sur HDFS
  • rhbase:API d’accès à des données stockées sur HBase

Evolutions

  • Les acteurs : IBM avec BigInsights, Revolution R avec ScaleR