Introduction à Spark
Apache Spark est un framework open source de calcul distribué en mémoire permettant le traitement de grands volumes. Le but de cette formation est de présenter le framework Spark et d'apprendre à l'utiliser avec le langage Python pour traiter des problèmes de Big Data.
Objectifs
- Comprendre le principe de fonctionnement de Spark
- Apprendre à utiliser l'API PySpark pour interagir avec Spark en Python
- Apprendre à utiliser les méthodes de Machine Learning avec la librairie MLlib de Spark
- Apprendre à traiter les flux de données avec Spark Streaming
- Apprendre à manipuler les données avec Spark SQL
Public
- Développeur, Data Analyst, Data Scientists, Architectes Big Data et toute autre personne souhaitant acquérir des connaissances dans le domaine de la Data Science et sur Spark
Prérequis
- Une première expérience en programmation Python, avoir des connaissances en SQL, avoir des connaissances en mathématiques et statistiques.