Formation Dataiku DSS - Prise en main de Data Science Studio
Informations générales
Objectifs
Après ce cours, vous serez capable de :
- Installer, configurer Dataiku DSS
- Utiliser Dataiku DSS depuis l'interface web ou des API
Public
Ce cours s'adresse avant tout aux personnes suivantes :
- Chefs de projet,développeurs, data-scientists, utilisateurs de Dataiku DSS
Prérequis
Pour suivre ce cours, vous devez déjà posséder les connaissances suivantes :
- Connaissance des principes de la manipulation de données et du machine learning.
Programme de la formation
Présentation, concepts DSS
- Mise à disposition des méthodes et outils de data-sciences à partir d'une interface graphique ou de langages de requêtage ou de programmation (Python, SQL, R)
- Notions de projet, data, dataset, recipes
- Premiers pas avec Dataiku DSS : exemples
Connexion aux données
- Connecteurs disponibles, formats de fichiers, formats spécifiques hadoop/Spark
- Chargement des fichiers, emplacement des fichiers,
- Système de fichiers, HDFS, Amazon S3, stockage Google Cloud, etc ...
- FTP, connexion ssh, connexion aux bases de données SQL
- Autres stockages : Cassandra, MongoDB, Elasticsearch, ...
Préparation des données
- Scripts de préparation, échantillonnage, exécution, les différents moteurs d'exécution: DSS, Spark, base de données SQL, , Spark
Graphiques et statistiques
- Présentation des types de graphiques disponibles et configuration
- Echantillonnage et exécution, graphiques de base, tables, nuages de points, visualisation cartographique, etc ...
- Réalisation d'exercices pratiques.
- Fonctionnalités statistiques disponibles, démonstrations
Machine learning
- apprentissage supervisé et non supervisé,
- algorithmes utilisés, scoring, deep learning, optimisation de modèles, ...
Flow/Recipes
- Interface graphique de gestion des cycles de traitement,des datasets, des traitements,paramètrage de l'exécution en parallèle, des données géographiques, export en format pdf ou images, etc ...
- Travaux pratiques
Interfaces de programmation
- Présentation des différentes interfaces : SQL, Python, R
- Exemples d'interrogations SQL et Python
- Interfaçage avec Spark
Méthode pédagogique
Chaque participant travaille sur un poste informatique qui lui est dédié. Un support de cours lui est remis soit en début soit en fin de cours. La théorie est complétée par des cas pratiques ou exercices corrigés et discutés avec le formateur. Le formateur projette une présentation pour animer la formation et reste disponible pour répondre à toutes les questions.
Méthode d'évaluation
Tout au long de la formation, les exercices et mises en situation permettent de valider et contrôler les acquis du stagiaire. En fin de formation, le stagiaire complète un QCM d'auto-évaluation.
Mis à jour le 16/11/2023
Le contenu peut faire l'objet de légères adaptations selon les besoins et la progression des participants.
