Recherche avancée
Par formation
Par date
Par ville
logo HUB Formation
Organisme de Formation
aux Technologies et métiers de L'informatique
La pédagogie au service de la technologie
> > > Business Analytics, Data Science et Dataviz

Business Analytics, Data Science et Dataviz

Méthodes, algorithmes, organisation et outils

Comment la révolution des données peut-elle contribuer à la performance de l’entreprise ?

Les grands acteurs du Web ont vulgarisé l’usage des Business Analytics et de la Data Science afin d’exploiter les données du Big Data. A l’heure où même la Maison Blanche se dote d’un CDO (Chief Data Officer), la culture de la Donnée se diffuse dans les entreprises et révolutionne les business models : Uber, Amazon, Airbnb, Google nous le démontrent tous les jours.

Il devient de plus en plus nécessaire aux décideurs, dans les fonctions métiers et IT, de comprendre les résultats que l’on peut obtenir, les limitations, les méthodes et les démarches des Business Analytics, de la Data Science et de la Data Visualisation. Ce séminaire leur permettra, grâce à l’acquisition de bases solides sur le sujet, de s’engager dans la transformation de leur activité en toute connaissance de cause.

Objectifs

  • Savoir comment la révolution des données peut contribuer à la performance de l’entreprise.
  • Comprendre les résultats que l’on peut obtenir, les limitations, les méthodes et les démarche des Business Analytics, de la Data Science et de la Data Visualisation.
  • S’engager dans la transformation de l'activité en toute connaissance de cause.

Public

  • Décideurs dans les fonctions métiers et IT, Data Scientist, Data Officer.

Prérequis

  • Connaissances de base en Systèmes d’Information

Programme de la formation

Le déluge des données et comment en tirer parti

L’émergence de nouvelles sources de données

  • Économie digitale.
  • La révolution mobile.
  • Objets connectés.
  • Données non structurées.

Des nouvelles technologies pour maîtriser ce volume

  • Plafonnement sur les temps de traitement et d’accès séquentiels.
  • Réduction exponentielle des coûts de stockage.
  • Puissance de calcul et architectures parallélisées.
  • Logiciels d’analyse et de parallélisation.

Le modèle des grands du Web

  • Un modèle qui a prouvé son efficacité en contexte contraint.
  • Culture de la mesure.
  • Souplesse technologique.
  • Contribution Open Source.
  • L’Intelligence Artificielle comme cœur de métier des nouveaux acteurs.

Collecte de la Donnée

  • Des formats de données divers et variés.
  • Le Web Scraping pour collecter davantage de données.
  • Les APIs.

Définitions et use cases métier

Définitions

  • Business Intelligence.
  • Business Analytics.
  • Big Data.
  • Dataviz.
  • Data Science.
  • Algorithmic business.

La Donnée comme avantage concurrentiel

  • Clé d’amélioration des processus.
  • Au cœur de nouveaux produits.
  • Commercialisation de la Donnée.

Cas d’usages

  • Relations clients.
  • Anti-fraude.
  • Maintenance prédictive.
  • Analyse de fiches métiers.
  • Analyse de texte.
  • Energie.
  • Santé.

Méthodologie d’analyse de données

Le processus CRISP-DM

  • Comprendre la problématique métier.
  • Comprendre la Donnée.
  • Préparer la Donnée.
  • Modéliser.
  • Evaluer.
  • Déployer.

Une approche itérative expérimentale

  • Un processus non prévisible proche d’une démarche de recherche.
  • Une vraie démarche scientifique.

Des compétences clés

  • Bases de Données.
  • Architecture informatique.
  • Statistiques et probabilité.
  • Machine Learning.

Préparation de la Donnée

Une qualité de données souvent insuffisante

  • Disponibilité et accessibilité difficile.
  • Homogénéité faible entre sources.
  • Complétude, ou des processus opérationnels qui ne favorisent pas la collecte.
  • Véracité, ou la qualité des données au minimum.
  • Historique limité aux besoins opérationnels.

Data Warehouse et Data Lake

  • Le Data Warehouse historique : en tirer partie.
  • Nouvelles approches Big Data : le Data Lake.
  • Pourquoi faut-il vraiment tout conserver ?.
  • La nécessaire gouvernance de la Donnée.

Infrastructures et outils informatiques

Pour commencer

  • La Workstation Data Science.
  • Open Source : R, Python.

Une infrastructure orientée données et usages

  • Architecture générale.
  • Ingestion des données : Batchs, Microbatchs et Streaming.
  • Lambda Architecture.
  • Stockage des données : Hadoop et HDFS.
  • SQL et NoSQL.
  • L’émergence de Spark.

Les solutions Cloud

  • Les promesses du Cloud : avantages et inconvénients.
  • Offres proposées en Analytics.

Rappels de statistiques et probabilités

Notion de base

  • Série statistique.
  • Variables aléatoires discrètes et continues.
  • Principales caractéristiques : médiane, moyenne, écart-type.
  • Représentations graphiques.

Corrélation vs causalité

  • Définition et représentation graphique de la corrélation.
  • Corrélation élevée n’implique pas causalité.
  • Exploiter les corrélations pour mieux comprendre les processus métier.

De l’inférence bayésienne au Machine Learning

Modélisation, algorithmes, évaluation

Types d’apprentissages

Apprentissage supervisé. Démarche Data Science

  • Classification et régression.
  • Evaluation de modèles et métriques d’évaluation.
  • Overfit et underfit.
  • Compromis biais-variance.

Apprentissage supervisé. Algorithmes classiques

  • Régressions linéaire et logistique.
  • Support Vector Machine.
  • Arbre de décision.
  • Random Forest.

Apprentissage non supervisé

  • Définition.
  • Algorithmes classiques : K-Means et Clustering hiérarchique.
  • Couplage avec du supervisé.

Recommandation

Visualisation : la Dataviz

Que visualiser ?

  • Exploration de données.
  • Performance de modèles.
  • Prédictions des modèles.

Comment visualiser ?

  • Types de représentations : courbes, histogrammes, diagrammes 3D...
  • Statique vs interactif.

Outils et technologies

  • La montée du JavaScript.
  • Librairies Open Source : ggplot2, Shiny / RShiny, Seaborn, librairies avancées Python.
  • Produits commerciaux : Tableau, QlikView, ZoomData.

Démarche projet

Démarche globale

  • Une démarche globale.
  • Étude de faisabilité.

POC

  • Prototypage : le point de départ.
  • Quelle évaluation.

Industrialisation

  • Jusqu’à l’industrialisation.
  • Motivation.
  • L’analytique dans les tranchées.
  • Automatiser la prise de décision.

Mettre en production un modèle

  • La problématique.
  • Model as Code.
  • L’utilisation de Spark.
  • Les promesses des APIs.

Facteurs clés / Facteurs de risque

  • Facteurs clés de succès d’un projet.
  • Facteurs de risque d’un projet.

Réussir sa transformation par la Donnée

RGPD et enjeux légaux

  • Principaux textes légaux.
  • Focus sur le RGPD.

Une organisation pour innover par la Donnée

  • Interne vs externe.
  • Centralisation vs Décentralisation.

DataLab

  • Le Data Lab, une cellule transverse.
  • Motiver et installer un Data Lab.

Recrutement

  • Les profils types.
  • Quels cursus et compétences ?
  • Faire progresser ses équipes.
  • Motiver et fidéliser.

Facteurs de succès

  • Réussir la transformation par la Donnée.
  • S’insérer dans une démarche de transformation digitale.
  • Communiquer.
  • Obtenir des moyens.
  • Montrer des résultats rapidement et régulièrement.
  • Soutenir l’effort dans la durée.
  • Exemple d’un projet à succès.