Organisme de Formation aux technologies et métiers de L'informatique

Formation Séminaire BigData : concepts et enjeux

Informations générales

CB000
1 jour (7h)
800 €HT
23 €HT (en option)

Objectifs

Dans ce cours, vous apprendrez à :

  • Comprendre les concepts et les apports du BigData, les impacts sur l'organisation de l'entreprise.

Public

Ce cours s'adresse avant tout aux personnes suivantes :

  • Chefs de projets,
  • Architectes,
  • Data-scientists,
  • Toute personne souhaitant comprendre les impacts du BigData sur l'entreprise au niveau du traitement des données, des architectures, de l'organisation.

Prérequis

Pour suivre ce cours, vous devez déjà posséder les connaissances suivantes :

  • Avoir une bonne culture générale sur les systèmes d'information.

Programme de la formation

Introduction

  • A l'origine du BigData : traitement de volumes importants de données non structurées, traitements optimisés de flux de données au fil de l'eau, liés aux nouvelles technologies et aux nouveaux usages.
  • Domaines concernés : recherche scientifique, médical, e-commerce, sécurité, prédictif, ...
  • Exemples : lutte contre la criminalité, fraude, santé, ressources énergétiques
  • Apports des évolutions techniques sur différents aspects : stockage, indexation/recherche, calcul.
  • Concepts clés : ETL, Extract Transform Load, CAP, 3V, 4V, données non structurées, prédictif, Machine Learning.
  • Quelques applications : Watson (IBM), Amazon Rekognition
  • Le positionnement des technologies de cloud, BigData et noSQL, de data-mining. Eléments d'architecture.
  • Gouvernance des données : importance de la qualité des données, fiabilité, durée de validité, sécurité des données
  • Aspects législatifs : sur le stockage, la conservation de données, etc ... sur les traitements, la commercialisation des données, des résultats

Stockage distribué

  • Caractéristiques NoSQL
  • Les différents modes et formats de stockage. Besoin de distribution.
  • Définition de la notion d'élasticité.
  • Principe du stockage réparti :
  • Définitions : réplication, sharding, gossip protocol, hachage,
  • Systèmes de fichiers distribués : GFS, HDFS, Ceph
  • Les bases de données : Cassandra, HBase, MongoDB, CouchBase, Riak, BigTable, ...

Calcul et restitution

  • Apport des outils de calculs statistiques
  • Langages adaptés aux statistiques, liens avec les outils BigData.
  • Outils de calcul et visualisation :
  • R, SAS, Spark, Tableau, QlikView, ...
  • Caractéristiques et points forts des différentes solutions.

Evolutions

  • Liens vers les nouveaux métiers : Hadoop scientists, Data scientists, CDO.
  • Analyse des données au service de l'entreprise
  • Rôle de la DSI dans la démarche BigData.
  • Ouverture sur l'OpenData : principe, la démarche publique, les licences.
  • Exemple : portail data.gouv.fr
  • Les offres Saas BigData comme Google BigQuery.
  • Les limites.
  • Les nouveautés annoncées.
plus d'infos

Méthode pédagogique

Chaque participant travaille sur un poste informatique qui lui est dédié. Un support de cours lui est remis soit en début soit en fin de cours. La théorie est complétée par des cas pratiques ou exercices corrigés et discutés avec le formateur. Le formateur projette une présentation pour animer la formation et reste disponible pour répondre à toutes les questions.

Méthode d'évaluation

Tout au long de la formation, les exercices et mises en situation permettent de valider et contrôler les acquis du stagiaire. En fin de formation, le stagiaire complète un QCM d'auto-évaluation.

Mis à jour le 12/02/2024