Recherche avancée
Par formation
Par date
Par ville
logo HUB Formation
Organisme de Formation
aux Technologies et métiers de L'informatique
La pédagogie au service de la technologie
Accueil > Domaines > Développement > Frameworks > IBM InfoSphere Advanced DataStage - Parallel Framework v11.5

IBM InfoSphere Advanced DataStage - Parallel Framework v11.5

ibm

Ce cours est conçu pour présenter les techniques avancées de développement de travaux parallèles dans DataStage v11.5. Dans ce cours, vous développerez une compréhension plus approfondie de l'architecture DataStage, y compris une compréhension plus approfondie des environnements de développement DataStaged et d'exécution. Cela vous permettra de concevoir des tâches parallèles robustes, moins sujettes aux erreurs, réutilisables et optimisées pour de meilleures performances.

Objectifs

  • Veuillez vous référer à l'aperçu du cours

Public

  • Développeurs DataStage expérimentés recherchant une formation aux techniques de travail plus avancées de DataStage et cherchant à comprendre l'architecture de la structure parallèle

Prérequis

  • cours IBM InfoSphere DataStage Essentials ou équivalent
  • au moins un an d'expérience dans le développement de travaux parallèles à l'aide de DataStage

 

Programme de la formation

1: Introduction à l'architecture du framework parallèle

  • Décrire l'architecture de traitement parallèle
  • Décrire le parallélisme des pipelines et des partitions
  • Décrire le rôle du fichier de configuration
  • Concevoir un travail qui crée des données de test robustes

2: Compiler et exécuter des travaux

  • Décrire les parties principales du fichier de configuration
  • Décrire le processus de compilation et le SST généré par le processus de compilation
  • Décrivez le rôle et les principales parties de la partition
  • Décrire le processus d'exécution du travail

3: Partitionner et collecter des données

  • Comprendre le fonctionnement du partitionnement dans la structure
  • Affichage des partitionneurs dans la partition
  • Sélection d'algorithmes de partitionnement
  • Générer des séquences de nombres (clés de substitution) dans un environnement parallèle partitionné

4: Tri des données

  • Trier les données dans le cadre parallèle
  • Trouver des tris insérés dans le score
  • Réduire le nombre de tris insérés
  • Optimiser les tâches Fork-Join
  • Utilisez les étapes de tri pour déterminer la dernière ligne d'un groupe
  • Décrire la clé de tri et la logique de la clé de partitionnement dans le cadre parallèle

5: Mise en mémoire tampon dans les travaux parallèles

  • Décrire le fonctionnement de la mise en mémoire tampon dans les travaux parallèles
  • Ajuster les tampons dans les travaux parallèles
  • Eviter les conflits de tampon

6: Types de données d'infrastructure parallèles

  • Décrire les ensembles de données virtuels
  • Décrire les schémas
  • Décrire les mappages et les conversions de types de données
  • Décrivez comment les données externes sont traitées
  • Gérer les nulls
  • Travailler avec des données complexes

7: Composants réutilisables

  • Créer un fichier de schéma
  • Lire un fichier séquentiel à l'aide d'un schéma
  • Décrire la propagation de colonne d'exécution (RCP)
  • Activer et désactiver le RCP
  • Créer et utiliser des conteneurs partagés

8: Optimisation équilibrée

  • Activer la fonctionnalité d'optimisation équilibrée dans Designer
  • Décrire le flux de travail d'optimisation équilibrée
  • Répertoriez les différentes options d'optimisation équilibrée.
  • Traitement en phase poussée vers une source de données
  • Traitement du stade poussé vers une cible de données
  • Optimiser une tâche en accédant au système de fichiers Hadoop HDFS
  • Comprendre les limites des optimisations équilibrées