Northeastern University
Entreposage et Intégrité des données Partie 2

Débloquez l'accès à plus de 10 000 cours avec Coursera Plus. Essai gratuit de 7 jours.

Northeastern University

Entreposage et Intégrité des données Partie 2

Venkat Krishnamurthy

Instructeur : Venkat Krishnamurthy

Inclus avec Coursera Plus

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
1 semaine à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme
Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
1 semaine à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme

Compétences que vous acquerrez

  • Catégorie : Intégration de données
  • Catégorie : Amazon S3
  • Catégorie : Infrastructure as Code (IaC)
  • Catégorie : Entreposage de données
  • Catégorie : Architecture et administration des bases de données
  • Catégorie : DevOps
  • Catégorie : Extraction, transformation, chargement (ETL)
  • Catégorie : Gouvernance de données
  • Catégorie : Qualité des données
  • Catégorie : Évolutivité
  • Catégorie : Architecture des données
  • Catégorie : Pipelines de données
  • Catégorie : CI/CD
  • Catégorie : Transformation de données
  • Catégorie : Cloud Computing
  • Catégorie : Amazon Redshift
  • Catégorie : Architecture de l'informatique en nuage
  • Catégorie : Analytique

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Récemment mis à jour !

août 2025

Évaluations

9 devoirs

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

 logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Il y a 6 modules dans ce cours

Dans ce module, vous découvrirez les processus ETL (Extrapôt, Transformation, Chargement), un élément essentiel des solutions d'Entreposage de données et d'Intégration de données. Les processus ETL peuvent être complexes et coûteux, mais une conception et une modélisation efficaces peuvent réduire considérablement les coûts de développement et de maintenance. Nous vous présenterons les bases de la notation BPMN (Business Process Modeling Notation), qui est cruciale pour la modélisation des processus métier. Nous nous concentrerons sur les bases de BPMN, y compris les composants clés tels que les objets de flux, les passerelles, les événements et les artefacts, qui sont essentiels pour la modélisation des processus métier. Vous découvrirez comment BPMN peut être adapté à la modélisation conceptuelle des tâches ETL, en mettant l'accent sur la différenciation entre les tâches de contrôle et les tâches de données. Les tâches de contrôle gèrent l'orchestration des processus ETL, tandis que les tâches de données gèrent la manipulation des données, toutes deux essentielles à la conceptualisation des flux de travail ETL. À la fin de ce module, vous aurez acquis une solide compréhension de la conception des processus ETL à l'aide de BPMN, ce qui vous permettra de bénéficier d'une plus grande flexibilité et d'une meilleure adaptabilité à travers différents outils.

Inclus

2 vidéos8 lectures2 devoirs

Dans ce module, vous plongerez dans Talend Studio, une puissante plateforme d'intégration de données basée sur Eclipse qui transforme les opérations ETL complexes en flux de travail visuels intuitifs. En explorant l'interface drag-and-drop de Talend, vous apprendrez à naviguer dans les composants centraux de la plateforme. Vous maîtriserez les opérations ETL fondamentales en étudiant des composants essentiels tels que tMap pour les transformations de données et les jointures complexes, tJoin pour la liaison directe des données, et divers composants d'entrée/sortie pour la connexion aux bases de données, aux fichiers et aux API. A la fin du module, vous comprendrez comment Talend génère automatiquement du code Java exécutable à partir de conceptions visuelles, vous permettant de créer des solutions d'intégration de données évolutives et prêtes pour la production, capables de gérer à la fois des scénarios de traitement par lots et de données en temps réel dans divers environnements technologiques.

Inclus

3 lectures1 devoir

Dans ce module, nous passons de l'Entrepôt de données sur site à l'Ingénieur de données. Si l'ingénierie des données trouve ses racines dans l'Entrepôt de données, elle englobe bien plus que cela. Nous explorerons les principaux catalyseurs de cette évolution, en particulier le cloud computing et DevOps. Vous découvrirez les avantages du développement en nuage, notamment l'amélioration de l'évolutivité, de la rentabilité et de la flexibilité des opérations de données. Nous plongerons également dans la façon dont les composants traditionnels de l'infrastructure IT, tels que la sécurité, le réseau et les ressources de calcul, sont redéfinis dans les environnements cloud à l'aide d'AWS. En outre, vous acquerrez une compréhension de DevOps dans le cloud, en vous concentrant sur l'utilisation de machines virtuelles et de conteneurs pour rationaliser l'intégration et le déploiement continus. Nous couvrirons les pratiques DevOps clés telles que l'infrastructure en tant que code (IaC), les pipelines CI/CD et les tests automatisés, en mettant l'accent sur leur rôle pour assurer la cohérence, des cycles de développement plus rapides et des applications sécurisées. Vous explorerez ensuite ce qu'implique l'ingénierie des données et les compétences requises pour devenir ingénieur des données. Enfin, nous présenterons le concept du cycle de vie de l'ingénierie des données et ses différentes phases, en nous concentrant sur les deux premières : La génération et le stockage des données.

Inclus

1 vidéo12 lectures2 devoirs

Dans ce module, nous allons explorer les deux prochaines phases du cycle de vie des données : L'ingestion et la transformation. L'ingestion des données fait référence au processus de déplacement des données des systèmes sources vers le stockage, les rendant ainsi disponibles pour le traitement et l'analyse. Au cours de votre lecture, vous examinerez les principaux modèles d'ingestion, notamment l'ingestion par lots ou en continu, les méthodes synchrones ou asynchrones, ainsi que les approches push, pull et hybrides. Vous explorerez également des considérations techniques essentielles telles que l'évolutivité, la fiabilité et la gestion de la qualité des données, ainsi que les défis posés par les changements de schéma. La lecture présentera diverses technologies permettant l'ingestion de données, telles que JDBC/ODBC, Change Data Capture (CDC), les API et les plates-formes de flux d'événements comme Kafka. Nous nous concentrons ensuite sur la phase de transformation du cycle de vie, en explorant différents types de transformations qui intègrent une logique métier complexe dans les pipelines de données. À la fin du module, nous nous concentrerons sur l'architecture des données et la mise en œuvre de bons principes d'architecture pour construire des pipelines de données évolutifs et fiables.

Inclus

4 vidéos12 lectures2 devoirs2 éléments d'application

Dans ce module, nous allons explorer les caractéristiques des données et la façon dont elles influencent les décisions d'infrastructure. Dans le monde actuel axé sur les données, il est essentiel de comprendre les propriétés de vos données pour concevoir des pipelines de données robustes. Nous passerons en revue des caractéristiques clés telles que le volume, qui fait référence à la taille des ensembles de données, et la vélocité, qui concerne la fréquence à laquelle de nouvelles données sont générées. Nous nous pencherons également sur la variété, qui se concentre sur les formats et les sources de données, et sur la véracité, qui met l'accent sur l'exactitude et la fiabilité des données. L'objectif final est de découvrir la valeur des données grâce à une analyse perspicace. Au fur et à mesure que nous approfondirons la conception des pipelines, vous apprendrez comment ces caractéristiques influencent les décisions clés, telles que le choix des outils de stockage, de traitement et d'analytique. Nous couvrirons également les services AWS essentiels tels qu'Amazon S3, Glue et Athena, en explorant la façon dont ils prennent en charge l'ingénierie des données évolutive et flexible. À la fin de ce module, vous aurez une compréhension complète de la façon de construire des solutions de données efficaces pour répondre aux besoins techniques et commerciaux.

Inclus

6 lectures1 devoir

Bienvenue à la dernière étape du cycle de vie de l'ingénierie des données : servir les données. Dans ce module, nous nous concentrerons sur la façon de servir efficacement les données pour l'analytique, l'apprentissage automatique (ML) et l'ETL inverse afin de garantir que les produits de données que vous concevez sont fiables, exploitables et fiables pour les parties prenantes. Les sujets clés comprennent l'établissement de SLA, l'identification des cas d'utilisation, l'évolution des produits de données avec le retour d'information, la normalisation des définitions de données et l'exploration des méthodes de livraison telles que les échanges de fichiers, les bases de données et les systèmes de streaming. Nous aborderons également l'utilisation de l'ETL inversé pour améliorer les processus d'entreprise et discuterons de l'importance du contexte pour choisir le meilleur type de visualisation et les meilleurs outils. Nous nous pencherons ensuite sur les KPI et les métriques et sur la manière de les classer, y compris sur la manière d'identifier des KPI robustes en fonction du contexte de l'entreprise. Enfin, nous nous concentrerons sur la création de tableaux de bord intuitifs en choisissant les bonnes analyses, visualisations et mesures à présenter en fonction du contexte de l'entreprise et du public concerné. À la fin de ce module, vous comprendrez comment concevoir et servir des solutions de données qui conduisent à des actions significatives et qui ont la confiance des utilisateurs finaux.

Inclus

11 lectures1 devoir

Instructeur

Venkat Krishnamurthy
Northeastern University
3 Cours451 apprenants

Offert par

En savoir plus sur Analyse des Données

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.
Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’
Jennifer J.
Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’
Larry W.
Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’
Chaitanya A.
’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’
Coursera Plus

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions