Data Engineer

Certification RNCP37172
Formacodes 31023 | Données massives
Nomenclature Europe Niveau 7

Les métiers associés à la certification RNCP37172 : Études et prospectives socio-économiques Expertise et support en systèmes d'information Études et développement informatique

Codes NSF 326 | Informatique, traitement de l'information, réseaux de transmission 326p | Informatique, traitement de l'information (organisation, gestion) 326t | Programmation, mise en place de logiciels
Voies d'accès : Formation initiale Contrat d'apprentissage Formation continue Contrat de professionnalisation VAE

Prérequis : L'accès au dispositif menant à la certification de Data Engineer est soumis à la condition préalable de détenir un diplôme ou une certification de niveau 6 dans le domaine visé et enregistrée au RNCP. Le dispositif s’adresse à des candidats détenant à min

Certificateurs :

Certificateur	SIRET
PMN	88436959600025

Activités visées :
Concevoir un projet d’architecture de gestion de données massives Elaborer une solution technique de collecte et de traitement de données massives Déployer l’architecture de gestion de données massives Piloter un projet de gestion de données massives

Capacités attestées :
Analyser le fonctionnement d’une organisation et ses flux de données à partir d’une cartographie des données et d’une étude préalable afin d’identifier l’opportunité de développement d’un projet d’architecture Décrire, en les formalisant, des cas d’usages du domaine de la Data en exploitant des méthodes d’idéation et en prenant en compte les spécificités de l’écosystème pour déterminer les besoins d’une architecture de gestion de données Elaborer un système de veille technologique et réglementaire propre au secteur du numérique avec une attention particulière sur les thèmes du cloud, du décisionnel et du Big Data en sélectionnant différentes sources vérifiées, en collectant et en analysant les informations afin d’adapter les choix technologiques et les pratiques associées aux tendances observées Identifier les sources critiques relatives au respect du cadre juridique et de la démarche de responsabilité sociétale en suivant les publications des organismes officiels afin d’améliorer la conformité du projet d’architecture de gestion de données massives en continu et de garantir le respect du cadre juridique Partager les résultats issus de la veille en les synthétisant en interne via un outil de partage documentaire professionnel afin de diffuser les bonnes pratiques et le respect réglementaire auprès des équipes projet Initier une étude de faisabilité de l’architecture data en collaboration avec un Data Scientist ou un Data Analyst, en sélectionnant et en catégorisant les données à traiter en fonction de leur disponibilité, leur valeur ajoutée et leur adéquation vis-à-vis du projet d’architecture, afin de définir le périmètre du prototype Elaborer un prototype de l’architecture data en utilisant la technologie retenue sur un périmètre fonctionnel réduit afin d’évaluer son opérationnalité et sa pertinence au regard des besoins identifiés Rédiger un cahier des charges formalisant les besoins, les objectifs, les risques, les contraintes, les sources de données ainsi que les enjeux réglementaires (RGAA, RGPD) et éthiques associés tels que la RSE et la sobriété énergétique Green IT afin de définir le périmètre du projet Rédiger les spécifications techniques et fonctionnelles générales de l’architecture d’analyse de données massives en analysant les besoins et les retours d’expérience du prototype afin de préparer la mise en œuvre du projet Concevoir un processus de collecte et de traitement de données massives en déterminant le référentiel de données, en créant des procédures de sélection et d’extraction de données multiples ainsi que des solutions de stockages afin de préparer le paramétrage des outils d’extraction, de traitement et de chargement Elaborer une doctrine de collecte et de traitement des données exhaustive et commune à l’organisation en décrivant les étapes et calculs de traitement et de visualisation des données dans le respect des normes juridiques et des procédures garantissant la sécurité des données et des systèmes afin de réduire les risques juridiques Intégrer des donnés à la solution de traitement en extrayant les sources au préalable, en élaborant des circuits automatisant les flux de données et en transformant les données de différentes sources afin de les mettre en forme et les harmoniser avant de les stocker Alimenter les environnements de stockage en lançant la procédure de chargement des données et en supervisant son bon fonctionnement afin d’avoir à disposition une base correctement structurée et des données actualisées et exploitables Installer et paramétrer des solutions de stockage de données massives en structurant des bases de données NoSQL, en organisant des systèmes de fichiers distribués et de stockage répartis de données afin d’obtenir un environnement de stockage opérationnel et conforme aux spécifications Mettre à disposition l’ensemble des données aux Data Scientists ou aux Data Analysts selon un format exploitable en s’appuyant sur les données de référence du système d’information afin de garantir la qualité de données et la consolidation des systèmes de stockage de données sur le cloud au sein de Data Warehouse/Data Lake Analyser de gros volumes de données en développant des algorithmes et en réalisant des analyses statistiques et techniques au moyen de langages d’exploration ou statistiques afin de produire des résultats chiffrés et quantifiés Présenter les résultats aux utilisateurs de la solution sous forme de rapports structurés et intelligibles en exploitant des outils de restitution de données, en ajoutant des moyens de segmentation et d’organisation des données afin de garantir la compréhension des points importants de l'analyse aux utilisateurs Tester l’architecture d’exploitation de données massives élaborée en concevant des tests de validation et en les menant sur l’environnement de recette afin de garantir son bon fonctionnement .et de décider ou non de mettre en production la solution Rédiger le bilan des tests dans un procès-verbal de recette après consignation des résultats dans un tableau afin de valider la mise en production de la solution par une instance décisionnaire Déployer la solution informatique en installant tous les composants sur le SI avec les équipe techniques d’exploitation, en installant la solution et en définissant les rôles et habilitations utilisateurs afin de rendre l’architecture opérationnelle Activer les procédures d’échanges et de synchronisation des données avec les autres briques fonctionnelles du SI afin de les interconnecter au moyen des outils et automatismes du SI Accompagner les équipes utilisatrices à la prise en main de la solution en présentant les méthodes et concepts associés, en explicitant les fonctionnalités de l’architecture, en prenant en compte les éventuelles situations de handicap afin d’assurer la montée en compétences des équipes clients Assurer un appui technique aux équipes utilisatrices au moyen d’outils de collecte et de traitement d’anomalies, d’incidents ou de problèmes afin d’assurer l’appropriation de la solution par les équipes Conduire une maintenance corrective régulière en implémentant un système d’enregistrement et de gestion des incidents et anomalies, afin d’assurer le maintien opérationnel de l’architecture et des outils développés Conduire une maintenance évolutive compte tenu des évolutions réglementaires et techniques liés à la sécurité des données et des systèmes, en intégrant de nouveaux besoins identifiés dans une feuille de route applicative (RoadMap) validé par une instance décisionnaire afin d’assurer l’opérationnalité de l’architecture et de ses outils dans le temps et de répondre aux besoins émergents sur le marché Déterminer l’organisation du projet en rédigeant un plan de projet formalisant les facteurs clés de succès, l’inclusion des personnes en situation de handicap, l’évaluation des charges, l’identification des acteurs, un plan d’actions intégrant les spécifications techniques et fonctionnelles afin de partager ce cadrage avec les acteurs du projet Définir les conditions de suivi du projet et les instances de pilotage en les décrivant dans le plan de projet afin de répondre aux orientations du projet de gestion de données massives dans le délai imparti Superviser un projet d’architecture de gestion de données massives en organisant et coordonnant l’équipe projet, en vérifiant le respect des clauses contractuelles, effectuant des reporting, en exploitant des méthodes agiles et en prenant en compte les éventuelles situations de handicap afin d’assurer l’exécution du projet Suivre le budget alloué au projet en identifiant les charges consommées et le reste à produire et en mesurant les écarts entre le prévu et le réalisé afin de respecter la limite financière du projet Coordonner efficacement les membres de l’équipe projet en assurant un suivi RH régulier, la gestion des compétences et les entretiens annuels des acteurs en tenant compte des périmètres métiers de chacun ainsi que des éventuelles situations de handicap afin d’en assurer un déroulement optimal Déterminer les modalités, les outils et les étapes formalisés dans un plan d’accompagnement en tenant compte du contexte du projet d’architecture de données massives, des outils de communication et de formation disponibles afin de préparer l’accompagnement au changement adapté au contexte du projet Rédiger la documentation fonctionnelle à destination des utilisateurs et de l’équipe technique dans un outil de partage documentaire afin d’assurer leur appropriation de la solution et leur adhésion

Secteurs d'activité :
Tous les secteurs d’activités sont potentiellement concernés par l’usage de l’intelligence artificielle dès lors que des solutions de résolution de problèmes complexes s’appuyant sur l’informatique font l’objet de projets de développement. L’activité du Data Engineer peut s’exercer au sein d’entreprise utilisatrices, de service de conseils, d’organismes publics ou encore chez des constructeurs informatiques. Ainsi, le professionnel peut évoluer dans des entreprises de taille variable, aussi bien au sein d’un grand groupe qu’au sein d’une PME ou d’un service public. En tant qu'indépendant, il intervient majoritairement sur des projets de plusieurs clients différents. Ses missions sont plus larges en indépendant : son expertise est couplée avec les missions du Data Scientist et du Data Analyst. Dans une PME / TPE, chez un éditeur de logiciel, il joue un rôle clé dans la définition et l'évolution du produit/système. La demande de compétences sera ici plus variée et les projets de taille inférieure, en règle générale. Il sera aussi amené à travailler avec des partenaires extérieurs et ainsi maîtriser les règles de fonctionnement de ce type de relation. Dans les petites et moyennes entreprises, le métier est également couplé avec celui de Data Scientist et Data Analyst. Dans une grande Entreprise de Service Numérique, il apporte son expertise technique sur les infrastructures. Il sera ici focalisé sur son périmètre de projet et son expertise métier, souvent de plus grande taille et interne. Le besoin d'expertise métier y sera équivalent dans une structure moyenne ou grande et va intervenir sur des missions en interne et externe.

Types d'emplois accessibles :
Data Ingénieur Ingénieur de données Ingénieur Big Data Concepteur Big Data Data Scientist Data Analyst

Liens Référentiel :
: https://www.ecole-pmn.fr/formations/mastere-data-engineer-alternance/

Objectif contexte :
Le Data Engineer préconise et met en place les ressources techniques nécessaires à la performance de l’analyse des données massives et de l’intelligence artificielle. Véritable interface entre la technique et le métier, le Data Engineer est au cœur du dép

Bloc de compétences

RNCP37172BC01 : Concevoir un projet d’architecture de gestion de données massives

Compétences :
Analyser le fonctionnement d’une organisation et ses flux de données à partir d’une cartographie des données et d’une étude préalable afin d’identifier l’opportunité de développement d’un projet d’architecture Décrire, en les formalisant, des cas d’usages du domaine de la Data en exploitant des méthodes d’idéation et en prenant en compte les spécificités de l’écosystème pour déterminer les besoins d’une architecture de gestion de données Elaborer un système de veille technologique et réglementaire propre au secteur du numérique avec une attention particulière sur les thèmes du cloud, du décisionnel et du Big Data en sélectionnant différentes sources vérifiées, en collectant et en analysant les informations afin d’adapter les choix technologiques et les pratiques associées aux tendances observées Identifier les sources critiques relatives au respect du cadre juridique et de la démarche de responsabilité sociétale en suivant les publications des organismes officiels afin d’améliorer la conformité du projet d’architecture de gestion de données massives en continu et de garantir le respect du cadre juridique Partager les résultats issus de la veille en les synthétisant en interne via un outil de partage documentaire professionnel afin de diffuser les bonnes pratiques et le respect réglementaire auprès des équipes projet Initier une étude de faisabilité de l’architecture data en collaboration avec un Data Scientist ou un Data Analyst, en sélectionnant et en catégorisant les données à traiter en fonction de leur disponibilité, leur valeur ajoutée et leur adéquation vis-à-vis du projet d’architecture, afin de définir le périmètre du prototype Elaborer un prototype de l’architecture data en utilisant la technologie retenue sur un périmètre fonctionnel réduit afin d’évaluer son opérationnalité et sa pertinence au regard des besoins identifiés Rédiger un cahier des charges formalisant les besoins, les objectifs, les risques, les contraintes, les sources de données ainsi que les enjeux réglementaires (RGAA, RGPD) et éthiques associés tels que la RSE et la sobriété énergétique Green IT afin de définir le périmètre du projet Rédiger les spécifications techniques et fonctionnelles générales de l’architecture d’analyse de données massives en analysant les besoins et les retours d’expérience du prototype afin de préparer la mise en œuvre du projet

Modalités d'évaluation :
Mise en situation professionnelle - Cas pratique avec rendu de livrables

RNCP37172BC02 : Elaborer une solution technique de collecte et de traitement de données massives

Compétences :
Concevoir un processus de collecte et de traitement de données massives en déterminant le référentiel de données, en créant des procédures de sélection et d’extraction de données multiples ainsi que des solutions de stockages afin de préparer le paramétrage des outils d’extraction, de traitement et de chargement Elaborer une doctrine de collecte et de traitement des données exhaustive et commune à l’organisation en décrivant les étapes et calculs de traitement et de visualisation des données dans le respect des normes juridiques et des procédures garantissant la sécurité des données et des systèmes afin de réduire les risques juridiques Intégrer des donnés à la solution de traitement en extrayant les sources au préalable, en élaborant des circuits automatisant les flux de données et en transformant les données de différentes sources afin de les mettre en forme et les harmoniser avant de les stocker Alimenter les environnements de stockage en lançant la procédure de chargement des données et en supervisant son bon fonctionnement afin d’avoir à disposition une base correctement structurée et des données actualisées et exploitables Installer et paramétrer des solutions de stockage de données massives en structurant des bases de données NoSQL, en organisant des systèmes de fichiers distribués et de stockage répartis de données afin d’obtenir un environnement de stockage opérationnel et conforme aux spécifications Mettre à disposition l’ensemble des données aux Data Scientists ou aux Data Analysts selon un format exploitable en s’appuyant sur les données de référence du système d’information afin de garantir la qualité de données et la consolidation des systèmes de stockage de données sur le cloud au sein de Data Warehouse/Data Lake Analyser de gros volumes de données en développant des algorithmes et en réalisant des analyses statistiques et techniques au moyen de langages d’exploration ou statistiques afin de produire des résultats chiffrés et quantifiés Présenter les résultats aux utilisateurs de la solution sous forme de rapports structurés et intelligibles en exploitant des outils de restitution de données, en ajoutant des moyens de segmentation et d’organisation des données afin de garantir la compréhension des points importants de l'analyse aux utilisateurs Tester l’architecture d’exploitation de données massives élaborée en concevant des tests de validation et en les menant sur l’environnement de recette afin de garantir son bon fonctionnement .et de décider ou non de mettre en production la solution Rédiger le bilan des tests dans un procès-verbal de recette après consignation des résultats dans un tableau afin de valider la mise en production de la solution par une instance décisionnaire.

Modalités d'évaluation :
Mise en situation professionnelle - Cas pratique avec rendu de livrables et soutenance orale

RNCP37172BC03 : Déployer l’architecture de gestion de données massives

Compétences :
Déployer la solution informatique en installant tous les composants sur le SI avec les équipe techniques d’exploitation, en installant la solution et en définissant les rôles et habilitations utilisateurs afin de rendre l’architecture opérationnelle Activer les procédures d’échanges et de synchronisation des données avec les autres briques fonctionnelles du SI afin de les interconnecter au moyen des outils et automatismes du SI Accompagner les équipes utilisatrices à la prise en main de la solution en présentant les méthodes et concepts associés, en explicitant les fonctionnalités de l’architecture, en prenant en compte les éventuelles situations de handicap afin d’assurer la montée en compétences des équipes clients Assurer un appui technique aux équipes utilisatrices au moyen d’outils de collecte et de traitement d’anomalies, d’incidents ou de problèmes afin d’assurer l’appropriation de la solution par les équipes Conduire une maintenance corrective régulière en implémentant un système d’enregistrement et de gestion des incidents et anomalies, afin d’assurer le maintien opérationnel de l’architecture et des outils développés Conduire une maintenance évolutive compte tenu des évolutions réglementaires et techniques liés à la sécurité des données et des systèmes, en intégrant de nouveaux besoins identifiés dans une feuille de route applicative (RoadMap) validé par une instance décisionnaire afin d’assurer l’opérationnalité de l’architecture et de ses outils dans le temps et de répondre aux besoins émergents sur le marché

Modalités d'évaluation :
Mise en situation professionnelle - Cas pratique avec rendu de livrables et soutenance orale

RNCP37172BC04 : Piloter un projet de gestion de données massives

Compétences :
Déterminer l’organisation du projet en rédigeant un plan de projet formalisant les facteurs clés de succès, l’inclusion des personnes en situation de handicap, l’évaluation des charges, l’identification des acteurs, un plan d’actions intégrant les spécifications techniques et fonctionnelles afin de partager ce cadrage avec les acteurs du projet Définir les conditions de suivi du projet et les instances de pilotage en les décrivant dans le plan de projet afin de répondre aux orientations du projet de gestion de données massives dans le délai imparti Superviser un projet d’architecture de gestion de données massives en organisant et coordonnant l’équipe projet, en vérifiant le respect des clauses contractuelles, effectuant des reporting, en exploitant des méthodes agiles et en prenant en compte les éventuelles situations de handicap afin d’assurer l’exécution du projet Suivre le budget alloué au projet en identifiant les charges consommées et le reste à produire et en mesurant les écarts entre le prévu et le réalisé afin de respecter la limite financière du projet Coordonner efficacement les membres de l’équipe projet en assurant un suivi RH régulier, la gestion des compétences et les entretiens annuels des acteurs en tenant compte des périmètres métiers de chacun ainsi que des éventuelles situations de handicap afin d’en assurer un déroulement optimal Déterminer les modalités, les outils et les étapes formalisés dans un plan d’accompagnement en tenant compte du contexte du projet d’architecture de données massives, des outils de communication et de formation disponibles afin de préparer l’accompagnement au changement adapté au contexte du projet Rédiger la documentation fonctionnelle à destination des utilisateurs et de l’équipe technique dans un outil de partage documentaire afin d’assurer leur appropriation de la solution et leur adhésion

Modalités d'évaluation :
Mise en situation professionnelle - Cas pratique avec rendu de livrables et soutenance orale

Partenaires actifs :

Partenaire	SIRET	Habilitation
FITEC	34964000300100	HABILITATION_ORGA_FORM
GLOBAL OPEN CAMPUS	91397604900019	HABILITATION_ORGA_FORM
LE PONT LEARNING	37809993100107	HABILITATION_ORGA_FORM

Data Engineer

Bloc de compétences

Select your color

Light/dark Layout