Expert infrastructure et traitement des données massives

Certification RNCP37763
Formacodes 11016 | Analyse données 31036 | Administration base de données 31009 | Architecture système information
Nomenclature Europe Niveau 7

Codes NSF 326 | Informatique, traitement de l'information, réseaux de transmission
Voies d'accès : Formation initiale Contrat d'apprentissage Formation continue Contrat de professionnalisation VAE

Prérequis : Titres certifiés niveau 6 ou diplômes et/ou grades universitaires niveau 6 en informatique, sciences de l’ingénieur, mathématiques, statistiques, sciences physiques, sciences économiques et de gestion

Certificateurs :
Certificateur SIRET
AIVANCITY 88343992900026


Activités visées :
Identification des méthodes et usages dans le domaine des données massives (Big Data) appliquée à l’organisation Intégration des considérations éthiques et juridiques et d'accessibilité numérique en lien avec l’utilisation des données massives dans les organisations Conception et gestion des entrepôts de données Extraction, transformation et chargement des données structurées, semi-structurées et non structurées provenant de multiples sources Traitement et adaptation des divers flux de données Préparation et exportation des données Analyse et traitement des données massives Analyse des besoins du projet data Mise en œuvre et suivi de l’ensemble du processus de développement du projet Big Data

Capacités attestées :
Identifier les méthodes et les technologies relatives à l’utilisation des données massives dans les organisations en s’appuyant sur l’étude des pratiques existantes de Big Data pour répondre à une problématique métier. Analyser les usages et enjeux du Big Data dans les organisations en s’appuyant sur un système de veille technologique et économique afin de détecter les opportunités de projets data au sein de l’organisation. Appliquer les méthodes et les outils liés au masquage et à l’intégrité des données, ainsi que les règles d’accessibilité numérique, en s’appuyant sur la réglementation en vigueur et les référentiels éthiques existants afin d’éviter les dérives potentielles. Analyser les risques juridiques et éthiques liés à la gestion des données en s’appuyant sur la réglementation en vigueur et les référentiels éthiques applicables au contexte spécifique de l’organisation afin de contribuer à la mise en œuvre d’une politique de protection de données efficace. Concevoir et déployer des entrepôts de données en s’appuyant sur les outils et les technologies appropriés tout en considérant les ressources et les contraintes relatives à l’activité de l’entreprise et ses besoins métiers pour stocker des bases de données relationnelles ou non relationnelles. Administrer et gérer les entrepôts des données en utilisant les technologies des données massives et les outils du Cloud appropriés pour exploiter efficacement les données répondant aux problématiques métier de l’organisation. Extraire, transformer et charger différentes sortes de données en lien avec les besoins métiers en s’appuyant sur la technologie ETL afin d’effectuer des synchronisations de vastes ensembles de données vers l’entrepôt de données dans le respect des contraintes légales et les valeurs de responsabilité et d’éthique. Créer et gérer des pipelines de données issues de sources hétérogènes, internes et externes à l'entreprise et ceci de façon sécurisée afin de les exploiter et de les stocker. Sélectionner et mettre en place les outils de traitement des flux de données en fonction de la complexité, des catégories et de la qualité de données afin d’optimiser la collecte et la gestion des flux de données. Adapter le volume et la vitesse des différents flux de données conformément aux contraintes de performance technique prévues et des données exploitées pour répondre aux besoins métiers. Analyser et prétraiter des données structurées, semi-structurées et non structurées en s’appuyant sur le nettoyage des données réalisé, afin de fournir aux spécialistes de la science des données les données adéquates à analyser, dans le respect des contraintes légales et les valeurs de responsabilité et d’éthique. Réaliser une réduction de la dimensionnalité des données de grandes dimensions en utilisant des méthodes d’optimisation des temps de calcul afin d’avoir une meilleure modélisation des données. Réaliser une analyse exploratoire en s’appuyant sur des solutions de visualisation de données afin de représenter graphiquement les données d'une manière claire et pertinente et tout en prenant en compte les règles d’accessibilité. Améliorer les performances du traitement des données de manière simultanée en s’appuyant sur les outils d’optimisation afin de permettre une analyse adéquate des données massives. Analyser et modéliser des volumes importants de données en s’appuyant sur les outils analytiques et de programmation appropriés afin d’extraire des informations opérationnelles pour la prise de décision et répondant aux enjeux métiers. Analyser le besoin du projet data défini par l’entreprise en utilisant les données disponibles et les technologies Big Data existantes afin de proposer une méthode de conduite de projet adaptée dans le respect des contraintes légales et les valeurs de responsabilité et d’éthique. Définir les spécifications fonctionnelles et techniques du projet en s’appuyant sur des méthodes et des outils adaptés au contexte de l’entreprise et à la nature du projet afin d’assurer sa conduite dans le respect des délais et des contraintes techniques et financières. Définir le plan de transition/renforcement de la stratégie data de l'entreprise, en identifiant les métiers concernés et en définissant les différents jalons et indicateurs qui permettent une mise en œuvre réussi du projet par les différents acteurs et utilisateurs. Déployer un projet Big Data en assurant une communication et une supervision permanentes entre les développeurs et les opérations tout au long du cycle de vie du projet afin d’accélérer la mise en production dans le respect des contraintes légales et les valeurs de responsabilité et d’éthique. Piloter une équipe projet avec des groupes de travail interdisciplinaires et aider les acteurs impliqués dans le projet Big Data dans l’appropriation de la solution en aidant à son intégration dans leurs pratiques métiers afin d’accompagner le changement des pratiques.

Secteurs d'activité :
En France, différents rapports et études ont identifié certains secteurs les plus porteurs pour la data et vecteurs de projets d’Intelligence Artificielle. Ces secteurs d’activités se caractérisent par une forte exposition des effectifs aux impacts des données massives et de l’IA, et un niveau élevé d’exposition à la digitalisation. Parmi ces principaux secteurs, on trouve : * Santé : Les domaines où la date intervient sont vastes : médecine de prévention, aide au diagnostic et au choix des traitements, , épidémiologie, médecine augmentée, etc. * Services financiers : Parmi les domaines les plus impactés par les Big data, on peut citer : les activités de marché (analyse prédictive du marché, performance des fonds d’investissement, aide pour fixer le meilleur prix des actions etc.), les opérations courantes (vente de produits financiers : accord ou non d’une demande de prêt, octroi de crédit, analyse documentaire, détection de fraudes etc.) * Service juridique :Parmi les domaines les plus impactés par les données massives, citons : la recherche et analyse de documents (jurisprudence, informations légales de l’entreprise et une analyse pour trier et grouper les documents les plus pertinents pour le cas juridique à traiter), le suivi des opérations juridiques quotidiennes. * Commerce de détail :Les principaux domaines impactés par les Big Data sont les suivants : personnalisation de l’expérience client (analyse plus fine du comportement des consommateurs en temps réel et meilleure anticipation de leurs besoins), optimisation du fonctionnement du point de vente, optimisation du backoffice.

Types d'emplois accessibles :
* Expert infrastructure et traitement de données massives * Data Engineer / Ingénieur de données / Ingénieur développement Big Data * Chief Data officer * Consultant Big Data * Data manager / Data Analyst (au sein d'une entreprise privée ou dans un organisme public)


Objectif contexte :
La certification vise prépare au métier d'Expert infrastructure et traitement des données massives, et répond à un besoin grandissant des entreprises en France et à travers le monde. En effet, l’explosion des données est le socle sur lequel s’appuie la tr

Bloc de compétences

RNCP37763BC01 : Définir les usages et les applications du Big Data dans les organisations en intégrant les considérations juridiques et éthiques liées aux données
Compétences :
Identifier les méthodes et les technologies relatives à l’utilisation des données massives dans les organisations en s’appuyant sur l’étude des pratiques existantes de Big Data pour répondre à une problématique métier. Analyser les usages et enjeux du Big Data dans les organisations en s’appuyant sur un système de veille technologique et économique afin de détecter les opportunités de projets data au sein de l’organisation. Appliquer les méthodes et les outils liés au masquage et à l’intégrité des données ainsi que les règles d’accessibilité numérique en s’appuyant sur la réglementation en vigueur et les référentiels éthiques existants afin d’éviter les dérives potentielles. Analyser les risques juridiques et éthiques liés à la gestion des données en s’appuyant sur la réglementation en vigueur et les référentiels éthiques applicables au contexte spécifique de l’organisation afin de contribuer à la mise en œuvre d’une politique de protection de données efficace.
Modalités d'évaluation :
Etude de cas : A partir d’une documentation complète présentant un cas d’usage du Big Data dans une organisation mise à disposition par l’organisme de formation, le candidat doit identifier les technologies et méthodes de Big Data en lien avec une problématique métier. Le candidat doit ensuite proposer les technologies et les méthodes adaptées à l’utilisation optimale du Big Data dans l’organisation. Etude de cas : A partir d’une étude de cas d’une organisation détaillant ses objectifs stratégiques, son secteur d’activité et ses enjeux futurs, le candidat doit identifier les possibles usages du Big Data au sein de l’organisation. En s’appuyant sur la réalisation d’une veille de l’écosystème, il propose différentes options pour l’usage de la Data au sein de l’organisation. Etude de cas pratique : A partir d’un cas de création ou de développement d’un projet Data en entreprise, le candidat devra cerner et identifier les problématiques potentielles liées à la sécurisation et la protection des données personnelles. Ensuite, le candidat doit proposer des méthodes et des outils adéquats à la réglementation en vigueur pour une meilleure protection des données. Etude de cas pratique : A partir d’une étude de cas d’une organisation détaillant son activité, ses données collectées et utilisées et ses systèmes et moyens techniques et informatiques, le candidat devra réaliser une analyse complète des risques juridiques et éthiques liés à la gestion des données.
RNCP37763BC02 : Concevoir, déployer et maintenir une architecture d’entrepôt de données
Compétences :
Concevoir et déployer des entrepôts de données en s’appuyant sur les outils et les technologies appropriés tout en considérant les ressources et les contraintes relatives à l’activité de l’entreprise et ses besoins métiers pour stocker des bases de données relationnelles ou non relationnelles. Administrer et gérer les entrepôts des données en utilisant les technologies des données massives et les outils du Cloud appropriés pour exploiter efficacement les données répondant aux problématiques métier de l’organisation. Extraire, transformer et charger différentes sortes de données en lien avec les besoins métiers en s’appuyant sur la technologie ETL afin d’effectuer des synchronisations de vastes ensembles de données vers l’entrepôt de données dans le respect des contraintes légales et les valeurs de responsabilité et d’éthique. Créer et gérer des pipelines de données issues de sources hétérogènes, internes et externes à l'entreprise et ceci de façon sécurisée afin de les exploiter et de les stocker. Sélectionner et mettre en place les outils de traitement des flux de données en fonction de la complexité, des catégories et de la qualité de données afin d’optimiser la collecte et la gestion des flux de données. Adapter le volume et la vitesse des différents flux de données conformément aux contraintes de performance technique prévues, des données exploitées, pour répondre aux besoins métiers.
Modalités d'évaluation :
Mise en situation professionnelle : A partir d’un jeu de données brutes provenant de différentes sources et d’une problématique métier, le candidat devra déterminer et justifier une solution de stockage adaptée aux types de données utilisées par une entreprise. Le candidat devra : * concevoir un entrepôt de données en sélectionnant les outils et technologies appropriés pour améliorer les performances, réaliser des économies et faciliter la gestion des entrepôts de données. Ensuite, le candidat devra choisir les technologies Big Data et les outils du Cloud permettant la gestion des entrepôts de données. * extraire, transformer et charger les données dans un entrepôt de données (data warehouse) en utilisant les solutions ETL de son choix, et en veillant au respect des contraintes légales, de sécurité et du cadre éthique. Le candidat devra créer un pipeline de données sécurisé à l’aide de différents outils d’extraction et de transformation de données identifiés et justifiés. Mise en situation professionnelle : A partir d’une technologie ETL permettant de collecter des données en provenance de différentes sources, le candidat devra spécifier et exécuter un outil approprié à la gestion des flux de données pour en réduire la latence, la durée des traitements et les coûts. Mise en situation professionnelle : A partir de critères de performance technique des flux de données définis, le candidat devra proposer une adaptation du volume et de la vitesse de la gestion des flux de données.
RNCP37763BC04 : Conduire l’ingénierie d’un projet Big Data et accompagner le changement
Compétences :
Analyser le besoin du projet data défini par l’entreprise en utilisant les données disponibles et les technologies Big Data existantes afin de proposer une méthode de conduite de projet adaptée dans le respect des contraintes légales et les valeurs de responsabilité et d’éthique. Définir les spécifications fonctionnelles et techniques du projet en s’appuyant sur des méthodes et des outils adaptés au contexte de l’entreprise et à la nature du projet afin d’assurer sa conduite dans le respect des délais et des contraintes techniques et financières. Définir le plan de transition/renforcement de la stratégie data de l'entreprise, en identifiant les métiers concernés et en définissant les différents jalons et indicateurs qui permettent une mise en œuvre réussi du projet par les différents acteurs et utilisateurs. Déployer un projet Big Data en assurant une communication et une supervision permanentes entre les développeurs et les opérations tout au long du cycle de vie du projet afin d’accélérer la mise en production dans le respect des contraintes légales et les valeurs de responsabilité et d’éthique. Piloter une équipe projet avec des groupes de travail interdisciplinaires et aider les acteurs impliqués dans le projet Big Data dans l’appropriation de la solution en aidant à son intégration dans leurs pratiques métiers afin d’accompagner le changement des pratiques.
Modalités d'évaluation :
Etude de cas : A partir d’une documentation complète présentant un cas d’usage data dans une organisation, le candidat devra réaliser une analyse du projet data et proposer une méthodologie de gestion de projet permettant de répondre à la problématique métier. Étude de cas pratique : partir d’un projet data réel ou fictif, le candidat devra rédiger un cahier des spécifications fonctionnelles et techniques et un plan de transition/renforcement de la stratégie Data. Ensuite, il/elle devra le présenter devant le jury d’évaluation. Etude de cas : A partir d’une présentation détaillée d’un projet Big Data d’entreprise réel ou fictif, le candidat devra réaliser une analyse critique des méthodes de suivi mises en œuvre durant l’ensemble du processus de développement du projet. Mise en situation professionnelle réelle : Dans le cadre d’une mission confiée par une entreprise portant sur la mise en œuvre d’un projet de Data Engineering, le candidat devra participer au sein d’une équipe projet au pilotage et à l’accompagnement au changement des acteurs directement concernés par le projet.
RNCP37763BC03 : Traiter et analyser des volumes importants de données
Compétences :
Analyser et prétraiter des données structurées, semi-structurées et non structurées en s’appuyant sur le nettoyage des données réalisé, afin de fournir aux spécialistes de la science des données les données adéquates à analyser, dans le respect des contraintes légales et les valeurs de responsabilité et d’éthique. Réaliser une réduction de la dimensionnalité des données de grandes dimensions en utilisant des méthodes d’optimisation des temps de calcul afin d’avoir une meilleure modélisation des données. Réaliser une analyse exploratoire en s’appuyant sur des solutions de visualisation de données afin de représenter graphiquement les données d'une manière claire et pertinente et tout en prenant en compte les règles d’accessibilité. Améliorer les performances du traitement des données de manière simultanée en s’appuyant sur les outils d’optimisation afin de permettre une analyse adéquate des données massives. Analyser et modéliser de volumes importants de données en s’appuyant sur les outils analytiques et de programmation appropriés afin d’extraire des informations opérationnelles pour la prise de décision et répondant aux enjeux métiers.
Modalités d'évaluation :
Mises en situations professionnelles reconstituées : En se basant sur un jeu de données brutes émanant de multiples sources, le candidat : * devra les analyser et les nettoyer afin d’améliorer la qualité des données * réduire la dimensionnalité de ces données en réduisant le nombre de variables prédictives * représenter graphiquement ces données à l’aide d'éléments visuels * mettre en œuvre et orchestrer des calculs distribués de façon optimale permettant de tirer profit des données massives * proposer et sélectionner des outils analytiques de traitement de données massives permettant de répondre à un problème métier.
Equivalences :
Select your color
Light/dark Layout