Concepteur développeur en science des données
Certification RNCP35288
Formacodes 11052 | Mathématiques appliquées 11036 | Statistique 31028 | Intelligence artificielle
Nomenclature Europe Niveau 6
Formacodes 11052 | Mathématiques appliquées 11036 | Statistique 31028 | Intelligence artificielle
Nomenclature Europe Niveau 6
Les métiers associés à la certification RNCP35288 : Études et prospectives socio-économiques Production et exploitation de systèmes d'information Études et développement informatique Direction des systèmes d'information Conseil et maîtrise d'ouvrage en systèmes d'information
Codes NSF 326 | Informatique, traitement de l'information, réseaux de transmission 114g | Mathématiques de l'informatique, mathématiques financières, statistique de la santé
Voies d'accès : Formation initiale Contrat d'apprentissage Formation continue Contrat de professionnalisation VAE
Prérequis : * Un niveau 5 dans un domaine scientifique et/ou économique. À l’international, un niveau équivalent est requis. Ce niveau sera justifié par le CV de l’apprenant. * La réussite d’un test d’admission “coding challenge”, validant des compétences nécessaires
Certificateurs :
Voies d'accès : Formation initiale Contrat d'apprentissage Formation continue Contrat de professionnalisation VAE
Prérequis : * Un niveau 5 dans un domaine scientifique et/ou économique. À l’international, un niveau équivalent est requis. Ce niveau sera justifié par le CV de l’apprenant. * La réussite d’un test d’admission “coding challenge”, validant des compétences nécessaires
Certificateurs :
Certificateur | SIRET |
---|---|
JEDHA | 83872651100044 |
Activités visées :
A1.
Contruction d'une infrastructure de gestion de données adaptée à l'organisation A2.
Collecte de données A3.
Gestion d'entrepôts de données (Data Warehouse) A4.
Analyse exploratoire de données A5.
Visualisation et présentation de données A6.
Mise en place d'un algorithme d'apprentissage automatique A7.
Segmentation et réduction de base de données A8.
Optimisation des performances des algorithmes d'apprentissage automatique A9.
Mise en place d'un apprentissage automatique profond A10.
Optimisation des performances des algorithmes d'apprentissage automatique profond pour industrialisation A11.
Industrialisation d'algorithmes d'apprentissage automatique A12.
Production d'applications d'intelligence artificielle utilisables par toutes les équipes métier A13.
Définition d'une modélisation statistique qui permette de répondre aux problématiques des directions métiers A14.
Construction d'un système de gestion et de suivi de projet d'analyse et de gestion de données A15.
Direction de projets de gestion de données
A1.
Contruction d'une infrastructure de gestion de données adaptée à l'organisation A2.
Collecte de données A3.
Gestion d'entrepôts de données (Data Warehouse) A4.
Analyse exploratoire de données A5.
Visualisation et présentation de données A6.
Mise en place d'un algorithme d'apprentissage automatique A7.
Segmentation et réduction de base de données A8.
Optimisation des performances des algorithmes d'apprentissage automatique A9.
Mise en place d'un apprentissage automatique profond A10.
Optimisation des performances des algorithmes d'apprentissage automatique profond pour industrialisation A11.
Industrialisation d'algorithmes d'apprentissage automatique A12.
Production d'applications d'intelligence artificielle utilisables par toutes les équipes métier A13.
Définition d'une modélisation statistique qui permette de répondre aux problématiques des directions métiers A14.
Construction d'un système de gestion et de suivi de projet d'analyse et de gestion de données A15.
Direction de projets de gestion de données
Capacités attestées :
Bloc n°1
- Construction et alimentation d'une infrastructure de gestion de données C1.1
- Concevoir une architecture de données robuste et adaptée en créant des lacs de données (Data Lake en anglais) et des entrepôts de données ( Data Warehouse en anglais) afin de répondre aux besoins de stockage, d'utilisation, de sécurité et de protection de l'organisation définie par un cahier des charges C1.2
- Intégrer la dimension de stockage et de calcul distribuée à l'infrastructure de données via l'utilisation d'outils comme Spark ou AWS Redshift afin de l'adapter à des besoins de gestion de données massives ( Big Data en anglais) C1.3
- Collecter des données provenant de différentes sources (Web, Logiciels internes de type Sage / Excel ou externes de type Google Analytics) via des librairies de programmation de type Scrapy ou Beautifulsoup dans le respect des normes de protection des données utilisateurs définies dans le RGPD pour alimenter le Data Lake afin d'affiner le résultat d'analyses futures. C1.4
- Nettoyer et organiser les données dans l'entrepôt de données ( Data Warehouse en anglais) en écrivant des processus d'extraction, transformation et chargements (ETL en anglais) afin de rendre ces données disponibles et compréhensibles pour les autres équipes métiers. Bloc n°2
- Analyse exploratoire, descriptive et inférentielle de données C2.1
- Traiter des bases de données grâce à des analyses statistiques descriptives et inférentielles via des librairies de programmation comme Numpy ou Pandas, pour les organiser et les nettoyer afin de les normaliser par rapport à la population étudiée. C2.2
- Effectuer des analyses univariées et multivariées sur des bases de données structurées afin de préciser des relations entre plusieurs variables et d'établir des liens statistiques entre elles. C2.3
- Optimiser les analyses statistiques grâce au traitement parallélisé via l'utilisation d'outils comme Spark pour accélérer le temps de calcul d'un ordinateur afin de pouvoir analyser des volumes de données massifs (Big Data) C2.4
- Présenter le résultat d'une analyse statistique de données structurées, massives ou non, grâce à des librairies de programmation comme Plotly ou Matplotlib pour synthétiser ce résultat devant un public profane afin de faciliter la prise de décisions et appuyer leurs déclinaisons opérationnelles Bloc n°3
- Analyse prédictive de données structurées par l'intelligence artificielle C3.1
- Traiter des données structurées en créant un pipeline de traitement grâce à des librairies de programmation comme Scikit-Learn pour encoder, normaliser et découper des données afin de les rendre interprétables par un algorithme d'apprentissage automatique (Machine Learning en anglais) C3.2
- Effectuer des analyses prédictives sur un jeu de données structurées grâce à des algorithmes d'apprentissage automatique supervisés adaptés afin d'automatiser des tâches liées aux résultats des prédictions de ces algorithmes C3.3
- Élaborer un algorithme d'apprentissage automatique non-supervisé pour segmenter une base de données en différents groupes homogènes ou réduire la dimension de cette dernière afin de pouvoir comprendre des observations de manière granulaire et de permettre leur visualisation C3.4
- Évaluer la performance prédictive des algorithmes d'apprentissage automatique en déterminant l'influence des différentes variables pour pouvoir l'améliorer afin de démontrer son utilité aux directions métiers, par rapport aux processus déjà établis dans l'organisation Bloc n°4
- Analyse prédictive de données non-structurées par l'intelligence artificielle C4.1
- Traiter des données non-structurées (image, texte, audio) par la création de fonction de traitements via l'utilisation de librairies de programmation comme TensorFlow ou Numpy pour les transformer en matrices afin de les rendre interprétables par un algorithme d'apprentissage automatique profond (Deep learning en anglais) C4.2
- Élaborer des réseaux de neurones adaptés (classiques, convolutifs ou recursifs) en superposant des couches neuronales via des librairies de programmation comme TensorFlow pour analyser des données non-structurées afin de détecter des signaux sur ces dernières C4.3
- Créer un algorithme robuste et précis en configurant un réseau de neurones pré-entrainé profond afin de répondre à des problématiques de prédiction sur des volumes de données massifs C4.4
- Créer des données non-structurées en élaborant des réseaux de neurones adverses afin de construire de nouvelles bases d'entrainement pour des applications d'intelligence artificielle C4.5
- Évaluer la performance d'un algorithme d'apprentissage automatique profond en évaluant des indicateurs sur des données d'entrainement et de validation afin d'industrialiser son utilisation Bloc n°5
- Industrialisation d'un algorithme d'apprentissage automatique et automatisation des processus de décision C5.1
- Standardiser la construction et l'environnement informatique d'un algorithme d'apprentissage automatique grâce des outils de production comme MLflow et Docker afin de faciliter la mise en production de projets d'intelligence artificielle sur tous types de plateformes C5.2
- Créer une interface de programmation applicative grâce à des outil comme AWS sagemaker afin de donner un accès à échelle aux prédictions des algorithmes d'apprentissage automatique à l'ensemble des équipes métiers concernées C5.3
- Déployer une application web intégrant des algorithmes de statistiques prédictives (Machine Learning et Deep Learning) grâce à des outils comme Flask, Heroku ou AWS sagemaker pour les rendre utilisables par l'ensemble des équipes métiers afin d'automatiser leurs processus de décision Bloc n°6
- Direction de projets de gestion de données C6.1
- Traduire les enjeux métiers en problématiques mathématiques/data grâce à une compréhension des besoins propres à chaque projet data afin de pouvoir répondre aux objectifs de l'organisation C6.2
- Maîtriser les technologies les plus récentes et adaptées du marché grâce à de la veille technologique et de la pratique constante pour développer une expertise afin d'être à même de proposer aux directions métiers les solutions les plus adaptées actuellement à une problématique et l'amélioration constante des process de gestion de données déjà en place C6.3
- Définir un cahier des charges, un retroplanning et un budget afin de défendre et détailler aux directions métier un projet data répondant aux besoins de l'organisation C6.4
- Gérer un projet d'analyse et de gestion de données (analyse statistique descriptive, Machine Learning, Deep Learning, Big Data ou non) grâce à l'élaboration d'indicateurs adaptés et de tableaux de bords, afin de faire le suivi et le bilan de l’action, ainsi que de la déclinaison opérationnelle de ses résultats, le tout dans le respect des normes de protection des données utilisateurs définies dans le RGPD C6.5
- Transmettre aux directions-métiers le process d'extraction d'informations et d'analyse de données en le vulgarisant afin de soutenir la mise en place d'une stratégie et d'actions futures. C6.6
- Diriger un projet de gestion de données, allant de sa conception à la mise en place de solutions, afin de le mener jusqu'à son terme, d'être la personne clé disposant de toutes les informations sur le projet à tout moment, et d'accompagner d'autres services de l'organisation dans l'ensemble des activités relatives à celui-ci
Bloc n°1
- Construction et alimentation d'une infrastructure de gestion de données C1.1
- Concevoir une architecture de données robuste et adaptée en créant des lacs de données (Data Lake en anglais) et des entrepôts de données ( Data Warehouse en anglais) afin de répondre aux besoins de stockage, d'utilisation, de sécurité et de protection de l'organisation définie par un cahier des charges C1.2
- Intégrer la dimension de stockage et de calcul distribuée à l'infrastructure de données via l'utilisation d'outils comme Spark ou AWS Redshift afin de l'adapter à des besoins de gestion de données massives ( Big Data en anglais) C1.3
- Collecter des données provenant de différentes sources (Web, Logiciels internes de type Sage / Excel ou externes de type Google Analytics) via des librairies de programmation de type Scrapy ou Beautifulsoup dans le respect des normes de protection des données utilisateurs définies dans le RGPD pour alimenter le Data Lake afin d'affiner le résultat d'analyses futures. C1.4
- Nettoyer et organiser les données dans l'entrepôt de données ( Data Warehouse en anglais) en écrivant des processus d'extraction, transformation et chargements (ETL en anglais) afin de rendre ces données disponibles et compréhensibles pour les autres équipes métiers. Bloc n°2
- Analyse exploratoire, descriptive et inférentielle de données C2.1
- Traiter des bases de données grâce à des analyses statistiques descriptives et inférentielles via des librairies de programmation comme Numpy ou Pandas, pour les organiser et les nettoyer afin de les normaliser par rapport à la population étudiée. C2.2
- Effectuer des analyses univariées et multivariées sur des bases de données structurées afin de préciser des relations entre plusieurs variables et d'établir des liens statistiques entre elles. C2.3
- Optimiser les analyses statistiques grâce au traitement parallélisé via l'utilisation d'outils comme Spark pour accélérer le temps de calcul d'un ordinateur afin de pouvoir analyser des volumes de données massifs (Big Data) C2.4
- Présenter le résultat d'une analyse statistique de données structurées, massives ou non, grâce à des librairies de programmation comme Plotly ou Matplotlib pour synthétiser ce résultat devant un public profane afin de faciliter la prise de décisions et appuyer leurs déclinaisons opérationnelles Bloc n°3
- Analyse prédictive de données structurées par l'intelligence artificielle C3.1
- Traiter des données structurées en créant un pipeline de traitement grâce à des librairies de programmation comme Scikit-Learn pour encoder, normaliser et découper des données afin de les rendre interprétables par un algorithme d'apprentissage automatique (Machine Learning en anglais) C3.2
- Effectuer des analyses prédictives sur un jeu de données structurées grâce à des algorithmes d'apprentissage automatique supervisés adaptés afin d'automatiser des tâches liées aux résultats des prédictions de ces algorithmes C3.3
- Élaborer un algorithme d'apprentissage automatique non-supervisé pour segmenter une base de données en différents groupes homogènes ou réduire la dimension de cette dernière afin de pouvoir comprendre des observations de manière granulaire et de permettre leur visualisation C3.4
- Évaluer la performance prédictive des algorithmes d'apprentissage automatique en déterminant l'influence des différentes variables pour pouvoir l'améliorer afin de démontrer son utilité aux directions métiers, par rapport aux processus déjà établis dans l'organisation Bloc n°4
- Analyse prédictive de données non-structurées par l'intelligence artificielle C4.1
- Traiter des données non-structurées (image, texte, audio) par la création de fonction de traitements via l'utilisation de librairies de programmation comme TensorFlow ou Numpy pour les transformer en matrices afin de les rendre interprétables par un algorithme d'apprentissage automatique profond (Deep learning en anglais) C4.2
- Élaborer des réseaux de neurones adaptés (classiques, convolutifs ou recursifs) en superposant des couches neuronales via des librairies de programmation comme TensorFlow pour analyser des données non-structurées afin de détecter des signaux sur ces dernières C4.3
- Créer un algorithme robuste et précis en configurant un réseau de neurones pré-entrainé profond afin de répondre à des problématiques de prédiction sur des volumes de données massifs C4.4
- Créer des données non-structurées en élaborant des réseaux de neurones adverses afin de construire de nouvelles bases d'entrainement pour des applications d'intelligence artificielle C4.5
- Évaluer la performance d'un algorithme d'apprentissage automatique profond en évaluant des indicateurs sur des données d'entrainement et de validation afin d'industrialiser son utilisation Bloc n°5
- Industrialisation d'un algorithme d'apprentissage automatique et automatisation des processus de décision C5.1
- Standardiser la construction et l'environnement informatique d'un algorithme d'apprentissage automatique grâce des outils de production comme MLflow et Docker afin de faciliter la mise en production de projets d'intelligence artificielle sur tous types de plateformes C5.2
- Créer une interface de programmation applicative grâce à des outil comme AWS sagemaker afin de donner un accès à échelle aux prédictions des algorithmes d'apprentissage automatique à l'ensemble des équipes métiers concernées C5.3
- Déployer une application web intégrant des algorithmes de statistiques prédictives (Machine Learning et Deep Learning) grâce à des outils comme Flask, Heroku ou AWS sagemaker pour les rendre utilisables par l'ensemble des équipes métiers afin d'automatiser leurs processus de décision Bloc n°6
- Direction de projets de gestion de données C6.1
- Traduire les enjeux métiers en problématiques mathématiques/data grâce à une compréhension des besoins propres à chaque projet data afin de pouvoir répondre aux objectifs de l'organisation C6.2
- Maîtriser les technologies les plus récentes et adaptées du marché grâce à de la veille technologique et de la pratique constante pour développer une expertise afin d'être à même de proposer aux directions métiers les solutions les plus adaptées actuellement à une problématique et l'amélioration constante des process de gestion de données déjà en place C6.3
- Définir un cahier des charges, un retroplanning et un budget afin de défendre et détailler aux directions métier un projet data répondant aux besoins de l'organisation C6.4
- Gérer un projet d'analyse et de gestion de données (analyse statistique descriptive, Machine Learning, Deep Learning, Big Data ou non) grâce à l'élaboration d'indicateurs adaptés et de tableaux de bords, afin de faire le suivi et le bilan de l’action, ainsi que de la déclinaison opérationnelle de ses résultats, le tout dans le respect des normes de protection des données utilisateurs définies dans le RGPD C6.5
- Transmettre aux directions-métiers le process d'extraction d'informations et d'analyse de données en le vulgarisant afin de soutenir la mise en place d'une stratégie et d'actions futures. C6.6
- Diriger un projet de gestion de données, allant de sa conception à la mise en place de solutions, afin de le mener jusqu'à son terme, d'être la personne clé disposant de toutes les informations sur le projet à tout moment, et d'accompagner d'autres services de l'organisation dans l'ensemble des activités relatives à celui-ci
Secteurs d'activité :
Depuis l'émergence de l’Intelligence Artificielle et des Big Data, les Concepteurs Développeurs en Science des Données sont recrutés dans de différents et nombreux domaines (commercial, finance, santé, recherche, administration…), à des postes pouvant différer par leur niveau hiérarchique et leur niveau de technicité, et par une grandes variété d’organisations : dans l’industrie, par de grandes entreprises comme de jeunes start-up, dans le service public et l’administration, par des institutions scientifiques, des organisations médicales ou paramédicales et même des structures associatives. En effet, leur travail d'analyse peut facilement se retrouver à la base de l’élaboration de la stratégie générale d’une organisation. Tous les secteurs d’activités utilisant de la donnée sont ainsi concernés et quel que soit la taille de l’entreprise. Le “Concepteur Développeur en Science des Données” pourra exercer son activité : * Dans une entreprise de Services Numériques (ESN ou ex SSII) réalisant des prestations de science des données ou d’intelligence artificielle, en régie ou au forfait * Dans l’ensemble des structures utilisatrices d’Intelligence Artificielle, possédant un service dédié à l’analyse de données et aux développements de ces IA, du secteur privé ou public, entreprises ou association (ex : Banque, Assurance, startups spécialisées dans l’Intelligence Artificielle, certains établissements de recherche ou de santé, etc) * En tant qu’indépendant pour des missions de gestion de données, de conceptions ou mise en production d’algorithmes, ou de pilotage de projet Data. * Dans des organismes de formation spécialisés dans l’Intelligence Artificielle.
Depuis l'émergence de l’Intelligence Artificielle et des Big Data, les Concepteurs Développeurs en Science des Données sont recrutés dans de différents et nombreux domaines (commercial, finance, santé, recherche, administration…), à des postes pouvant différer par leur niveau hiérarchique et leur niveau de technicité, et par une grandes variété d’organisations : dans l’industrie, par de grandes entreprises comme de jeunes start-up, dans le service public et l’administration, par des institutions scientifiques, des organisations médicales ou paramédicales et même des structures associatives. En effet, leur travail d'analyse peut facilement se retrouver à la base de l’élaboration de la stratégie générale d’une organisation. Tous les secteurs d’activités utilisant de la donnée sont ainsi concernés et quel que soit la taille de l’entreprise. Le “Concepteur Développeur en Science des Données” pourra exercer son activité : * Dans une entreprise de Services Numériques (ESN ou ex SSII) réalisant des prestations de science des données ou d’intelligence artificielle, en régie ou au forfait * Dans l’ensemble des structures utilisatrices d’Intelligence Artificielle, possédant un service dédié à l’analyse de données et aux développements de ces IA, du secteur privé ou public, entreprises ou association (ex : Banque, Assurance, startups spécialisées dans l’Intelligence Artificielle, certains établissements de recherche ou de santé, etc) * En tant qu’indépendant pour des missions de gestion de données, de conceptions ou mise en production d’algorithmes, ou de pilotage de projet Data. * Dans des organismes de formation spécialisés dans l’Intelligence Artificielle.
Types d'emplois accessibles :
* Data Scientist * Data Engineer * Machine Learning Engineer * Développeur Full-Stack Python (ou Software Engineer) * Data Analyst (ou Data Miner) * Business Analyst * Consultant Intelligence Artificielle (ou Consultant Data) * Product Manager Data (ou Product Owner ou chef de produit Data) * Chef de Projet Data (ou Project Manager Data) * Ingénieur d'études / Chargé d'études * Ingénieur en Business Intelligence * Directeur / Directrice de l'Organisation et des Systèmes d'Information -DOSI * Attaché / Attachée d’études statistiques
* Data Scientist * Data Engineer * Machine Learning Engineer * Développeur Full-Stack Python (ou Software Engineer) * Data Analyst (ou Data Miner) * Business Analyst * Consultant Intelligence Artificielle (ou Consultant Data) * Product Manager Data (ou Product Owner ou chef de produit Data) * Chef de Projet Data (ou Project Manager Data) * Ingénieur d'études / Chargé d'études * Ingénieur en Business Intelligence * Directeur / Directrice de l'Organisation et des Systèmes d'Information -DOSI * Attaché / Attachée d’études statistiques
Objectif contexte :
La Science des Données (ou Data Science en anglais) est devenue au cours de ces dernières années un élément indispensable pour permettre aux entreprises d’innover et de se différencier, et l’Intelligence Artificielle un outil de performance indispensable.
La Science des Données (ou Data Science en anglais) est devenue au cours de ces dernières années un élément indispensable pour permettre aux entreprises d’innover et de se différencier, et l’Intelligence Artificielle un outil de performance indispensable.
Statistiques : :
Année | Certifiés | Certifiés VAE | Taux d'insertion global à 6 mois | Taux d'insertion métier à 2 ans |
---|---|---|---|---|
2019 | 60 | 0 | 86 | |
2020 | 60 | 0 | 78 |
Bloc de compétences
RNCP35288BC02 : Analyse exploratoire, descriptive et inférentielle de données
Compétences :
C2.1
- Traiter des bases de données grâce à des analyses statistiques descriptives et inférentielles via des librairies de programmation comme Numpy ou Pandas, pour les organiser et les nettoyer afin de les normaliser par rapport à la population étudiée. C2.2
- Effectuer des analyses univariées et multivariées sur des bases de données structurées afin de préciser des relations entre plusieurs variables et d'établir des liens statistiques entre elles. C2.3
- Optimiser les analyses statistiques grâce au traitement parallélisé via l'utilisation d'outils comme Spark pour accélérer le temps de calcul d'un ordinateur afin de pouvoir analyser des volumes de données massifs (Big Data) C2.4
- Présenter le résultat d'une analyse statistique de données structurées, massives ou non, grâce à des librairies de programmation comme Plotly ou Matplotlib pour synthétiser ce résultat devant un public profane afin de faciliter la prise de décisions et appuyer leurs déclinaisons opérationnelles.
C2.1
- Traiter des bases de données grâce à des analyses statistiques descriptives et inférentielles via des librairies de programmation comme Numpy ou Pandas, pour les organiser et les nettoyer afin de les normaliser par rapport à la population étudiée. C2.2
- Effectuer des analyses univariées et multivariées sur des bases de données structurées afin de préciser des relations entre plusieurs variables et d'établir des liens statistiques entre elles. C2.3
- Optimiser les analyses statistiques grâce au traitement parallélisé via l'utilisation d'outils comme Spark pour accélérer le temps de calcul d'un ordinateur afin de pouvoir analyser des volumes de données massifs (Big Data) C2.4
- Présenter le résultat d'une analyse statistique de données structurées, massives ou non, grâce à des librairies de programmation comme Plotly ou Matplotlib pour synthétiser ce résultat devant un public profane afin de faciliter la prise de décisions et appuyer leurs déclinaisons opérationnelles.
Modalités d'évaluation :
Type d'évaluation : Deux études de cas sur des données réelles Thème d'évaluation : - Gestion de valeurs manquantes et aberrantes d'une base de données non-massives puis analyse pour déterminer et présenter des tendances par le biais de graphiques. - Analyse d'une base de données massives déstructurées adaptée à une problématique définie.
Type d'évaluation : Deux études de cas sur des données réelles Thème d'évaluation : - Gestion de valeurs manquantes et aberrantes d'une base de données non-massives puis analyse pour déterminer et présenter des tendances par le biais de graphiques. - Analyse d'une base de données massives déstructurées adaptée à une problématique définie.
RNCP35288BC01 : Construction et alimentation d'une infrastructure de gestion de données
Compétences :
C1.1
- Concevoir une architecture de données robuste et adaptée en créant des lacs de données (Data Lake en anglais) et des entrepôts de données ( Data Warehouse en anglais) afin de répondre aux besoins de stockage, d'utilisation, de sécurité et de protection de l'organisation définie par un cahier des charges C1.2
- Intégrer la dimension de stockage et de calcul distribuée à l'infrastructure de données via l'utilisation d'outils comme Spark ou AWS Redshift afin de l'adapter à des besoins de gestion de données massives ( Big Data en anglais) C1.3
- Collecter des données provenant de différentes sources (Web, Logiciels internes de type Sage / Excel ou externes de type Google Analytics) via des librairies de programmation de type Scrapy ou Beautifulsoup dans le respect des normes de protection des données utilisateurs définies dans le RGPD pour alimenter le Data Lake afin d'affiner le résultat d'analyses futures. C1.4
- Nettoyer et organiser les données dans l'entrepôt de données (Data Warehouse en anglais) en écrivant des processus d'extraction, transformation et chargements (ETL en anglais) afin de rendre ces données disponibles et compréhensibles pour les autres équipes métiers.
C1.1
- Concevoir une architecture de données robuste et adaptée en créant des lacs de données (Data Lake en anglais) et des entrepôts de données ( Data Warehouse en anglais) afin de répondre aux besoins de stockage, d'utilisation, de sécurité et de protection de l'organisation définie par un cahier des charges C1.2
- Intégrer la dimension de stockage et de calcul distribuée à l'infrastructure de données via l'utilisation d'outils comme Spark ou AWS Redshift afin de l'adapter à des besoins de gestion de données massives ( Big Data en anglais) C1.3
- Collecter des données provenant de différentes sources (Web, Logiciels internes de type Sage / Excel ou externes de type Google Analytics) via des librairies de programmation de type Scrapy ou Beautifulsoup dans le respect des normes de protection des données utilisateurs définies dans le RGPD pour alimenter le Data Lake afin d'affiner le résultat d'analyses futures. C1.4
- Nettoyer et organiser les données dans l'entrepôt de données (Data Warehouse en anglais) en écrivant des processus d'extraction, transformation et chargements (ETL en anglais) afin de rendre ces données disponibles et compréhensibles pour les autres équipes métiers.
Modalités d'évaluation :
Type d'évaluation : Une étude de cas sur des données réelles Thème d'évaluation : Construction d'une infrastructure Cloud accueillant des données Big Data
Type d'évaluation : Une étude de cas sur des données réelles Thème d'évaluation : Construction d'une infrastructure Cloud accueillant des données Big Data
RNCP35288BC05 : Industrialisation d'un algorithme d'apprentissage automatique et automatisation des processus de décision
Compétences :
C5.1
- Standardiser la construction et l'environnement informatique d'un algorithme d'apprentissage automatique grâce des outils de production comme MLflow et Docker afin de faciliter la mise en production de projets d'intelligence artificielle sur tous types de plateformes C5.2
- Créer une interface de programmation applicative grâce à des outil comme AWS sagemaker afin de donner un accès à échelle aux prédictions des algorithmes d'apprentissage automatique à l'ensemble des équipes métiers concernées C5.3
- Déployer une application web intégrant des algorithmes de statistiques prédictives (Machine Learning et Deep Learning) grâce à des outils comme Flask, Heroku ou AWS sagemaker pour les rendre utilisables par l'ensemble des équipes métiers afin d'automatiser leurs processus de décision
C5.1
- Standardiser la construction et l'environnement informatique d'un algorithme d'apprentissage automatique grâce des outils de production comme MLflow et Docker afin de faciliter la mise en production de projets d'intelligence artificielle sur tous types de plateformes C5.2
- Créer une interface de programmation applicative grâce à des outil comme AWS sagemaker afin de donner un accès à échelle aux prédictions des algorithmes d'apprentissage automatique à l'ensemble des équipes métiers concernées C5.3
- Déployer une application web intégrant des algorithmes de statistiques prédictives (Machine Learning et Deep Learning) grâce à des outils comme Flask, Heroku ou AWS sagemaker pour les rendre utilisables par l'ensemble des équipes métiers afin d'automatiser leurs processus de décision
Modalités d'évaluation :
Type d'évaluation :Etude de cas pratique sur le déploiement d'un algorithme d'apprentissage automatique Thème d'évaluation : construction et mise en production d'une application web d'intelligence artificielle
Type d'évaluation :Etude de cas pratique sur le déploiement d'un algorithme d'apprentissage automatique Thème d'évaluation : construction et mise en production d'une application web d'intelligence artificielle
RNCP35288BC03 : Analyse prédictive de données structurées par l'intelligence artificielle
Compétences :
C3.1
- Traiter des données structurées en créant un pipeline de traitement grâce à des librairies de programmation comme Scikit-Learn pour encoder, normaliser et découper des données afin de les rendre interprétables par un algorithme d'apprentissage automatique (Machine Learning en anglais) C3.2
- Effectuer des analyses prédictives sur un jeu de données structurées grâce à des algorithmes d'apprentissage automatique supervisés adaptés afin d'automatiser des tâches liées aux résultats des prédictions de ces algorithmes C3.3
- Élaborer un algorithme d'apprentissage automatique non-supervisé pour segmenter une base de données en différents groupes homogènes ou réduire la dimension de cette dernière afin de pouvoir comprendre des observations de manière granulaire et de permettre leur visualisation. C3.4
- Évaluer la performance prédictive des algorithmes d'apprentissage automatique en déterminant l'influence des différentes variables pour pouvoir l'améliorer afin de démontrer son utilité aux directions métiers, par rapport aux processus déjà établis dans l'organisation
C3.1
- Traiter des données structurées en créant un pipeline de traitement grâce à des librairies de programmation comme Scikit-Learn pour encoder, normaliser et découper des données afin de les rendre interprétables par un algorithme d'apprentissage automatique (Machine Learning en anglais) C3.2
- Effectuer des analyses prédictives sur un jeu de données structurées grâce à des algorithmes d'apprentissage automatique supervisés adaptés afin d'automatiser des tâches liées aux résultats des prédictions de ces algorithmes C3.3
- Élaborer un algorithme d'apprentissage automatique non-supervisé pour segmenter une base de données en différents groupes homogènes ou réduire la dimension de cette dernière afin de pouvoir comprendre des observations de manière granulaire et de permettre leur visualisation. C3.4
- Évaluer la performance prédictive des algorithmes d'apprentissage automatique en déterminant l'influence des différentes variables pour pouvoir l'améliorer afin de démontrer son utilité aux directions métiers, par rapport aux processus déjà établis dans l'organisation
Modalités d'évaluation :
Type d'évaluation : trois études de cas pratiques tirées de cas réels Thème d'évaluation - Optimisation des processus par le biais d'algorithmes d'apprentissage supervisés - Optimisation d'algorithmes d'apprentissage automatique supervisé sur des bases de données déséquilibrées - Localisation de zones de densité géographique par l'élaboration d'algorithmes d'apprentissage automatique non-supervisé
Type d'évaluation : trois études de cas pratiques tirées de cas réels Thème d'évaluation - Optimisation des processus par le biais d'algorithmes d'apprentissage supervisés - Optimisation d'algorithmes d'apprentissage automatique supervisé sur des bases de données déséquilibrées - Localisation de zones de densité géographique par l'élaboration d'algorithmes d'apprentissage automatique non-supervisé
RNCP35288BC06 : Direction de projets de gestion de données
Compétences :
C6.1
- Traduire les enjeux métiers en problématiques mathématiques/data grâce à une compréhension des besoins propres à chaque projet data afin de pouvoir répondre aux objectifs de l'organisation C6.2
- Maîtriser les technologies les plus récentes et adaptées du marché grâce à de la veille technologique et de la pratique constante pour développer une expertise afin d'être à même de proposer aux directions métiers les solutions les plus adaptées actuellement à une problématique et l'amélioration constante des process de gestion de données déjà en place C6.3
- Définir un cahier des charges, un retroplanning et un budget afin de défendre et détailler aux directions métier un projet data répondant aux besoins de l'organisation C6.4
- Gérer un projet d'analyse et de gestion de données (analyse statistique descriptive, Machine Learning, Deep Learning, Big Data ou non) grâce à l'élaboration d'indicateurs adaptés et de tableaux de bords, afin de faire le suivi et le bilan de l’action, ainsi que de la déclinaison opérationnelle de ses résultats, le tout dans le respect des normes de protection des données utilisateurs définies dans le RGPD C6.5
- Transmettre aux directions-métiers le process d'extraction d'informations et d'analyse de données en le vulgarisant afin de soutenir la mise en place d'une stratégie et d'actions futures. C6.6
- Diriger un projet de gestion de données, allant de sa conception à la mise en place de solutions, afin de le mener jusqu'à son terme, d'être la personne clé disposant de toutes les informations sur le projet à tout moment, et d'accompagner d'autres services de l'organisation dans l'ensemble des activités relatives à celui-ci
C6.1
- Traduire les enjeux métiers en problématiques mathématiques/data grâce à une compréhension des besoins propres à chaque projet data afin de pouvoir répondre aux objectifs de l'organisation C6.2
- Maîtriser les technologies les plus récentes et adaptées du marché grâce à de la veille technologique et de la pratique constante pour développer une expertise afin d'être à même de proposer aux directions métiers les solutions les plus adaptées actuellement à une problématique et l'amélioration constante des process de gestion de données déjà en place C6.3
- Définir un cahier des charges, un retroplanning et un budget afin de défendre et détailler aux directions métier un projet data répondant aux besoins de l'organisation C6.4
- Gérer un projet d'analyse et de gestion de données (analyse statistique descriptive, Machine Learning, Deep Learning, Big Data ou non) grâce à l'élaboration d'indicateurs adaptés et de tableaux de bords, afin de faire le suivi et le bilan de l’action, ainsi que de la déclinaison opérationnelle de ses résultats, le tout dans le respect des normes de protection des données utilisateurs définies dans le RGPD C6.5
- Transmettre aux directions-métiers le process d'extraction d'informations et d'analyse de données en le vulgarisant afin de soutenir la mise en place d'une stratégie et d'actions futures. C6.6
- Diriger un projet de gestion de données, allant de sa conception à la mise en place de solutions, afin de le mener jusqu'à son terme, d'être la personne clé disposant de toutes les informations sur le projet à tout moment, et d'accompagner d'autres services de l'organisation dans l'ensemble des activités relatives à celui-ci
Modalités d'évaluation :
Type d'évaluation : projet data conçu de A à Z. Thème d'évaluation :libre. Les apprenants peuvent préparer le projet data de leur choix. Celui-ci peut être personnel, développé par le candidat dans le cadre de son activité professionnelle, ou défini par une entreprise partenaire. Il fera l'objet d'une soutenance orale de 10 minutes suivie de 5 à 10 minutes de questions.
Type d'évaluation : projet data conçu de A à Z. Thème d'évaluation :libre. Les apprenants peuvent préparer le projet data de leur choix. Celui-ci peut être personnel, développé par le candidat dans le cadre de son activité professionnelle, ou défini par une entreprise partenaire. Il fera l'objet d'une soutenance orale de 10 minutes suivie de 5 à 10 minutes de questions.
RNCP35288BC04 : Analyse prédictive de données non-structurées par l'intelligence artificielle
Compétences :
C4.1
- Traiter des données non-structurées (image, texte, audio) par la création de fonction de traitements via l'utilisation de librairies de programmation comme TensorFlow ou Numpy pour les transformer en matrices afin de les rendre interprétables par un algorithme d'apprentissage automatique profond (Deep learning en anglais) C4.2
- Élaborer des réseaux de neurones adaptés (classiques, convolutifs ou recursifs) en superposant des couches neuronales via des librairies de programmation comme TensorFlow pour analyser des données non-structurées afin de détecter des signaux sur ces dernières C4.3
- Créer un algorithme robuste et précis en configurant un réseau de neurones pré-entrainé profond afin de répondre à des problématiques de prédiction sur des volumes de données massifs C4.4
- Créer des données non-structurées en élaborant des réseaux de neurones adverses afin de construire de nouvelles bases d'entrainement pour des applications d'intelligence artificielle C4.5
- Évaluer la performance d'un algorithme d'apprentissage automatique profond en évaluant des indicateurs sur des données d'entrainement et de validation afin d'industrialiser son utilisation
C4.1
- Traiter des données non-structurées (image, texte, audio) par la création de fonction de traitements via l'utilisation de librairies de programmation comme TensorFlow ou Numpy pour les transformer en matrices afin de les rendre interprétables par un algorithme d'apprentissage automatique profond (Deep learning en anglais) C4.2
- Élaborer des réseaux de neurones adaptés (classiques, convolutifs ou recursifs) en superposant des couches neuronales via des librairies de programmation comme TensorFlow pour analyser des données non-structurées afin de détecter des signaux sur ces dernières C4.3
- Créer un algorithme robuste et précis en configurant un réseau de neurones pré-entrainé profond afin de répondre à des problématiques de prédiction sur des volumes de données massifs C4.4
- Créer des données non-structurées en élaborant des réseaux de neurones adverses afin de construire de nouvelles bases d'entrainement pour des applications d'intelligence artificielle C4.5
- Évaluer la performance d'un algorithme d'apprentissage automatique profond en évaluant des indicateurs sur des données d'entrainement et de validation afin d'industrialiser son utilisation
Modalités d'évaluation :
Type d'évaluation : une étude de cas pratique sur des données non-structurées Thème d'évaluation : Analyse de sentiment, par l'élaboration d'un algorithme permettant de déterminer le sentiment d'un utilisateur à l'égard d'un produit
Type d'évaluation : une étude de cas pratique sur des données non-structurées Thème d'évaluation : Analyse de sentiment, par l'élaboration d'un algorithme permettant de déterminer le sentiment d'un utilisateur à l'égard d'un produit
Partenaires actifs :
Partenaire | SIRET | Habilitation |
---|---|---|
26 ACADEMY | 83069794200027 | HABILITATION_ORGA_FORM |
IFPASS SERVICES | 82379935800028 | HABILITATION_FORMER |
JEDHA | 83872651100036 | HABILITATION_ORGA_FORM |
JEDHA | 83872651100044 | HABILITATION_ORGA_FORM |
JEDHA | 83872651100010 | HABILITATION_ORGA_FORM |
M2I | 33354415300344 | HABILITATION_ORGA_FORM |
NEOMA BUSINESS SCHOOL | 83429535400049 | HABILITATION_ORGA_FORM |
NEOMA BUSINESS SCHOOL | 83429535400015 | HABILITATION_ORGA_FORM |
SCRIBTEL FORMATION | 39336786700024 | HABILITATION_ORGA_FORM |