Expert en data science

Certification RNCP37431
Formacodes 31026 | Data science
Nomenclature Europe Niveau 7

Les métiers associés à la certification RNCP37431 : Conseil et maîtrise d'ouvrage en systèmes d'information Études et développement informatique Expertise et support en systèmes d'information Études et prospectives socio-économiques

Codes NSF 326 | Informatique, traitement de l'information, réseaux de transmission
Voies d'accès : Formation initiale Contrat d'apprentissage Formation continue Contrat de professionnalisation VAE

Prérequis : Pour accéder à la certification Expert en data science, les candidats doivent obligatoirement justifier d'un des prérequis suivants : - être titulaire d’une certification professionnelle de niveau 6 en mathématiques, informatique, technologie, économie, f

Certificateurs :

Certificateur	SIRET
OPENCLASSROOMS	49386136300080

Activités visées :
Collecter, pré-traiter et analyser des données et créer des variables pertinentes (feature engineering) pour l'entraînement d’un modèle Définition de la stratégie de collecte de données et réalisation d’une collecte via une API Définition et gestion du nettoyage de données structurées Réalisation d’analyses statistiques et de représentations graphiques de données structurées Conception et adaptation de variables pertinentes pour les modèles d’apprentissage (feature engineering) Concevoir des modèles d'apprentissage à partir de données structurées et de données non structurées (texte et images) Définition et mise en oeuvre de la stratégie d’élaboration d’un modèle d’apprentissage supervisé avec des données structurées, pour réaliser une analyse prédictive Définition et mise en oeuvre de la stratégie d’élaboration d’un modèle d’apprentissage non supervisé avec des données structurées, pour segmenter ou réduire des données Définition et mise en oeuvre de la stratégie d’élaboration d’un modèle d’apprentissage profond (deep learning) pour réaliser une analyse prédictive Gérer le cycle de vie et le déploiement en production d’un modèle (MLOps) ou d’une application dans des environnements classiques et Big Data Gestion du cycle de vie et déploiement continu en production d'un modèle dans le cadre d'une démarche orientée MLOps Conception, préparation, et déploiement d’une application ou d’un modèle d’apprentissage en utilisant les technologies du big data Manager des projets IA et de data science complexes en intégrant les contraintes légales et les valeurs d’éthique Réalisation d’une veille sur les outils et tendances en data science et IA Organisation de l'expression du besoin des métiers et formalisation de user stories Cadrage et gestion d’un projet IA ou de data science, selon une approche agile de type SCRUM Présentation des projets de data science et restitution des résultats aux métiers

Capacités attestées :
Définir la stratégie de collecte de données en recensant les API disponibles, et réaliser la collecte des données répondant à des critères définis via une API (interface de programmation) en prenant en compte les normes RGPD, afin de les exploiter pour l’élaboration d’un modèle. Déterminer les objectifs du nettoyage des données et de la démarche de mise en œuvre, afin de construire un jeu de données adapté à une problématique métier. Effectuer des opérations de nettoyage sur des données structurées, notamment l’identification d’outliers et le remplissage de données manquantes, dans le respect des normes en vigueur (RGPD) afin de proposer des données exploitables pour une problématique métier. Effectuer des analyses statistiques univariées et multivariées, notamment des tests statistiques, à partir de données structurées et nettoyées afin de présenter leur distribution, valider leur cohérence et détecter des corrélations. Représenter des données grâce à des graphiques afin d’expliciter et justifier les analyses réalisées. Utiliser des techniques appropriées de réduction en deux dimensions de données de grande dimension, et les représenter graphiquement afin d'en réaliser l'analyse exploratoire. Sélectionner, transformer et créer les variables pertinentes d'un modèle d'apprentissage supervisé ou non supervisé (feature engineering) afin de réaliser un apprentissage optimal. Pré-traiter des données non structurées de type texte en prenant en compte les normes liées à la propriété intellectuelle, et réaliser un feature engineering adapté aux modèles d'apprentissage afin d’obtenir un jeu de données exploitables. Pré-traiter des données non structurées de type image en veillant au respect du droit à l’image et réaliser un feature engineering adapté aux modèles d'apprentissage afin d’obtenir un jeu de données exploitables. Réduire la dimension de données de grande dimension, afin d'optimiser les temps d’entraînement des modèles. Définir la stratégie d’élaboration d’un modèle d’apprentissage supervisé, sélectionner et entraîner des modèles adaptés à une problématique métier, afin de réaliser une analyse prédictive. Évaluer les performances des modèles d’apprentissage supervisé selon différents critères (scores, temps d'entraînement, etc.) en adaptant les paramètres afin de choisir le modèle le plus performant pour la problématique métier. Définir la stratégie d’élaboration d’un modèle d’apprentissage non supervisé, sélectionner et entraîner des modèles adaptés à une problématique métier afin de réaliser une segmentation ou une réduction de données. Évaluer les performances des modèles d’apprentissage non supervisé selon différents critères (scores, temps d'entraînement, etc.) en adaptant les paramètres afin de choisir le modèle le plus performant pour la problématique métier. Définir la stratégie d’élaboration d’un modèle d'apprentissage profond, concevoir ou ré-utiliser des modèles pré-entraînés (transfer learning) et entraîner des modèles afin de réaliser une analyse prédictive. Évaluer la performance des modèles d’apprentissage profond selon différents critères (scores, temps d'entraînement, etc.) afin de choisir le modèle le plus performant pour la problématique métier. Utiliser des techniques d’augmentation des données afin d'améliorer la performance des modèles. Définir et mettre en œuvre un pipeline d’entraînement des modèles, avec centralisation du stockage des modèles et formalisation des résultats et mesures des différentes expérimentations réalisées, afin d’industrialiser le projet de Machine Learning. Mettre en œuvre un logiciel de version de code afin d’assurer en continu l’intégration et la diffusion du modèle auprès de collaborateurs. Concevoir et assurer un déploiement continu d'un moteur d’inférence (modèle de prédiction encapsulé dans une API) sur une plateforme Cloud afin de permettre à des applications de réaliser des prédictions via une requête à l’API. Définir et mettre en œuvre une stratégie de suivi de la performance d’un modèle en production, et en assurer la maintenance afin de garantir dans le temps la production de prédictions performantes. Sélectionner les outils du Cloud permettant de traiter et stocker les données d'un projet Big Data conforme aux normes RGPD en vigueur, afin de concevoir une application de qualité supportant le traitement de données massives. Pré-traiter, analyser et modéliser des données (en veillant à leur conformité RGPD) dans un environnement Big data en utilisant les outils du Cloud, afin de concevoir une application sécurisée de qualité supportant le traitement de données massives. Réaliser des calculs distribués sur des données massives en utilisant les outils adaptés et en prenant en compte le RGPD, afin de permettre la mise en œuvre d’applications à l’échelle. Réaliser une veille sur les outils et tendances en data science et IA afin de mettre à jour son expertise et de s’assurer que les méthodes utilisées mobilisent bien les techniques en vigueur. Organiser l’identification des besoins métiers d’un projet de Data Science / IA et formaliser ces besoins sous forme de user stories afin de réaliser des solutions adaptées aux besoins des clients. Identifier les ressources humaines, techniques et financières d'un projet de data science afin de mettre en œuvre la conception et la réalisation de modèles ou d'applications mettant en œuvre des modèles. Intégrer le respect des contraintes légales et éthiques relatives à la collecte de données personnelles afin de respecter les règles du RGPD et maîtriser les problématiques d'éthique des données personnelles traitées. Analyser les risques inhérents au projet et à la gestion des données personnelles et planifier des réponses adéquates aux risques significatifs afin de garantir la maîtrise et la réussite du projet. Piloter ou participer au pilotage du projet en planifiant les différents sprints afin de permettre la mobilisation des parties prenantes et le bon déroulement du projet. Réaliser un tableau de bord afin de présenter son travail de modélisation à un public non technique, et adapté à des personnes en situation de handicap en appliquant certains critères d'accessibilité du WCAG. Rédiger une note méthodologique, contenant notamment le choix des algorithmes testés, les métriques utilisées et l’interprétabilité du modèle proposé, afin de communiquer sa démarche de modélisation. Réaliser la présentation orale d’une démarche de modélisation à un client interne/externe, afin de partager les résultats et faciliter la prise de décision de l'interlocuteur.

Secteurs d'activité :
L’expert en data science peut exercer en tant qu’indépendant, dans un cabinet de conseil, en entreprise ou encore dans le secteur public. Les employeurs sont de toutes tailles et de tous secteurs, mais le besoin est plus important pour les grandes entreprises, exception faite des petites et moyennes entreprises (TPE- PME) technologiques, qui offrent un produit technique, et des cabinets de conseil, qui offrent des prestations d’expertise. Les secteurs de prédilection pour le recrutement d’un expert en data science sont la banque/ finance, l’assurance, les entreprises et services du numérique (ESN), les entreprises de télécommunication, la logistique et la distribution et, enfin, les grands groupes de tous secteurs, qui recrutent des experts en data science pour leurs besoins d’optimisation en finance, marketing, vente ou produit. Les principaux secteurs adressés par les entreprises et services du numérique sont la distribution, l’industrie et les services financiers.

Types d'emplois accessibles :
L’expert en data science peut exercer plusieurs fonctions, à titre non exhaustif : * Data Scientist * Responsable data/ lead data * Chef de projet data * Data analyst senior/ Senior Data analyst * Business analyst senior/ Head of business analysis * Ingénieur machine learning/ Machine learning engineer * Ingénieur deep learning/ Deep learning engineer * Ingénieur vision assistée par ordinateur/ Computer vision scientist * Ingénieur traitement automatique du langage naturel/ Natural Language processing scientist * Compliance officer data scientist * Analyste quantitatif * Ingénieur Big data * Data manager

Liens Référentiel :
: https://openclassrooms.com/fr/paths/164-data-scientist

Objectif contexte :
La certification professionnelle d'Expert en data science, a initialement été enregistrée au Répertoire national des certifications professionnelles le 30 mars 2020 au niveau 7 sous l'intitulé de Data scientist. Le périmètre de la certification profession

Statistiques : :

Année	Certifiés	Taux d'insertion global à 6 mois	Taux d'insertion métier à 2 ans
2019	38	100	87
2021	165	84	75
2020	72	91	70

Bloc de compétences

RNCP37431BC02 : Concevoir des modèles d'apprentissage automatique à partir de données structurées et de données non structurées (texte et images)

Compétences :
Définir la stratégie d’élaboration d’un modèle d’apprentissage supervisé, sélectionner et entraîner des modèles adaptés à une problématique métier, afin de réaliser une analyse prédictive. Évaluer les performances des modèles d’apprentissage supervisé selon différents critères (scores, temps d'entraînement, etc.) en adaptant les paramètres afin de choisir le modèle le plus performant pour la problématique métier. Définir la stratégie d’élaboration d’un modèle d’apprentissage non supervisé, sélectionner et entraîner des modèles adaptés à une problématique métier afin de réaliser une segmentation ou une réduction de données. Évaluer les performances des modèles d’apprentissage non supervisé selon différents critères (scores, temps d'entraînement, etc.) en adaptant les paramètres afin de choisir le modèle le plus performant pour la problématique métier. Définir la stratégie d’élaboration d’un modèle d'apprentissage profond, concevoir ou ré-utiliser des modèles pré-entraînés (transfer learning) et entraîner des modèles afin de réaliser une analyse prédictive. Évaluer la performance des modèles d’apprentissage profond selon différents critères (scores, temps d'entraînement, etc.) afin de choisir le modèle le plus performant pour la problématique métier. Utiliser des techniques d’augmentation des données afin d'améliorer la performance des modèles.

Modalités d'évaluation :
Projets (mises en situation professionnelle) et soutenances.

RNCP37431BC01 : Collecter, pré-traiter, analyser des données et créer des variables pertinentes (feature engineering) pour l'entraînement d’un modèle

Compétences :
Définir la stratégie de collecte de données en recensant les API disponibles, et réaliser la collecte des données répondant à des critères définis via une API (interface de programmation) en prenant en compte les normes RGPD, afin de les exploiter pour l’élaboration d’un modèle. Déterminer les objectifs du nettoyage des données et de la démarche de mise en œuvre, afin de construire un jeu de données adapté à une problématique métier. Effectuer des opérations de nettoyage sur des données structurées, notamment l’identification d’outliers et le remplissage de données manquantes, dans le respect des normes en vigueur (RGPD) afin de proposer des données exploitables pour une problématique métier. Effectuer des analyses statistiques univariées et multivariées, notamment des tests statistiques, à partir de données structurées et nettoyées afin de présenter leur distribution, valider leur cohérence et détecter des corrélations. Représenter des données grâce à des graphiques afin d’expliciter et justifier les analyses réalisées. Utiliser des techniques appropriées de réduction en deux dimensions de données de grande dimension, et les représenter graphiquement afin d'en réaliser l'analyse exploratoire. Sélectionner, transformer et créer les variables pertinentes d'un modèle d'apprentissage supervisé ou non supervisé (feature engineering) afin de réaliser un apprentissage optimal. Pré-traiter des données non structurées de type texte en prenant en compte les normes liées à la propriété intellectuelle, et réaliser un feature engineering adapté aux modèles d'apprentissage afin d’obtenir un jeu de données exploitables. Pré-traiter des données non structurées de type image en veillant au respect du droit à l’image et réaliser un feature engineering adapté aux modèles d'apprentissage afin d’obtenir un jeu de données exploitables. Réduire la dimension de données de grande dimension, afin d'optimiser les temps d’entraînement des modèles.

Modalités d'évaluation :
Projets (mises en situation professionnelle) et soutenances.

RNCP37431BC03 : Gérer le cycle de vie et le déploiement en production d’un modèle (MLOps) ou d’une application dans des environnements classiques et Big Data

Compétences :
Définir et mettre en œuvre un pipeline d’entraînement des modèles, avec centralisation du stockage des modèles et formalisation des résultats et mesures des différentes expérimentations réalisées, afin d’industrialiser le projet de Machine Learning. Mettre en œuvre un logiciel de version de code afin d’assurer en continu l’intégration et la diffusion du modèle auprès de collaborateurs. Concevoir et assurer un déploiement continu d'un moteur d’inférence (modèle de prédiction encapsulé dans une API) sur une plateforme Cloud afin de permettre à des applications de réaliser des prédictions via une requête à l’API. Définir et mettre en œuvre une stratégie de suivi de la performance d’un modèle en production, et en assurer la maintenance afin de garantir dans le temps la production de prédictions performantes. Sélectionner les outils du Cloud permettant de traiter et stocker les données d'un projet Big Data conforme aux normes RGPD en vigueur, afin de concevoir une application de qualité supportant le traitement de données massives. Prétraiter, analyser et modéliser des données (en veillant à leur conformité RGPD) dans un environnement Big data en utilisant les outils du Cloud, afin de concevoir une application sécurisée de qualité supportant le traitement de données massives. Réaliser des calculs distribués sur des données massives en utilisant les outils adaptés et en prenant en compte le RGPD, afin de permettre la mise en œuvre d’applications à l’échelle.

Modalités d'évaluation :
Projets (mises en situation professionnelle) et soutenances.

RNCP37431BC04 : Manager des projets d'intelligence artificielle et de data science complexes en intégrant les contraintes légales et les valeurs d’éthique

Compétences :
Réaliser une veille sur les outils et tendances en data science et IA afin de mettre à jour son expertise et de s’assurer que les méthodes utilisées mobilisent bien les techniques en vigueur. Organiser l’identification des besoins métiers d’un projet de Data Science / IA et formaliser ces besoins sous forme de user stories afin de réaliser des solutions adaptées aux besoins des clients. Identifier les ressources humaines, techniques et financières d'un projet de data science afin de mettre en œuvre la conception et la réalisation de modèles ou d'applications mettant en œuvre des modèles. Intégrer le respect des contraintes légales et éthiques relatives à la collecte de données personnelles afin de respecter les règles du RGPD et maîtriser les problématiques d'éthique des données personnelles traitées. Analyser les risques inhérents au projet et à la gestion des données personnelles et planifier des réponses adéquates aux risques significatifs afin de garantir la maîtrise et la réussite du projet. Piloter ou participer au pilotage du projet en planifiant les différents sprints afin de permettre la mobilisation des parties prenantes et le bon déroulement du projet. Réaliser un tableau de bord afin de présenter son travail de modélisation à un public non technique, et adapté à des personnes en situation de handicap en appliquant certains critères d'accessibilité du WCAG. Rédiger une note méthodologique, contenant notamment le choix des algorithmes testés, les métriques utilisées et l’interprétabilité du modèle proposé, afin de communiquer sa démarche de modélisation. Réaliser la présentation orale d’une démarche de modélisation à un client interne/externe, afin de partager les résultats et faciliter la prise de décision de l'interlocuteur.

Modalités d'évaluation :
Projets (mises en situation professionnelle) et soutenances.

Partenaires actifs :

Partenaire	SIRET	Habilitation
LYCEE TECHNIQUE REGIONAL LES EUCALYPTUS	19060075900020	HABILITATION_FORMER

Expert en data science

Bloc de compétences

Select your color

Light/dark Layout