1. Un Data Scientist, qu’est-ce que c’est ?
Le Dataminer ou Data Scientist analyse des masses de données hétérogènes, généralement non structurées, pour en extraire de la connaissance utile à l’optimisation des offres et services de l’entreprise.
Il est responsable de la gestion et de l’analyse des données (big data). Il est en charge de mettre ces données au service de la direction et des coopérateurs d’une entreprise. Ce métier relève des enjeux à la fois fonctionnels et stratégiques pour l’entreprise.
On peut encore l’intituler Ingénieur data scientist , Ingénieur big data , Analyst dataminer, Consultant dataminer ou bien Data analyst .
Le métier de Data Scientist est sans aucun doute passionnant. Il s’agit d’un poste à haute responsabilité, qui nécessite une formation de haut niveau mais aussi des prédispositions naturelles. Le Data Scientist possède également des compétences techniques diverses selon l’environnement de travail, c’est pourquoi les profils sont rares et extrêmement recherchés.
On retrouve les Data Scientists dans des secteurs très variés comme le domaine de la finance, de l’e-commerce, de l’informatique, ou encore de l’assurance.
2. Formations et compétences requises
Une formation d’analyste des données avec des connaissances en statistiques
Avoir un esprit d’analyse est important pour comprendre les problématiques de l’entreprise, car non seulement les volumes de données, mais aussi la complexité fonctionnelle sont importants.
Maîtriser des outils analytiques
Une connaissance approfondie d’au moins un outil analytique tel que SAS ou R est en général exigée pour l’analyse et l’exploration des données.
Les langages de programmation
Les postes de Data Scientist requièrent la maîtrise d’au moins un langage de programmation. Ceux les plus couramment employés sont Python et R.
Au delà de la maîtrise d’un langage de programmation, un Data Scientist se doit parfois d’avoir également des compétences complètes d’ingénieur logiciel. Celles-ci lui permettront notamment de prendre en charge le développement d’un produit adossé à l’exploitation de la masse de données.
Des notions de Machine Learning
En complément des outils analytiques et des langages de programmation, maîtriser quelques méthodes de Machine Learning peut être un réel atout pour la création d’un produit de prédiction dirigée par les données. Cela peut s’articuler autour des concepts d’algorithmes supervisés et non supervisés, des algorithmes de régression et de classification. Il n’est pour autant pas indispensable de savoir comment fonctionnent ces algorithmes, mais ces différentes techniques peuvent être directement exploitées à l’aide des librairies R ou Python. L’essentiel est de comprendre quelle méthode est la plus pertinente selon la situation.
L’utilisation d’Hadoop
Si certaines entreprises pour certaines missions ne l’exigent pas, la maîtrise des outils de traitement Hive et Pig est un argument supplémentaire en vue d’un recrutement. La plateforme Hadoop a également son importance.
La programmation en SQL et no-SQL
La plupart des missions demande une maîtrise de la programmation en SQL pour pouvoir formuler et exécuter des requêtes.
La gestion de données non structurées
Pour devenir Data Scientist, il est indispensable de savoir gérer des données non structurées et de traiter les données comportant des imperfections, telles que des valeurs manquantes ou des chaînes de format incohérentes.
La curiosité intellectuelle
Pour mener à bien le travail de Data Scientist, il est nécessaire d’être créatif, curieux et de poser ses propres questions plutôt que de simplement répondre à celles qui se posent.
La curiosité intellectuelle est indispensable pour déceler les données les plus intéressantes et exploitables au sein d’un gigantesque volume de data.
En effet, pour parvenir à exploiter le volume énorme des données d’une entreprise, il est nécessaire de parler le langage des experts et de comprendre le contexte métier de l’entreprise en général et le problème à résoudre plus particulièrement.
Maîtrise des outils data management
SAS, SPSS, Python, R, Excel, Access…
Compétences techniques
- Maîtrise des algorithmes d’apprentissage automatique (Machine Learning1)
- Maîtrise des outils de data management (SAS, SPSS, Python, R, Excel, Access…)
- Maîtrise des technologies HADOOP
- Maîtrise des bases de données SQL et no-SQL
- Connaissance des réseaux de neurones et d’intelligence artificielle
- Maîtrise des outils de Web analyse (Omniture, Google Aanalytics etc.)
- Bonne maîtrise de l’anglais
Aptitudes professionnelles
- Esprit d’analyse important pour comprendre les problématiques de l’entreprise dû aux volumes importants de données.
- Très grande rigueur pour assurer l’exactitude des calculs réalisés
- Capacité d’organisation pour structurer ses méthodes de travail et son plan d’intervention
- Excellente capacité à communiquer avec une très bonne pédagogie pour expliciter sa méthode de travail aux collaborateurs et savoir convaincre afin d’optimiser et améliorer la satisfaction du client
- Curiosité, afin de suivre la veille technologique
- Qualités d’écoute afin de recueillir avec précision les informations et besoins des clients
Diplômes requis
Une formation poussée semble nécessaire pour développer le niveau de connaissance suffisant à l’exercice de ce métier. À l’heure actuelle, la majeure partie des data scientists sont diplômés au minimum d’un master, et une grande majorité d’entre eux sont titulaires d’un doctorat.
Ils sont en général issus d’une formation dans le domaine des mathématiques et des statistiques ou bien ils ont étudié les sciences informatiques avec une minorité qui proviennent d’écoles d’ingénieurs.
- Diplôme universitaire Bac +5 (Master en statistiques et marketing, informatique, statistique et informatique décisionnelle, économétrie, diplôme d’école d’ingénieurs , master spécialisé Big data analyse, management et valorisation responsable )
- Doctorat en informatique, en mathématiques, en statistiques ou en modélisation des données
3. Les clients d’un Data Scientist
- Grandes banques et assurances
- Sociétés de services et d’ingénierie en informatique
- Agences de marketing
- Sociétés de conseil en gestion des entreprises ou spécialisées en datamining
- Sociétés de la grande distribution
Vous voulez en apprendre plus sur la gestion de la data en entreprise ? Lisez la série d’articles sur la Data Democracy, le premier est ici : https://weblog.wemanity.com/data-democracy-question-de-droits/