Tout le monde a déjà entendu parler du Big Data. Dernier mot à la mode pour peu que l’on s’intéresse à Internet ou plus généralement à l’informatique, sa définition reste pour nombre d’entre nous assez obscure. Qu’est-ce que le Big Data ? Voici la question à laquelle oonay va répondre pour vous aider à comprendre comment ce concept est né, comment il fonctionne et quelles sont les technologies dont il dépend.
1# Le phénomène du Big Data
C’est en 1997 qu’apparaît le mot Big Data.
-
1#1 Que désigne-t-il ?
En français, on va parler de mégadonnées ou de données massives. Il s’agit d’un ensemble de données si gros qu’aucun outil classique n’est capable de les gérer.
Sur une plateforme Big Data, ce sont des trillions de données qui doivent être traités tous les jours. Ces informations proviennent d’un peu partout sur le net. Elles englobent aussi bien les messages, les vidéos, des informations météo, d’enregistrements d’achats ou encore de signaux GPS.
-
1#2 De qui dépend-il ?
Les plus grosses entreprises du web, Facebook, Yahoo, mais aussi Google, se sont emparées de ce phénomène. Elles ont très vite compris que cette innovation, souvent comparée à l’invention de la machine à vapeur, pouvait leur rapporter beaucoup, à condition d’arriver à gérer les problèmes qu’elle peut générer.
À l’ère de l’information, il est très important de savoir à la fois la produire, la traiter et la diffuser.
-
1#3 Le Big Data soulève alors un grand nombre de questionnements :
Comment gérer ce nombre croissant de données ?
Le sécuriser ?
Comment l’utiliser pour gagner de nouveaux prospects ?
A l’heure qu’il est, toutes les entreprises doivent se poser ces questions. Pour y répondre la plupart vont faire appel à ce que l’on nomme la Data Fabric ou la Data Fab.
-
1#4 Mais qu’est-ce qu’une Data Fabric ?
Pour vous l’expliquer, nous allons prendre un exemple : la SNCF est en train d’entrer dans l’ère digitale, notamment sur son site de e-commerce. Comment ? Grâce à une Machine Learning qui traite de grands volumes de données en temps réel afin de proposer à ses clients le meilleur service possible. Voyages SNCF Technologies, l’entreprise qui se charge de ces problématiques, se définit elle-même comme la Big Data Fab de la SNCF.
La Data Fabric est donc une association de différents terminaux, logiciels, applications qui va permettre de connecter un site, un cloud ou tout autre environnement numérique. Grâce à elle et à l’aide des Data Scientists qui travaillent dessus, le traitement des données est sécurisé et simplifié. Bienvenue dans l’ère du Big Data !
Comment fonctionnent ces technologies ?
Traiter autant de données relève de l’exploit et nécessite l’aide de très nombreuses technologies. Pour y faire face, un panel de nouveaux métiers très intéressants émerge. Zoom sur ces éléments !
-
2#1 Concept des 3V
Le Big data est une solution qui permet à tout le monde d’accéder, en temps réel, à un nombre colossal de données. Il vient donc remplacer les bases de données et d’analyse classiques telles que les plateformes de Business Intelligence en SQL et d’autres. Pour ce faire, il a besoin d’outils qui vont lui permettre de résoudre une problématique particulière. Elle est liée au Volume des données à traiter, à leur Variété, mais aussi à la Vélocité qu’il faut pour les atteindre.
C’est ce que l’on nomme la règle des 3V. Le Volume concerne une masse de données sans cesse croissante et qu’il faut traiter le plus rapidement possible. C’est le second point que l’on nomme Vélocité ou Vitesse. Le temps de traitement doit être le plus proche possible du temps réel. C’est même un véritable enjeu. Le troisième point à traiter est la Variété. Les données n’ont pas toutes le même format et ne sont pas forcément structurées. Il faut donc réussir à mettre en place un système qui va pouvoir lier tous ces éléments.
C’est là que les systèmes d’intelligence artificielle et ceux du Big Data entrent en piste !
-
2#2 Développement du Framework Hadoop, sur HDFS et MapReduce
Si la capacité des disques durs augmente, le temps de traitement des données augmente lui aussi. La logique est implacable.
Pour pallier à ce problème, on a longtemps mis en parallèle plusieurs disques durs. Mais que ce passerait-il en cas de panne matériel ? Il suffit de dupliquer le donner et de les sauvegarder ailleurs ! Cette solution longtemps utilisé présente néanmoins deux inconvénients majeurs, c’est long et coûteux.
C’est alors qu’est né le framework logiciel Hadoop. Créé par Doug Cutting, il propose un système de stockage distribué grâce à son système de fichier HDFS (Hadoop Distributed File System). Il est de surcroît associé à un système d’analyse des données : le système MapReduce.
Pour simplifier, Hadoop permet donc de stocker énormément de données et de lancer des applications sur plusieurs machines en même temps. C’est la solution Big Data standard depuis les années 2000.
Pour le traitement des données, le Data Mining, c’est MapReduce qui est à l’œuvre. Ce framework permet pour sa part de déplacer le logiciel de traitement vers les données à traiter.
Tous les deux sont des logiciels libres, des open sources, deux véritables innovations qui ont révolutionné le traitement et le stockage des données.
-
2#3 Quels sont les nouveaux métiers du Big Data ? (Data scientists, Data engineer, Data architect…)
Le temps n’est pas encore venu cependant où l’on pourra se passer de l’intelligence humaine dans le Big Data. En effet, même si l’intelligence artificielle et le Deep Learning sont en pleine expansion, l’esprit humain et ses facultés d’analyse sont toujours essentiels. Les grandes écoles le savent et ont ouvert des formations pour tous les nouveaux métiers induits par la création des plateformes Big Data.
Les Data Scientists, les Data Analyst et les Data Miner sont les garants de l’analyse et de la gestion des données massives.
Le Data Engineer s’assure que le système de gestion des données reste bien opérationnel. Il surveille, déploie des sondes et vérifie la robustesse des applications.
Le Data Architect est chargé de l’identification des différentes sources de données qui vont venir alimenter ce que l’on appelle le Data Lake.
Tous ces métiers sont essentiels au sein d’un Data Lab et sont en pleine expansion. Si vous avez un profil scientifique et un intérêt aigu pour l’informatique, renseignez-vous !