Le Big Data pour les nuls

23 Sep 2018 | Acquisition, Contenu, Performance

On a tous entendu parler du Big Data. C’est le dernier mot à la mode lorsque l’on s’intéresse un tant soit peu à Internet et à l’informatique. Êtes-vous capable de le définir ? Pas forcément ! Nous avons donc décidé de vous parler de ce phénomène. Suivez-nous, nous vous expliquons comment ce concept est né, comment il fonctionne et quelles sont les technologies dont il dépend.

 

  1. Le phénomène du Big Data

C’est en 1997 qu’apparaît le mot Big Data. Que désigne-t-il ? En français, on va parler de mégadonnées ou de données massives. Il s’agit donc d’un ensemble de données si gros qu’aucun outil classique n’est capable de les gérer. Sur une plateforme Big Data, ce sont des trillions de données qui doivent être traitées tous les jours. Ces informations proviennent d’un peu partout sur le net. Il peut s’agir aussi bien de messages, de vidéos, d’informations météo, d’enregistrement d’achats ou de signaux GPS.

De qui dépend-il ? Les plus grosses entreprises du web, Facebook, Yahoo, mais aussi Google, se sont emparé de ce phénomène. Elles ont vite compris que cette innovation, que l’on compare souvent à l’invention de la machine à vapeur, pouvait leur rapporter beaucoup à condition qu’elles arrivent à gérer les problèmes qu’il peut créer. À l’ère de l’information, il est, en effet, important d’être celui qui sait la produire, la traiter et la diffuser.

Comment gérer ce nombre croissant de données ? Comment le sécuriser ? Comment l’utiliser pour gagner de nouveaux prospects ? Ce sont les questions que les entreprises doivent se poser aujourd’hui. Pour y répondre la plupart vont faire appel à ce que l’on nomme la Data Fabric ou la Data Fab. Qu’est-ce que c’est ?

Prenons un exemple : la SNCF est en train d’entrer dans l’ère digitale, notamment sur son site de e-commerce. Comment ? Grâce à une Machine Learning, elle traite de grands volumes de données en temps réel afin de proposer à ses clients le meilleur service possible. Voyages SNCF Technologies, l’entreprise qui se charge de ces problématiques, se définit elle-même comme la Big Data Fab de la SNCF.

La Data Fabric est donc une association de différents terminaux, logiciels, applications qui va permettre de connecter un site, un cloud ou tout autre environnement numérique. Grâce à elle et à l’aide des Data Scientists qui travaillent dessus, le traitement des données est sécurisé et simplifié. Bienvenue dans l’ère du Big Data !

 

  1. Fonctionnement et technologies

Traiter autant de données relève de l’exploit et nécessite l’aide de très nombreuses technologies. Ce phénomène est aussi en train de créer un panel de nouveaux métiers très intéressants. Zoom sur ces éléments !

2.1 Concept des 3V

Le Big data est une solution qui permet à tout le monde d’accéder, en temps réel à un nombre énorme de données. Il vient donc remplacer les bases de données et d’analyse classiques telles que les plateformes de Business Intelligence en SQL et d’autres. Pour ce faire, il a besoin d’outils qui vont lui permettre de résoudre une problématique particulière liée au volume des données à traiter, à leur variété, mais aussi à la vélocité qu’il faut atteindre.

C’est ce que l’on nomme la règle des 3V. Le volume concerne une masse de données sans cesse croissante et qu’il faut traiter le plus rapidement possible. C’est le second point que l’on nomme vélocité ou vitesse. Le temps de traitement doit être le plus proche possible du temps réel. C’est même un véritable enjeu. Le troisième point à traiter est la variété. Les données n’ont pas toutes le même format et ne sont pas forcément structurées. Il faut réussir à mettre en place un système qui va pouvoir lier tous ces éléments. C’est là que les systèmes d’intelligence artificielle et ceux du Big Data entrent en piste !

 

2.2 Développement du Framework Hadoop, sur HDFS et MapReduce

Si la capacité des disques durs augmente, le temps de traitement des données augmente lui aussi. Pour pallier ce problème, on a longtemps mis en parallèle plusieurs disques durs. Petit problème : la panne matérielle ! On a dupliqué les données. Perte de temps ! Le framework logiciel Hadoop est alors né. Créé par Doug Cutting, il propose un système de stockage distribué grâce à son système de fichier HDFS (Hadoop Distributed File System). Il est de surcroît associé à un système d’analyse des données : le système MapReduce.

Hadoop permet donc de stocker énormément de données et de lancer des applications sur plusieurs machines en même temps. C’est la solution Big Data standard depuis les années 2000. Pour le traitement des données, le data mining, c’est MapReduce qui est à l’œuvre. Ce framework permet pour sa part de déplacer le logiciel de traitement vers les données à traiter. Tous les deux sont des logiciels libres, des open sources, deux véritables innovations qui ont révolutionné le traitement et le stockage des données.

 

2.3 Les nouveaux métiers du Big Data (Data scientists, Data engineer, Data architect…)

Le temps n’est pas encore venu cependant où l’on pourra se passer de l’intelligence humaine dans le Big data. En effet, même si l’intelligence artificielle et le Deep Learning sont en pleine expansion, on a encore besoin de l’esprit humain et de ses facultés d’analyse. Les grandes écoles le savent et ont ouvert des formations pour tous les nouveaux métiers induits par la création des plateformes Big Data.

Les Data Scientists, les Data Analyst et les Data Miner sont les garants de l’analyse et de la gestion des données massives. Le Data Engineer s’assure que le système de gestion des données reste bien opérationnel. Il surveille, déploie des sondes et vérifie la robustesse des applications. Le Data Architect est chargé de l’identification des différentes sources de données qui vont venir alimenter ce que l’on appelle le Data Lake. Tous ces métiers sont essentiels au sein d’un Data Lab et sont en pleine expansion. Si vous avez un profil scientifique et un intérêt aigu pour l’informatique, renseignez-vous !

Polymorphe, complexe, en constante évolution, le Big data est certainement la grande révolution de l’ère informatique. Étroitement lié au développement de la Machine Learning et de l’intelligence artificielle, il offre des possibilités énormes dans des domaines aussi variés que le commerce et la santé. En plein essor, il donne aussi à ceux qui le souhaitent l’opportunité de découvrir de nouveaux métiers.