Lexique Big Data

23 Sep 2018Acquisition, Contenu, Performance

L’Intelligence Artificielle et le Big Data ont conduit à l’émergence de nombreux termes techniques. Leur maîtrise est essentielle pour une première approche dans le domaine du marketing et de l’e-commerce.

Voici quelques mots de vocabulaire clé dans ce lexique pour comprendre les jargons et le contexte du Big Data Machine Learning, de l’IA :

Algorithme

Il s’agit de formules mathématiques destinées à effectuer des analyses de données ou à créer un programme de calculs. Chaque suite d’opérations est éditée dans un langage donné ( les plus connus : C, C++, Python ou encore R). Elles suivent un certain nombre de règles bien définies afin de mener à bien le traitement des données et la détection de modèles.

L’algorithme figure parmi les concepts courants dans la sphère de l’intelligence artificielle. D’ailleurs, il est considéré comme le cerveau de la plateforme Big Data, puisqu’il est indispensable dans la création d’un programme.

 

Analyse

C’est le processus d’interprétation et de structuration disponible sur une plateforme analytique. Il permet de prendre des décisions marketing réfléchies.

Il est généralement divisé en trois sections :

  • L’analyse descriptive est une description objective et une décomposition des données brutes. Son objectif est d’identifier les informations exploitables pour enrichir la base de données de l’entreprise.
  • L’analyse prédictive consiste à évaluer les probabilités de réussite d’un événement et les tendances d’une situation. Elle se base sur des données statistiques et des modélisations pour prévoir les différents scénarios à venir.
  • L’analyse prescriptive aide à trouver les solutions à adopter. Par ailleurs, elle évalue les impacts qu’engendrerait une décision sur le développement de la société.

 

Batch

Le batch processing  – ou traitement par lots – est un système qui permet de gérer un grand volume de données dans une plateforme Big Data. A l’inverse du streaming qui exécute les opérations de manière instantané, le batch attends un déclencheur. Cela peut être un horaire, une charge (nombre de Giga octet ou nombre de ligne ou toutes autres instructions)… En général l’exécution se fait tout de même selon un calendrier horaire…

 
Le Cloud privé ou Cloud d’entreprise. C’est un mode d’hébergement sur-mesure, accessible par un réseau privé et dont les informations sont réservées à un public restreint.

Puisque les données stockées sont plus ou moins confidentielles, ce système est devenu très prisé dans la structure interne d’une entreprise. Qui plus est, il constitue une solution fiable et sécurisée grâce à des certifications ISO renouvelables. Généralement chaque année, en fonction de la durée du contrat signé avec le fournisseur.

  • Le Cloud public ou mutualisé.  Il s’agit du mode d’hébergement standard, accessible par internet.

Pour ce type de cloud, les informations sont stockées à distance et réparties entre plusieurs serveurs. Cela explique pourquoi, il est possible d’y stocker un volume conséquent de données. Le service est rapide mais sa personnalisation et quasiment impossible. Cependant, le fournisseur met l’infrastructure à la disposition de plusieurs clients. Cela rend le risque de fuite d’informations possible.

  • Le Cloud Hybride est le mélange du Cloud Privé et du Cloud Public. Il permet à l’entreprise de sécuriser ses données importantes en laissant un accès libre aux informations moins critiques. Dans ce cas, la société utilise plusieurs systèmes de clouds.

 

Data Steward

Le data Steward désigne la personne chargée de l’organisation et de la collecte de données intéressantes. Il est souvent considéré comme le gardien, le responsable de ces informations. La coordination de ces dernières devra donner de la valeur ajoutée aux processus de collecte et aboutir à une stratégie de développement opérationnelle.

 

Data Privacy Officer (DPO)

Le Data Privacy Officer (DPO) se charge de vérifier la conformité des informations collectées vis-à-vis de la loi. Toutes les sociétés devant manipuler un grand volume de données sont tenues de créer ce poste selon la législation de l’Union Européenne.

 

Data lake (lac de données)

Le lac de données est la source dans laquelle l’entreprise puise les informations pertinentes qui peuvent leur être utiles. Ces données, structurées ou non, proviennent de tous les partenaires de la société. Elles sont stockées sur HDFS et sont uniquement accessibles aux entités qui les ont fournies. Les informations y sont présentées sous tous les formats et sont généralement publiées brutes ou peu traitées.

 

Data Mining

Le data mining est le processus permettant de faciliter l’extraction des données ainsi que leur analyse. Le but est de déterminer les probabilités de réussite d’une stratégie. Les professionnels de ce secteur utilisent des programmes d’exploitations de données fonctionnant avec des méthodes automatiques ou semi-automatiques. Cela permet de garantir la qualité des résultats.

 

Data Miner

Le data miner ou data scientist est un statisticien chargé de l’analyse des données, qui émanent du data mining. Son but est d’optimiser ces données au maximum.

L’analyse pertinente de ces informations garantit une progression constructive de la société sur le long terme. Le data miner doit, de ce fait, comprendre les enjeux des mégadonnées et faire preuve d’une grande méticulosité.

 

Data Engineer

Le data engineer travaille en étroite collaboration avec le data scientist. Si ce dernier est chargé de l’étude les données, le data engineer, quant à lui, fait en sorte que les informations arrivent de manière fluide auprès de ceux qui doivent les traiter. Son planning est donc composé de développement d’applications, de semi-analyse des données et de résolution d’éventuel bug.

 

Data Warehouse

Considéré comme un entrepôt de données, le data warehouse est une concentration de serveurs destinés à stocker les informations plus ou moins confidentielles qui peuvent influencer les décisions des dirigeants. Elles sont régulièrement mises à jour et bien structurées de manière à simplifier leur manipulation. Les données sont extraites, puis épurées ou transformées, codées et synchronisées. Le data warehouse peut être interne, externe ou partagé avec un accès protégé.

 

Deep Learning

Le deep learning est un apprentissage profond de tout l’environnement de l’intelligence artificielle, notamment de la solution big data.

Ce système, basé sur les neurones, est aujourd’hui très répandu pour assurer les reconnaissances faciales, la traduction de conversations verbales vers les conversations numériques et surtout la reconnaissance automatique d’image.

Cet outil est désormais très utilisé sur les ordinateurs et les smartphones pour protéger au maximum les données qui y sont stockées.

 

Données structurées

Il s’agit de lots d’informations détaillés avec tous les éléments nécessaires pour faciliter la lecture comme les titres, les sous-titres, et les différents balisages. Des images peuvent accompagner ces données afin de les rendre plus compréhensibles. La structuration de ces données fait partie des rôles principaux du statisticien, puisqu’elles influeront grandement sur la prise de décision.

 

Données non structurées

Les donnés non structurées sont un ensemble de données brutes, sans formats prédéfinis. Elles ne sont pas encore répertoriées dans les structures de stockages des entreprises. Elles sont généralement présentées sous forme de textes. Aussi, les échanges de mails, les publications sur les réseaux sociaux, les vidéos et les discours sont classés comme étant des données non structurées.

 

ETL (Extraction, Transform, Load)

Egalement connu sous l’appellation de data pumping, l’ETL est l’outil qui assure la synchronisation des données, d’une base à une autre, de manière rapide et efficace. Il fonctionne quel que soit le volume des informations. En plus du processus d’extraction, cette solution big data permet d’enrichir les données et de nettoyer toutes celles dont l’entreprise n’a pas besoin.

 

Hadoop

Le hadoop est un ensemble de frameworks open source Java, dédié à la création d’applications de mégadonnées. Les applications ainsi développées sont sécables et distribuées de manière à faciliter leurs imbrications sur d’autres frameworks. De par son concept, le hadoop est devenu incontournable dans le secteur du Machine Learning.

Hadoop Cluster

Partie intégrante de Hadoop, il est généralement considéré comme son cœur. C’est lui qui permet le stockage et l’analyse rapide d’un grand volume d’information. Par sa qualité et son efficacité, ce système open source peut même être utilisé dans les serveurs d’entrées de gammes. Cela constitue sa grande force. Les développeurs ont également recours à ce système pour booster la capacité de leur logiciel de traitement de données classiques. C’est la raison pour laquelle il figure parmi les outils les plus prisés des grands moteurs de recherches.

HDFS (Hadoop Distributed File System)

Le HDFS est un outil de gestion open source qui assure la distribution des fichiers et garantit leurs accessibilités ainsi que leurs protections. Le système est efficace, peu importe la qualité et les exigences du serveur. Le HDFS (Hadoop Distributed File System) assure aussi le bon fonctionnement des logiciels et applications d’analyses utilisés par les entreprises.

 
consultez notre article le Big Data pour les nuls.

Il vous reste des questions après la lecture du Lexique Big Data ?
Contactez-nous.