Lexique Big Data

23 Sep 2018Acquisition, Contenu, Performance

L’Intelligence Artificielle et le Big Data ont conduit à l’émergence de nombreux termes techniques. Leur maîtrise est essentielle pour une première approche dans le domaine du marketing et de l’e-commerce.

Voici quelques mots de vocabulaire clé dans ce lexique pour comprendre les jargons et le contexte du Big Data Machine Learning, de l’IA :

 

Algorithme

Il s’agit de formules mathématiques destinées à effectuer des analyses de données ou à créer un programme de calculs. Chaque suite d’opérations est éditée dans un langage donné ( les plus connus : C, C++, Python ou encore R). Elles suivent un certain nombre de règles bien définies afin de mener à bien le traitement des données et la détection de modèles.

L’algorithme figure parmi les concepts courants dans la sphère de l’intelligence artificielle. D’ailleurs, il est considéré comme le cerveau de la plateforme Big Data, puisqu’il est indispensable dans la création d’un programme.

 

Analyse

C’est le processus d’interprétation et de structuration disponible sur une plateforme analytique. Il permet de prendre des décisions marketing réfléchies.

Il est généralement divisé en trois sections :

  • L’analyse descriptive est une description objective et une décomposition des données brutes. Son objectif est d’identifier les informations exploitables pour enrichir la base de données de l’entreprise.
  • L’analyse prédictive consiste à évaluer les probabilités de réussite d’un événement et les tendances d’une situation. Elle se base sur des données statistiques et des modélisations pour prévoir les différents scénarios à venir.
  • L’analyse prescriptive aide à trouver les solutions à adopter. Par ailleurs, elle évalue les impacts qu’engendrerait une décision sur le développement de la société.

 

Batch

Le batch processing  – ou traitement par lots – est un système qui permet de gérer un grand volume de données dans une plateforme Big Data. A l’inverse du streaming qui exécute les opérations de manière instantané, le batch attends un déclencheur. Cela peut être un horaire, une charge (nombre de Giga octet ou nombre de ligne ou toutes autres instructions)… En général l’exécution se fait tout de même selon un calendrier horaire…

 

Big data

C’est l’ensemble de toutes les données. Elles proviennent de sources variées, classifiées ou non, et leur traitement nécessite des applications de gestion performantes.

Le terme  » grandes données  » est utilisé pour désigner des ensembles de données qui sont trop grands ou trop complexes pour que les logiciels d’application de traitement de données traditionnels puissent les traiter adéquatement. Les données comportant de nombreux cas (lignes) offrent une plus grande puissance statistique, tandis que les données plus complexes (plus d’attributs ou de colonnes) peuvent mener à un taux de fausses découvertes plus élevé.

La qualité et la valeur des informations recueillies sont définies par cinq critères, les 5V : le volume, la vélocité, la variété, la variabilité et la véracité.

 

Smart data

Informations pertinentes issues des opérations de tri des données émanant du Big Data. Pour être opérationnelles en peu de temps et éviter le gaspillage des ressources humaines, techniques et financières, les entreprises préfèrent se concentrer sur ces données. Elles sont utilisables immédiatement.

 

Cassandra Framework

SGBD NoSQL orienté colonnes créé par Facebook et destiné au traitement de données volumineuses stockées sur des serveurs dispersés. Ce Framework est proposé en open source et figure dans le top 10 des plus utilisés dans le secteur du deep learning. Il fonctionne avec le langage CQL (Cassandra Query Language)

 

Cloud

Le cloud computing ou l’informatique en nuage est un type d’organisation souple conçue pour pouvoir accéder à distance aux données partagées d’un serveur.

Les entreprises y ont recours pour simplifier leurs échanges entre les collaborateurs ou les clients.

Le Cloud se décline de trois manières :

  • Le Cloud privé ou Cloud d’entreprise. C’est un mode d’hébergement sur-mesure, accessible par un réseau privé et dont les informations sont réservées à un public restreint.

Puisque les données stockées sont plus ou moins confidentielles, ce système est devenu très prisé dans la structure interne d’une entreprise. Qui plus est, il constitue une solution fiable et sécurisée grâce à des certifications ISO renouvelables. Généralement chaque année, en fonction de la durée du contrat signé avec le fournisseur.

  • Le Cloud public ou mutualisé.  Il s’agit du mode d’hébergement standard, accessible par internet.

Pour ce type de cloud, les informations sont stockées à distance et réparties entre plusieurs serveurs. Cela explique pourquoi, il est possible d’y stocker un volume conséquent de données. Le service est rapide mais sa personnalisation et quasiment impossible. Cependant, le fournisseur met l’infrastructure à la disposition de plusieurs clients. Cela rend le risque de fuite d’informations possible.

  • Le Cloud Hybride est le mélange du Cloud Privé et du Cloud Public. Il permet à l’entreprise de sécuriser ses données importantes en laissant un accès libre aux informations moins critiques. Dans ce cas, la société utilise plusieurs systèmes de clouds.

 

Data Steward

Le data Steward désigne la personne chargée de l’organisation et de la collecte de données intéressantes. Il est souvent considéré comme le gardien, le responsable de ces informations. La coordination de ces dernières devra donner de la valeur ajoutée aux processus de collecte et aboutir à une stratégie de développement opérationnelle.

 

Data Privacy Officer (DPO)

Le Data Privacy Officer (DPO) se charge de vérifier la conformité des informations collectées vis-à-vis de la loi. Toutes les sociétés devant manipuler un grand volume de données sont tenues de créer ce poste selon la législation de l’Union Européenne.

 

Data lake (lac de données)

Le lac de données est la source dans laquelle l’entreprise puise les informations pertinentes qui peuvent leur être utiles. Ces données, structurées ou non, proviennent de tous les partenaires de la société. Elles sont stockées sur HDFS et sont uniquement accessibles aux entités qui les ont fournies. Les informations y sont présentées sous tous les formats et sont généralement publiées brutes ou peu traitées.

 

Data Mining

Le data mining est le processus permettant de faciliter l’extraction des données ainsi que leur analyse. Le but est de déterminer les probabilités de réussite d’une stratégie. Les professionnels de ce secteur utilisent des programmes d’exploitations de données fonctionnant avec des méthodes automatiques ou semi-automatiques. Cela permet de garantir la qualité des résultats.

 

Data Miner

Le data miner ou data scientist est un statisticien chargé de l’analyse des données, qui émanent du data mining. Son but est d’optimiser ces données au maximum.

L’analyse pertinente de ces informations garantit une progression constructive de la société sur le long terme. Le data miner doit, de ce fait, comprendre les enjeux des mégadonnées et faire preuve d’une grande méticulosité.

 

Data Engineer

Le data engineer travaille en étroite collaboration avec le data scientist. Si ce dernier est chargé de l’étude les données, le data engineer, quant à lui, fait en sorte que les informations arrivent de manière fluide auprès de ceux qui doivent les traiter. Son planning est donc composé de développement d’applications, de semi-analyse des données et de résolution d’éventuel bug.

 

Data Warehouse

Considéré comme un entrepôt de données, le data warehouse est une concentration de serveurs destinés à stocker les informations plus ou moins confidentielles qui peuvent influencer les décisions des dirigeants. Elles sont régulièrement mises à jour et bien structurées de manière à simplifier leur manipulation. Les données sont extraites, puis épurées ou transformées, codées et synchronisées. Le data warehouse peut être interne, externe ou partagé avec un accès protégé.

 

Deep Learning

Le deep learning est un apprentissage profond de tout l’environnement de l’intelligence artificielle, notamment de la solution big data.

Ce système, basé sur les neurones, est aujourd’hui très répandu pour assurer les reconnaissances faciales, la traduction de conversations verbales vers les conversations numériques et surtout la reconnaissance automatique d’image.

Cet outil est désormais très utilisé sur les ordinateurs et les smartphones pour protéger au maximum les données qui y sont stockées.

 

Données structurées

Il s’agit de lots d’informations détaillés avec tous les éléments nécessaires pour faciliter la lecture comme les titres, les sous-titres, et les différents balisages. Des images peuvent accompagner ces données afin de les rendre plus compréhensibles. La structuration de ces données fait partie des rôles principaux du statisticien, puisqu’elles influeront grandement sur la prise de décision.

 

Données non structurées

Les donnés non structurées sont un ensemble de données brutes, sans formats prédéfinis. Elles ne sont pas encore répertoriées dans les structures de stockages des entreprises. Elles sont généralement présentées sous forme de textes. Aussi, les échanges de mails, les publications sur les réseaux sociaux, les vidéos et les discours sont classés comme étant des données non structurées.

 

ETL (Extraction, Transform, Load)

Egalement connu sous l’appellation de data pumping, l’ETL est l’outil qui assure la synchronisation des données, d’une base à une autre, de manière rapide et efficace. Il fonctionne quel que soit le volume des informations. En plus du processus d’extraction, cette solution big data permet d’enrichir les données et de nettoyer toutes celles dont l’entreprise n’a pas besoin.

 

Hadoop

Le hadoop est un ensemble de frameworks open source Java, dédié à la création d’applications de mégadonnées. Les applications ainsi développées sont sécables et distribuées de manière à faciliter leurs imbrications sur d’autres frameworks. De par son concept, le hadoop est devenu incontournable dans le secteur du Machine Learning.

 

Hadoop Cluster

Partie intégrante de Hadoop, il est généralement considéré comme son cœur. C’est lui qui permet le stockage et l’analyse rapide d’un grand volume d’information. Par sa qualité et son efficacité, ce système open source peut même être utilisé dans les serveurs d’entrées de gammes. Cela constitue sa grande force. Les développeurs ont également recours à ce système pour booster la capacité de leur logiciel de traitement de données classiques. C’est la raison pour laquelle il figure parmi les outils les plus prisés des grands moteurs de recherches.

 

HDFS (Hadoop Distributed File System)

Le HDFS est un outil de gestion open source qui assure la distribution des fichiers et garantit leurs accessibilités ainsi que leurs protections. Le système est efficace, peu importe la qualité et les exigences du serveur. Le HDFS (Hadoop Distributed File System) assure aussi le bon fonctionnement des logiciels et applications d’analyses utilisés par les entreprises.

 

IoT

L’IoT, ou Internet of Things, désigne l’ensemble des objets connectés. Ils peuvent désigner les montres, les voitures, les meubles ou encore les télévisions… Ils occupent une place importante dans le domaine du Machine Learning puisqu’ils assurent la collecte, le transfert ainsi que le traitement des données. En effet, les iot sont de plus en plus populaires auprès des consommateurs.

 

Machine Learning

Le Machine Learning est un concept créé pour permettre à l’ordinateur d’apprendre. Cela est rendu possible grâce à l’installation de systèmes d’apprentissages aussi connus sous l’appellation d’intelligences artificielles.

Le Machine Learning est indissociable aux domaines du marketing et de l’e-commerce puisqu’il permet d’appréhender les différentes caractéristiques du marché en vue de prendre les bonnes décisions. D’ailleurs, les informations ainsi recueillies sont utilisées par les dirigeants pour optimiser au maximum les campagnes publicitaires de leurs produits.

Le processus étudie les données sur toutes leurs formes (images, graphes, textes, statistiques). Il se base notamment sur les historiques de passages laissés par les internautes. Cette technologie est également utilisée par les moteurs de recherche pour déterminer les sites populaires à mettre en avant, en première page.

 

Map Reduce

La Map Reduce est un plan d’architecture effectuant des calculs parallèles et distribués à grande vitesse. Ils permettent d’assurer un traitement plus performant des données que les systèmes de traitements séquentiels, c’est à dire l’un après l’autre.

Ce framework évolutif basé sur Hadoop répartit les données dans des nœuds. Cette technique permet d’effectuer les calculs en parallèle afin de donner une réponse plus rapide, claire et fiable aux requêtes qui lui sont posées.

Le système opératoire de Map Reduce est divisé en deux phases : la map qui constitue l’étape d’extraction des données depuis les sources et le reduce qui est la phase de traitement des informations.

 

NoSQL (Not Only SQL)

Le NoSQL est un système de SGBD (ou CMDB) qui contourne les architectures relationnelles classiques afin d’éviter les schémas imposés.

Il se décline en plusieurs catégories :

  • les graphes qui sont utiles pour les requêtes du voisinage,
  • les documents orientés pour la récupération d’une information particulière,
  • les colonnes orientées et les clés qui sont des formes de SGBD simples.

 

Python

Le Python est un langage de programmation pratique et facile à utiliser pour accélérer le traitement des algorithmes de Machine Learning et de deep learning. Il fonctionne sur tous les systèmes d’exploitation : Windows, Mac, linux, iOs ou encore Android. De plus, il offre à ses utilisateurs la possibilité d’utiliser des syntaxes simples pour booster l’acquisition des données. D’ailleurs, la fonction ramasse-miette est intégrée dans le langage python afin d’assurer une excellente couverture des informations à collecter.

 

R

Le R est un langage de programmation de logiciel populaire dans le secteur de la statistique. Il permet aux data scientists de réussir à étudier, compiler et projeter en images les données. Cela passe par des méthodes fiables, mais assez complexes. Ce langage doit impérativement être maîtrisé par tous les professionnels qui travaillent dans le milieu.

 

RGPD

Le Règlement Général pour la Protection des Données est la première législation européenne qui régule le traitement de données web. Publiée en 2016, elle est entrée en vigueur en mai 2018. Cette loi responsabilise les donateurs de données sur le web ainsi que ceux qui les utilisent à des fins commerciales et marketing.

 

Spark

Le spark est un moteur de traitement disponible en open source. Il est équivalent à Hadoop, mais il garde en mémoire les données afin d’augmenter la vitesse de leurs temps de traitement.

Aussi, ce système permet d’étudier du batch comme du temps réel sur un espace disque assez restreint.

Son langage est entièrement basé sur le Scala.

Apache Spark peut fonctionner seul ou être combiné avec hadoop. Polyvalent, il permet aussi la prise en charge de fichiers provenant d’autres framework connus comme HDFS, Hbase ou Yarn. À part le traitement classique des données, l’outil diffère pour son moteur de recherche SQL. Sa bibliothèque d’algorithmes est donc plus facile à appréhender.

 

Spark Streaming

Le spark streaming est un framework open source qui permet de traiter automatiquement les informations en fonction de leurs arrivées sur le serveur. C’est donc une alternative efficace pour ceux qui recherchent l’exploitation de données en temps réel. Pour ce faire, il suffit de choisir la source de donnée et de lancer le traitement des informations. Le but est que ces dernières puissent générer des flux d’informations continus sur la base de données de l’entreprise.

 

Streaming (VS Batch)

Le streaming consiste à traiter à temps réel les flux d’informations continus. Ces données appelées streams; proviennent des réseaux sociaux. Le traitement de ces informations brutes se fait de manière rapide et automatique. Peu importe leur volume. Toutefois, contrairement au batch, leur fiabilité n’est pas tellement garantie. En effet, batch étudie des données présélectionnées, toujours à grande vitesse, ce qui constitue un vrai plus pour la prise de décision.

 

 

Pour aller plus loin, consultez notre article le Big Data pour les nuls

Il vous reste des questions après la lecture du Lexique Big Data ? 
Contactez-nous.