L’Intelligence Artificielle et le Big Data ont conduit à l’émergence de nombreux termes techniques que nous avons listés dans un lexique big data.
Aujourd’hui, la maîtrise de ce vocabulaire est essentielle pour une première approche dans le domaine du marketing et de l’e-commerce. Cependant, il peut s’avérer difficile de commencer quand on sait qu’il y a tout un jargon à apprendre ! Pour vous aider à y voir plus clair, nous vous proposons de découvrir les termes incontournables de ce marché à travers notre lexique Big Data.
Algorithme
Un algorithme est une formule mathématique destinée à effectuer des analyses de données ou à créer un programme de calculs. Chaque suite d’opérations est éditée dans un langage donné (les plus connus : C, C++, Python ou encore R). En outre, il existe un certain nombre de règles bien définiées à suivre pour mener à bien le traitement des données et la détection de modèles.
D’ailleurs, l’algorithme figure parmi les concepts courants dans la sphère de l’intelligence artificielle. Il est considéré comme le cerveau de la plateforme Big Data, et par conséquent, est indispensable dans la création d’un programme.
Analyse
C’est le processus d’interprétation et de structuration disponible sur une plateforme analytique. En somme, c’est l’analyse qui permet de prendre des décisions marketing réfléchies.
Il en existe 3 catégories :
- L’analyse descriptive est une description objective et une décomposition des données brutes. L’objectif est d’identifier les informations exploitables pour enrichir la base de données de l’entreprise.
- L’analyse prédictive consiste à évaluer les probabilités de réussite d’un événement et les tendances d’une situation. Elle se base sur des données statistiques et des modélisations pour prévoir les différents scénarios à venir.
- L’analyse prescriptive aide à trouver les solutions à adopter. Par ailleurs, elle évalue les impacts qu’engendrerait une décision sur le développement de la société.
Batch
Le batch processing – ou traitement par lots – est un système qui permet de gérer un grand volume de données dans une plateforme Big Data. A l’inverse du streaming qui exécute les opérations de manière instantané,il faut un déclencheur pour activer le batch. Il peut s’agir d’un horaire ou d’une condition (nombre de giga-octets, de lignes ou toutes autres instructions). En général, l’exécution se fait selon un calendrier horaire.
Cinq critères définissent la qualité et la valeur des informations recueillies. On les appelle les 5 V :
- Le volume
- La vélocité
- La variété
- La variabilité
- La véracité
Smart data
La smart data (ou « donnée intelligente ») désigne les données pertinentes à haute valeur ajoutée qui sont issues des opérations de tri des données émanant du Big Data. Il est généralement préférable de se concentrer sur ces données pour éviter le gaspillage des ressources humaines, techniques et financières.
C’est la raison pour laquelle les entreprises doivent les prioriser : elles sont utilisables immédiatement et évitent de perdre du temps.
Cassandra
Il s’agit d’un système de gestion de base de données (SGBD) NoSQL destiné au traitement de données volumineuses stockées sur des serveurs dispersés. Ce framework est proposé en open source et figure dans le top 10 des plus utilisés dans le secteur du deep learning. Il fonctionne avec le langage CQL (Cassandra Query Language).
Cloud
Le cloud computing ou l’informatique en nuage est un type d’organisation souple conçue pour pouvoir accéder à distance aux données partagées d’un serveur.
Les entreprises y ont recours pour simplifier leurs échanges entre les collaborateurs ou les clients.
Le Cloud se décline de trois manières :
- Le Cloud privé ou Cloud d’entreprise. C’est un mode d’hébergement sur-mesure, accessible par un réseau privé et dont les informations sont réservées à un public restreint.
Puisque les données stockées sont plus ou moins confidentielles, ce système est devenu très prisé dans la structure interne d’une entreprise. Qui plus est, il constitue une solution fiable et sécurisée grâce à des certifications ISO renouvelables. Généralement chaque année, en fonction de la durée du contrat signé avec le fournisseur.
- Le Cloud public ou mutualisé. Il s’agit du mode d’hébergement standard, accessible par internet.
Pour ce type de cloud, les informations sont stockées à distance et réparties entre plusieurs serveurs. Cela explique pourquoi, il est possible d’y stocker un volume conséquent de données. Le service est rapide mais sa personnalisation et quasiment impossible. Cependant, le fournisseur met l’infrastructure à la disposition de plusieurs clients, ce qui peut augmenter les risques liés à la sécurité.
- Le Cloud Hybride est le mélange de Cloud Privé et Public. Il permet à l’entreprise de sécuriser ses données importantes en laissant un accès libre aux informations moins critiques. Dans ce cas, la société utilise plusieurs systèmes de clouds.
Data Steward
Le Data Steward est la personne chargée de l’organisation et de la collecte de données intéressantes. Il est souvent considéré comme le gardien et le responsable de ces informations. La coordination de ces dernières devra donner de la valeur ajoutée aux processus de collecte et aboutir à une stratégie de développement opérationnelle.
Data Privacy Officer (DPO)
Le Data Privacy Officer (DPO) se charge de vérifier la conformité des informations collectées vis-à-vis de la loi.
Aussi appelé Délégué à la Protection des Données en Français, ce métier est devenu indispensable pour les sociétés manipulant un grand nombre de données, et cela dû au Règlement Européen sur la Protection des Données (RGPD) entré en vigueur en 2018.
Son rôle est donc de conseiller et d’informer les salariés sur les réglementations et les lois sur la protection de la vie privée, s’assurer de la conformité de l’entreprise par rapport à celles-ci, mais aussi gérer les processus de données internes et leur bonne exécution.
Data lake (lac de données)
Le lac de données est la source dans laquelle l’entreprise puise les informations pertinentes qui peuvent lui être utiles. Ces données, structurées ou non, proviennent de tous les partenaires de la société. Elles sont stockées sur système de fichier distribué HDFS et sont uniquement accessibles aux entités qui les ont fournies. Les informations y sont présentées sous tous les formats et sont généralement publiées brutes ou peu traitées.
Data Mining
Le data mining est le processus permettant de faciliter l’extraction des données mais aussi leur analyse. Le but est de déterminer les probabilités de réussite d’une stratégie. Les Data Miners utilisent des programmes d’exploitations de données fonctionnant avec des méthodes automatiques ou semi-automatiques pour garantir la qualité des résultats.
Les domaines d’application du data mining sont nombreux, que ce soit dans le Marketing ou les Ventes par exemple, mais aussi sur certaines verticales comme le Retail, la Santé, ou encore les Télécoms…
Data Miner
Le Data Miner ou Data Scientist est un statisticien chargé de l’analyse des données, qui émanent du data mining. Son but est d’optimiser ces données au maximum.
L’analyse pertinente de ces informations garantit une progression constructive de la société sur le long terme. Le Data Miner doit, de ce fait, comprendre les enjeux du Big Data et faire preuve d’une grande méticulosité.
Data Engineer
Le Data Engineer travaille en étroite collaboration avec le Data Scientist. Si ce dernier est chargé de l’étude les données, le data engineer, quant à lui, fait en sorte que les informations arrivent de manière fluide auprès de ceux qui doivent les traiter. Son planning est donc composé de développement d’applications, de semi-analyse des données et de résolution d’éventuel bug.
Data Warehouse
Considéré comme un entrepôt de données, le data warehouse est une concentration de serveurs destinés à stocker les informations plus ou moins confidentielles qui peuvent influencer les décisions des dirigeants. Pour être efficaces, elles sont régulièrement mises à jour et bien structurées de manière à simplifier leur manipulation. En résumé, les données sont extraites, puis épurées ou transformées, codées et synchronisées.
Enfin, le data warehouse peut être interne, externe ou partagé avec un accès protégé.
Deep Learning
Le deep learning, également appelé « apprentissage profond » en Français, est un sous-domaine du machine learning, lui-même un sous-domaine de l’intelligence artificielle.
Inspiré du système neuronal humain, le deep learning est lui-même basé sur un système de couches de neurones artificiels. Ce système est aujourd’hui très répandu pour répondre aux problématiques de reconnaissances faciales, la traduction automatique, la reconnaissance automatique d’images, l’amélioration des agents conversationnels, l’identification de pièces défectueuses, et tant d’autres encore… Et oui, les cas d’application ne manquent pas !
Côté sécurité également, le deep learning joue un rôle important. En effet, c’est bel et bien cette technologie qu’on utilise pour protéger les données stockées dans nos ordinateurs et smartphones.
Données structurées
Il s’agit de lots d’informations détaillées avec tous les éléments nécessaires pour faciliter la lecture comme les titres, les sous-titres et les différents balisages. Afin de les rendre plus compréhensibles, il est possible d’accompagner ces données avec des images.
Ici, le rôle du Data Scientist est primordial car, une de ses missions principales est d’assurer la structuration de ces données ! Et qui dit « données structurées » dit aussi prise de décision facilitée.
Données non structurées
Les donnés non structurées sont un ensemble de données brutes, sans formats prédéfinis. Elles ne sont pas encore répertoriées dans les structures de stockages des entreprises. Il peut s’agir d’une part de données textuelles (emails, documents textes, messages de logiciels instantatés…) et d’autres part d’éléments multimédias (fichiers audios, vidéos, images JPG, etc.).
Ainsi, ces données non structurées peuvent s’avérer très utiles, notamment pour toutes les activités de marketing relationnel et gestion de la relation client. En effet, elles permettent d’analyser les interactions avec les clients et par la suite d’améliorer vos processus.
ETL (Extraction, Transform, Load)
Egalement connu sous l’appellation de data pumping, l’ETL est l’outil qui assure la synchronisation des données d’une base à une autre, de manière rapide et efficace. De plus, il fonctionne quel que soit le volume d’informations.
En plus du processus d’extraction, cette solution Big Data permet d’enrichir les données et de nettoyer toutes celles dont l’entreprise n’a pas besoin.
Hadoop
Le hadoop est un ensemble de frameworks open source Java, dédié à la création d’applications Big Data. Ainsi, les applications développées sont sécables et distribuées de manière à faciliter leurs imbrications sur d’autres frameworks. De par son concept, le hadoop est devenu incontournable dans le secteur du Machine Learning.
Hadoop Cluster
Le Hadoop Cluster est une partie intégrante de Hadoop et est même considéré comme son cœur. Il permet le stockage et l’analyse rapide d’un grand volume d’informations. Qualitatif et efficace, ce système open source peut aussi être utilisé dans les serveurs d’entrées de gammes, ce qui en fait un avantage certain pour les entreprises. Par ailleurs, les développeurs ont également recours à ce système pour booster la capacité de leur logiciel de traitement de données classiques. D’ailleurs, cet outil est particulièrement prisé des grands moteurs de recherches.
HDFS (Hadoop Distributed File System)
Le HDFS (Hadoop Distributed File System) est un outil de gestion open source qui assure la distribution des fichiers et garantit leur accessibilité ainsi que leur protection. Le système est efficace, quelle que soit la qualité et les exigences du serveur. De cette manière, le HDFS assure aussi le bon fonctionnement des logiciels et applications d’analyses.