Qu’est ce que la Reconnaissance d’image

16 Nov 2018 | Acquisition

Le marché de la reconnaissance d’images devrait passer de 15,95 milliards de dollars en 2016 à 38,92 milliards de dollars d’ici 2021. Les progrès du machine learning et l’utilisation du big data alimentent la croissance de cette technologie. Des entreprises de différents secteurs tels que le commerce électronique, l’automobile, les soins de santé et les jeux adoptent rapidement la reconnaissance d’image. Selon le rapport de MarketsandMarkets, le marché de la reconnaissance d’images est divisé en matériels, logiciels et services. Le segment matériel dominé par les smartphones et les caméras peut jouer un rôle énorme dans la croissance du marché de la reconnaissance d’images. Il existe un besoin croissant d’applications et de produits de sécurité dotés de technologies innovantes telles que les caméras de surveillance et la reconnaissance faciale.
La reconnaissance d’images fait référence aux technologies qui identifient les lieux, les logos, les personnes, les objets, les bâtiments et plusieurs autres variables dans les images. Les utilisateurs partagent de grandes quantités de données par le biais d’applications, de réseaux sociaux et de sites Web. De plus, les téléphones mobiles équipés d’appareils photo permettent la création d’un nombre illimité d’images et de vidéos numériques. Le grand volume de données numériques est utilisé par les entreprises pour fournir des services meilleurs et plus intelligents aux personnes qui y accèdent.
La reconnaissance d’images fait partie de la vision par ordinateur et d’un processus pour identifier et détecter un objet ou un attribut dans une vidéo ou une image numérique. La vision par ordinateur est un terme plus large qui inclut les méthodes de collecte, de traitement et d’analyse des données du monde réel. Les données sont hautement dimensionnelles et produisent des informations numériques ou symboliques sous forme de décisions. Outre la reconnaissance d’images, la vision par ordinateur comprend également la détection d’événements, la reconnaissance d’objets, l’apprentissage, la reconstruction d’images et le suivi vidéo.
Comment fonctionne la technologie de reconnaissance d’images ?
Facebook peut maintenant effectuer la reconnaissance faciale avec une précision de 98 %, ce qui est comparable à la capacité des humains. Facebook peut identifier le visage de votre ami avec seulement quelques photos étiquetées. L’efficacité de cette technologie dépend de la capacité à classer les images. La classification est l’appariement de modèles avec des données. Les images sont des données sous forme de matrices bidimensionnelles. En fait, la reconnaissance d’images consiste à classer les données dans une catégorie parmi tant d’autres. Un exemple courant et important est la reconnaissance optique de caractères (ROC). L’OCR convertit les images de texte dactylographié ou manuscrit en texte codé par machine.
Les principales étapes du processus de reconnaissance d’images sont la collecte et l’organisation des données, la construction d’un modèle prédictif et son utilisation pour reconnaître les images.
Recueillir et organiser les données
L’œil humain perçoit une image comme un ensemble de signaux qui sont traités par le cortex visuel dans le cerveau. Il en résulte une expérience vivante d’une scène, associée à des concepts et des objets enregistrés dans la mémoire. La reconnaissance d’images essaie d’imiter ce processus. L’ordinateur perçoit une image comme une image matricielle ou vectorielle. Les images raster sont une séquence de pixels avec des valeurs numériques discrètes pour les couleurs tandis que les images vectorielles sont un ensemble de polygones annotés en couleur.
Image vectorielle vs image raster
Pour analyser les images, l’encodage géométrique est transformé en constructions représentant des caractéristiques physiques et des objets. Ces constructions peuvent ensuite être analysées logiquement par l’ordinateur. L’organisation des données comprend la classification et l’extraction des caractéristiques. La première étape de la classification des images consiste à simplifier l’image en extrayant les informations importantes et en omettant le reste. Par exemple, dans l’image ci-dessous, si vous voulez extraire un chat de l’arrière-plan, vous remarquerez une variation significative des valeurs des pixels RVB.
Procédé de classification d’images
Cependant, en faisant fonctionner un détecteur de contours sur l’image, nous pouvons la simplifier. Vous pouvez encore facilement discerner la forme circulaire du visage et des yeux dans ces images de bord et nous pouvons donc conclure que la détection de bord conserve l’information essentielle tout en jetant l’information non essentielle. Certaines techniques bien connues de descripteurs de caractéristiques sont des caractéristiques semblables à celles de Haar introduites par Viola et Jones, l’histogramme des gradients orientés (HOG), la transformation des caractéristiques à échelle invariante (SIFT), la fonction de robustesse accélérée (SURF), etc.
Construire un modèle prédictif
Dans l’étape précédente, nous avons appris comment convertir une image en vecteur de caractéristique. Dans cette section, nous apprendrons comment un algorithme de classification prend ce vecteur de caractéristiques en entrée et sort une étiquette de classe (par ex. cat ou background/no-cat). Avant qu’un algorithme de classification puisse faire sa magie, nous devons l’entraîner en montrant des milliers d’images chat et non chat. Le principe général des algorithmes d’apprentissage machine est de traiter les vecteurs de caractéristiques comme des points dans un espace dimensionnel supérieur. Ensuite, il essaie de trouver des plans ou des surfaces (contours) qui séparent l’espace dimensionnel supérieur d’une manière telle que tous les exemples d’une classe particulière se trouvent sur un côté du plan ou de la surface.
Procédé de classification d’images
Cependant, en faisant fonctionner un détecteur de contours sur l’image, nous pouvons la simplifier. Vous pouvez encore facilement discerner la forme circulaire du visage et des yeux dans ces images de bord et nous pouvons donc conclure que la détection de bord conserve l’information essentielle tout en jetant l’information non essentielle. Certaines techniques bien connues de descripteurs de caractéristiques sont des caractéristiques semblables à celles de Haar introduites par Viola et Jones, l’histogramme des gradients orientés (HOG), la transformation des caractéristiques à échelle invariante (SIFT), la fonction de robustesse accélérée (SURF), etc.
Construire un modèle prédictif
Dans l’étape précédente, nous avons appris comment convertir une image en vecteur de caractéristique. Dans cette section, nous apprendrons comment un algorithme de classification prend ce vecteur de caractéristiques en entrée et sort une étiquette de classe (par ex. cat ou background/no-cat). Avant qu’un algorithme de classification puisse faire sa magie, nous devons l’entraîner en montrant des milliers d’images chat et non chat. Le principe général des algorithmes d’apprentissage machine est de traiter les vecteurs de caractéristiques comme des points dans un espace dimensionnel supérieur. Ensuite, il essaie de trouver des plans ou des surfaces (contours) qui séparent l’espace dimensionnel supérieur d’une manière telle que tous les exemples d’une classe particulière se trouvent sur un côté du plan ou de la surface.

Il y a quelques hacks rapides pour surmonter les défis ci-dessus :
– Outils de compression d’image pour réduire la taille de l’image sans perdre en clarté
– Utiliser les niveaux de gris et la version dégradé des images colorées
– Processeurs graphiques (GPU) – Pour former les réseaux de neurones contenant de grands ensembles de données en moins de temps et avec moins d’infrastructure informatique.
Comment utiliser la reconnaissance d’images pour votre entreprise ?
Du point de vue commercial, les principales applications de la reconnaissance d’images sont la reconnaissance faciale, la sécurité et la surveillance, la géolocalisation visuelle, la reconnaissance d’objets, la reconnaissance gestuelle, la reconnaissance de codes, l’automatisation industrielle, l’analyse d’images en assistance médicale et au conducteur. Ces applications créent des opportunités de croissance dans de nombreux domaines. Voyons comment la reconnaissance d’image est en train de créer une révolution dans certains secteurs d’activité. Découvrez Deepomatic une startup française spécialisée dans la reconnaissance d’image et de vidéo !