Sommaire

Vision par ordinateur

La vision par ordinateur est un domaine primordial dans les applications de véhicule autonome, de reconnaissance visuelle, de détection d’anomalies sur des chaînes industrielles, mais aussi de classification automatique d’images ou de vidéos, comme nous l’avons par exemple vu avec Rekognition.

L’exemple que nous allons dérouler ici est celui de la détection d’objets dans des images. Nous allons pour ce faire utiliser un jeu de données relativement récent, puisqu’il date de 2017 : COCOCOCO, l’acronyme de Common Objets in COntext, c’est-à-dire, objets communs en contexte (http://cocodataset.org). Le livre blanc fondateur de ce jeu de données se trouve ici : https://arxiv.org/abs/1405.0312. Je vous en conseille la lecture avant de vous lancer dans cet exemple. COCO contient plus de 200 000 images étiquetées en 80 catégories, chaque objet présent dans une image étant repérée par une « bounding box ». Je vous conseille de cloner le bloc-notes Jupyter fourni par le consortium COCO (https://github.com/cocodataset/cocoapi/blob/master/PythonAPI/pycocoDemo.ipynb) et de l’exécuter pour vous faire une idée du jeu de données.

Les annotations de ces images appartiennent au consortium COCO et sont sous licence Creative Commons Attribution 4.0 (https://creativecommons.org/licenses/by/4.0/). Les images proviennent du service Flickr. Leur utilisation ...