Méthodes d’entraînement en analyse vidéo

Au vu des progrès fulgurants de la technologie, l’intelligence artificielle (IA) ne peut que se développer encore au service de la vidéosurveillance. L’analyse et l’évaluation des enregistrements permettent d’intervenir directement dans les processus opérationnels. Mais il y a IA et IA. Et la question se pose: où en sommes-nous avec l’IA dans la vidéosurveillance?

Simon Gröflin

Méthodes d’entraînement en analyse vidéo

Concept numérique 4.0 et technologie blockchain. Image: depositphotos

Le concept d’intelligence artificielle est souvent confondu, de façon un peu inflationniste, avec de nombreux autres équivalents. Mais qu’est-ce qu’une simple analyse et où commence l’intelligence artificielle? Voiture autonome, reconnaissance vocale, caméra IA: l’analyse des données est à la base de chacun de ces systèmes capables de décisions autonomes. Pour faire un choix ou prévoir des événements, il est fréquent que les jeux de données existants soient scannés suivant une certaine logique. Une IA se sert de cette analyse pour émettre toute seule des hypothèses. Loin de s’appuyer sur les seules données disponibles, décisions et prévisions se réfèrent aussi au futur. Il importe ici de faire la distinction entre diverses formes d’analyse intelligente.

Que signifie en fait IA?

Conditionnée pour exécuter des tâches précises, l’IA restreinte (Narrow AI ou Artificial Narrow Intelligence, ANI) couvre une grande part des applications dites robustes comme Siri d’Apple, Alexa d’Amazon ou Watson d’IBM. On qualifie d’IA généraliste une forme théorique de l’IA, aussi performante qu’un cerveau humain: dotée de conscience, elle serait à même de résoudre des problèmes et de planifier des événements futurs de façon autonome. Quant à la super IA, supérieure au cerveau humain, sa nature théorique n’empêche pas les chercheurs de travailler déjà à son développement. La plupart du temps, on parle d’analyse vidéo intelligente lorsqu’on fait appel à des modules logiciels exploitables sur serveurs, sur enregistreurs ou sur caméras pour la reconnaissance automatique d’objets ou d’événements relatifs à la sécurité. Non contents de reconnaître les objets en temps réel, ils assurent leur traçage, ainsi que l’identification et l’interprétation de la scène. En fonction des paramètres, les métadonnées des flux vidéo permettent de déduire l’heure, la date, la distance focale et la vitesse d’obturation. Obtenir et développer ce pool de métadonnées agrégées dans différentes scènes et vues nécessite un très grand nombre d’unités d’entraînement avec des scénarios et des objets classifiés.

Une chose est sûre: exploiter des métadonnées et des outils techniques augmente sensiblement l’efficacité et la fiabilité de l’analyse vidéo. Les GPU (Graphics Processing Units) discrets des cartes graphiques utilisent aujourd’hui leur propre mémoire vidéo. Les algorithmes qui opèrent directement dans la caméra recourent à des GPU dédiés, conditionnés pour l’analyse vidéo. Divers systèmes permettent de disposer d’une puissance de calcul supplémentaire, que ce soit via les serveurs de l’entreprise dans son propre environnement IT (on premise), via des processus de traitement des données sur serveurs (approches cloud) ou via des solutions hybrides.

Au fil du temps, l’augmentation croissante de la puissance de calcul va faciliter l’intégration d’algorithmes toujours plus perfectionnés. Reconstruire des scènes en trois dimensions à partir d’une image vidéo en 2D n’a constitué en ce sens qu’une étape modeste. Entretemps, on ne se contente plus de reconnaître des objets: suivant la procédure, on enregistre aussi des attributs relatifs à la vitesse, la taille, la direction et le comportement sur un parcours. Conformément à la loi de Moore, qui veut que la puissance de calcul double pratiquement tous les 18 mois, on devrait d’ailleurs pouvoir déterminer un nombre croissant d’objets d’intérêt valides.

Analyse en périphérie de réseau

Une caméra de sécurité dotée de fonctions d’analyse fait plus qu’exploiter le deep learning (apprentissage profond) pour identifier une personne et convertir en données les informations vidéo: elle génère en plus des métadonnées. Concrètement, le spectre de l’IA permet de reconnaître par exemple une voiture, une personne ou un vélo, voire de suivre toute une scène. Plus on intègre de données, plus on dispose de scénarios d’entraînement. Il n’empêche qu’actuellement, les humains restent plus intelligents que les algorithmes de deep learning: dans le domaine de la vidéo, les méthodes d’entraînement nécessitent de 100 000 à des millions de jeux de données pour atteindre un résultat juste et complet. Selon l’angle de la caméra, la classification s’effectue par exemple en fonction de différents sujets: personne, animal, objet, etc. Les caméras modernes disposent de puissants processeurs qui assurent en parallèle l’analyse et le codage vidéo: on parle d’analyse en périphérie de réseau. Pour l’instant toutefois, l’analyse vidéo sur serveur est encore la solution la plus courante: la réalisation de deux architectures de systèmes permet par exemple à plusieurs modules d’analyse de fonctionner simultanément.

Scénarios typiques d’utilisation de l’IA dans les systèmes de sécurité vidéo

Le champ d’application de l’IA dans les systèmes de sécurité vidéo est très vaste: détection précoce d’incendie, reconnaissance des plaques d’immatriculation, reconnaissance faciale, analyse de la température cutanée, comptage des personnes, prévision de vols potentiels (types de comportement), analyse audio, observation des perturbations du trafic, etc. Les exemples typiques de solutions en matière de circulation reposent sur le comptage, notamment routier, ainsi que sur la reconnaissance des plaques d’immatriculation, de la densité du trafic et de la distance. Le système de détection d’événements est capable d’identifier immédiatement tous les incidents correspondants dans un tunnel ou sur un tronçon ouvert, qu’il s’agisse p. ex. de régulation, de ventilation du tunnel ou de fermeture de voies de circulation.

Conditions préalables au succès de l’IA dans la technique de sécurité vidéo

L’emploi des meilleurs produits basés sur l’IA dépend de l’unité caméra/objectif et de l’usage envisagé. Résolution et qualité du matériel jouent un rôle décisif en matière de surveillance, à l’instar de la distance d’observation et de l’angle de vision, de l’éclairage et de l’inclinaison de la caméra IP. Se fier à la chaîne logistique de la solution IA est fondamental pour l’utilisateur, qui doit pouvoir compter en l’occurrence sur une parfaite transparence et des échanges réguliers avec l’installateur et le fabricant. Nature, origine et volume des données d’entraînement contribuent à la clarté nécessaire. On peut par exemple discuter de la possibilité d’une actualisation ultérieure du système avec des algorithmes perfectionnés et de leur entraînement dans toutes les conditions (été/hiver, jour/nuit, intempéries, etc.).

Le règlement général sur la protection des données (RGPD) est un impératif à respecter en toute circonstance. Certains fournisseurs de caméras IP donnent des indications sur la précision de détection. Mais que signifie par exemple la mention d’une précision de 95 %? Quand on utilise un système de reconnaissance faciale basé sur l’IA pour identifier un·e criminel·le, même une précision de 99,9 % pour 100 000 visages représente encore 100 faux positifs. Les questions à se poser dans ce contexte sont les suivantes: quel taux d’erreurs est acceptable pour l’application prévue? Sur quels critères repose l’exactitude des données? Quant aux spécifications de base du fabricant et du développeur, elles sont tout aussi essentielles.

S’agissant de technologie de sécurité vidéo, il manque encore à l’IA des normes et standards industriels et éthiques. Il reste quelques stratégies d’apprentissage à maîtriser. Face à la complexité du sujet, l’Association suisse des constructeurs de systèmes de sécurité (SES) conseille aux fournisseurs de proposer si possible une version test pour un «proof of concept» permettant de vérifier si la technique du fabricant est en mesure de répondre aux attentes de l’exploitant. Il convient de s’assurer qu’on peut disposer de bons systèmes techniques caméra et éclairage, ainsi que d’autres conditions cadres pour une utilisation optimale de tous les matériels pendant la phase d’essai.

Si l’on envisage plusieurs solutions basées sur l’IA, il faut veiller à l’alimenter avec les mêmes signaux caméras, afin de garantir une véritable comparaison dans toutes les conditions: jour/nuit, intempéries, etc.

Possibilités futures

L’éventail des solutions basées sur l’IA réserve encore de nombreuses avancées stimulantes. À moyen et à long terme, l’IA devrait contribuer sensiblement à réduire les fausses alarmes et à faciliter la centralisation des informations, notamment dans le cadre des connexions à distance avec les centres d’appel d’urgence 24/7, ce qui constitue pour eux un atout majeur en leur permettant de se concentrer sur les vraies alarmes – sans personnel supplémentaire. De manière générale, le recours croissant au support des caméras IA signifiera un fantastique gain de temps pour les évaluations forensiques. De très petits attributs et des fonctions de recherche spécifiques capables d’identifier des personnes portant le même vêtement, un pantalon bleu par exemple, débouchent sur des résultats extrêmement rapides, malgré des quantités phénoménales de données. Grâce à la correction d’images basée sur l’IA, les distorsions optiques des objectifs grand angle extrême seront un jour du passé. Même des insectes devant la lentille d’une caméra ne déclencheront plus forcément de fausses alarmes.

À paraître: Résumé du document «L’intelligence artificielle dans la technique de sécurité vidéo» de l’Association suisse des constructeurs de systèmes de sécurité (SES) et de l’association allemande BHE.

Que signifie en fait IA?

Analyse en périphérie de réseau

Scénarios typiques d’utilisation de l’IA dans les systèmes de sécurité vidéo

Conditions préalables au succès de l’IA dans la technique de sécurité vidéo

Possibilités futures

Plus d'articles sur les sujets: