Apprentissage automatique pour la détection d’anomalies dans les données ouvertes : application à…

Source: Deep Learning on Medium

Apprentissage automatique pour la détection d’anomalies dans les données ouvertes : application à la cartographie

Par remiDelassus

Description des travaux

Qucit aide les acteurs des services urbains, opérateurs privés et institutions publiques, grâce à l’intelligence artificielle pour améliorer la qualité de leur service. Cette entreprise améliore notamment la gestion des systèmes de vélos en libre service, les services de parkings en et hors ouvrage, modélise le bien être des piétons en fonction de l’environnement urbain…

À ces fin ; on y utilise quotidiennement des données géographiques concernant des centaines de villes. Ces données sont récupérées depuis des sources variées, souvent les bases de données ouvertes de chaque ville. L’ajout des données métiers de nos clients permet de fournir des prédictions qui les aideront dans leur organisation. Grâce aux données automobiles, il est possible de prédire les temps de recherche parking en ville ou la fraude dans le stationnement. Grâce aux données fournies par les opérateurs de vélos en libre service, il est possible de prédire le taux de remplissage des stations et les besoins futurs en vélos. Grâce aux données des opérateurs autoroutiers il est possible de prédire des incidents sur la route. Ces prédictions sont améliorées grâce à la contextualisation apportée par la topographie des lieux.

Cependant, les erreurs présentes dans les données métiers ou dans les données topographiques altèrent la qualité des prédictions. L’objet de cette thèse est de corriger les données utilisées par Qucit afin de fournir un meilleur service. L’amélioration des données métiers se fait au cas par cas, en fonction des méthodologies du client, de la qualité de ses données, de leur type etc.

Dans un premier temps, nous nous sommes intéressés à la détection de vélos défectueux au sein des données de trajets du système de vélo en libre service de New York.

Le manque de données étiquetées nous a poussé dans un second temps à corriger les données topographiques utilisées pour la contextualisation. À l’aide d’images satellites nous extrayons le contour de chaque bâtiment représenté, dans le but de vérifier l’exactitude des données contenues au sein des données ouvertes d’OpenStreetMap [1].

Détection de vélos défectueux au sein de données de trajets

Les systèmes de partage de vélos font généralement référence à un ensemble de stations, entretenues par un opérateur au sein d’une ville, dans les quelles les vélos peuvent être empruntés et déposés.

En 2015, plus d’un million de vélos ont été partagés dans plus de 700 systèmes de vélos en libre-service dans le monde [2]. Chacun de ces vélos a été fortement utilisé, voyageant jusqu’à une moyenne de dix fois par jour à Barcelone comme rapporté par Bikesharing Napoli [3]. Le nombre élevé de vélos ainsi que leur fort taux d’utilisation rendent les pannes très probables. Ainsi, de nombreux vélos sont cassés, en attente d’être réparés, immobilisés dans une station.

Le problème est tellement courant que les utilisateurs de vélos en libre-service ont pris l’habitude de tourner la selle vers l’arrière lors de la rencontre d’un vélo cassé, signalant ainsi aux autres qu’il ne vaut pas la peine d’être loué. Grâce à cet investissement personnel, d’autres utilisateurs évitent de perdre du temps avec la location et le retour de vélos inutilisables. Dans la ville de New York, bien que le personnel d’entretien de CitiBike effectue régulièrement des tournées pour inspecter l’état de chaque vélo, un système d’alerte a été mis en place. Chaque borne dispose d’un bouton qui 1 peut être pressé afin d’alerter que le vélo est cassé. La nécessité d’un tel dispositif prouve que les rondes ne sont pas assez efficaces et que les opérateurs en sont conscients. Les vélos sont réparés sur place chaque fois que cela est possible (par exemple lorsque le pneu est dégonflé). Dans le cas contraire, le personnel d’entretien prend le vélo défectueux et l’apporte à un atelier spécialisé.

Dans un travail précédent la thèse, nous avons montré que lorsqu’un système de vélos en libre-service voit son nombre de stations doubler, le nombre de trajets à vélo est multiplié par trois [4]. Par conséquent, le nombre de déplacements dans un système de vélos en libre-service en expansion augmente rapidement, ce qui implique que le nombre d’échecs et le nombre d’utilisateurs désireux de louer un vélo augmenteront également rapidement. Cela conduit à un plus grand nombre d’utilisateurs frustrés qui se trouvent dans une situation où les seuls vélos disponibles sont cassés.

Pour surmonter ce problème, nous avons proposé un modèle pour classer, jour par jour, l’état d’un vélo, en décidant s’il a besoin d’être réparé ou non. Notre classification permettrait au personnel d’entretien de savoir si un vélo a besoin d’être réparé afin qu’il puisse optimiser ses rondes. De plus, il pourrait être utilisé dans les applications mobiles où les utilisateurs peuvent planifier leurs déplacements, en affichant l’icône nombre de vélos non seulement disponibles, mais aussi utilisables. L’originalité de notre étude repose sur le fait qu’elle est centrée sur le vélo. Cela signifie par exemple que si un vélo cassé reste immobile pendant une longue période dans une station, il sera plus pertinent d’étudier le fait que le vélo ne bouge pas plutôt que le fait que la station ne se vide pas.

Afin de suivre chaque vélo, nous travaillons avec les données des trajets New-York, partagées par Motivate, la société exploitant le système de vélos en libre-service CitiBike. La plupart des opérateurs de systèmes de vélos en libre-service ont un site Web affichant le nombre de vélos et le nombre de quais gratuits disponibles à chaque station, qui est utilisé par les utilisateurs pour planifier leurs déplacements. Peu d’opérateurs partagent leurs données de déplacements (station et heure de départ et d’arrivée des vélos identifiés) et aucun d’entre eux ne partage ses données de maintenance. Motivate expose près de trois ans de voyages [5], ainsi que des rapports mensuels indiquant, entre autres informations, le nombre de vélos réparés dans leurs ateliers citeCitiBikereports.

Nous avons proposé un processus d’apprentissage automatique pour détecter les vélos cassés. Nous caractérisons d’abord le comportement chaque vélo (nombre de trajets, nombre de stations distinctes visitées, nombre de trajets circulaires (même station de départ et d’arrivée), ainsi que diverses statistiques sur la distance et la durée des emprunts), à l’aide d’une fenêtre de convolution temporelle de taille paramétrée (plusieurs jours) et avec un pas de temps de un jour. Une phase de clustering est utilisée pour regrouper différents comportements au sein de catégories. Ce regroupement permet de d’extraire les comportements anormaux : nous considérons un comportement comme anormal quand il n’existe pas de groupe auquel il appartient clairement, c’est à dire que même le groupe qui lui a été attribué présente un comportement distinct du sien. À ce moment-là, nous utilisons les données des rapports mensuels comme étiquettes pour évaluer la classification. Ces données sont une agrégation des réparations de vélos sur une période d’un mois. Puisqu’il n’y a pas de correspondance un-à-un entre les exemples (un jour, un vélo) et les étiquettes (un mois, tous les vélos), nous traitons un problème d’apprentissage agrégé [6]. On vérifie que l’agrégation de nos résultats correspond à l’agrégation de la vérité terrain, mais on ne dispose pas de la vérité terrain détaillée. En l’absence de données étiquetées plus détaillées, nous n’avons pas pu continuer les travaux sur ce sujet.

Nous avons donc étudié un autre problème relevant de l’apprentissage automatique et s’appliquant aux problématiques de Qucit : la détection d’erreur dans les données cartographiques.

Extraction des contours de bâtiments au sein d’images satellites

La détection des bâtiments à partir d’images aériennes est l’un des éléments clés des processus de cartographie automatique et de la vérification et de la correction des données du Système d’information géographique (SIG). Tout d’abord, l’image aérienne est segmentée (les pixels sont classés selon qu’il s’agisse de pixels de bâtiment ou de pixels d’arrière-plan), puis utilisée pour extraire les contours des bâtiments.

Les modèles de segmentation d’images sont souvent des réseaux neuronaux convolutifs (CNN) popularisés en 2012 par Krizhevsky et al. [7]. Plusieurs modèles peuvent être utilisés en même temps pour segmenter une image, laissant la stratégie de fusion des résultats ouverte. Un modèle d’ensemble est un modèle qui fusionne les prédictions de plusieurs sous-modèles et qui fonctionne généralement mieux que le meilleur des sous-modèles fusionnés [8]. Parmi les stratégies courantes de fusion, on trouve une moyenne non pondérée des prédictions, habituellement utilisée pour la segmentation des images.

Cette thèse traite de l’extraction des contours des bâtiments au sein des images satellites. Pour cela, nous étudions la segmentation d’images satellites puis l’évaluation d’une série de stratégies de fusion afin de trouver l’approche la mieux adaptée au problème de la détection des bâtiments. Une stratégie simple existante (une moyenne non 2 pondérée) est comparée à des stratégies plus complexes proposées : un modèle moyen pondéré (un CNN d’une couche convolutive 1×1×1), un modèle moyen pondéré avec prise en compte du voisinage (un CNN d’une couche convolutive 7×7×1), et un modèle de fusion profonde (une architecture U-Net à 29 couches). Nous nous appuyons sur le jeu de données 1 du challenge SpaceNet [9] qui propose de mettre au point des modèles pour extraire automatiquement les contours des bâtiments, à partir d’images satellites. Il contient 10 593, images satellites de Paris, Vegas, Shanghai et Khartoum avec une résolution de 30cm/pixel, de taille 650 × 650 pixels.

Les principaux concurrents du concours SpaceNet ont soumis leur code qui est maintenant accessible au public 2 . Nous avons donc étudié la solution gagnante : un ensemble de trois modèles U-Net [10] fusionnés par moyenne non pondérée. Ce travail compare cette base de référence à d’autres stratégies de fusion, proposant ainsi une nouvelle segmentation. Toutes les solutions de fusion proposées utilisent les résultats des trois modèles U-Net précédents comme données d’entrée. Dans certains cas, l’image satellite peut également être ajoutée à l’entrée. Nous appelons ces modèles “combiners”. Nous évaluons les combiners de complexité croissante afin de déterminer si la moyenne non pondérée ou des combiners de faible complexité (super learners [11]) sont meilleurs que les architectures CNN (combiners profonds) pour fusionner un ensemble de segmentations.

Nous avons obtenus de bons résultats avec une amélioration de la métrique de performance allant jusqu’à +7%. Les erreurs de détection rencontrées suggèrent l’utilisation de convolutions dilatées [12] pour mieux détecter les petits bâtiments parmi les plus gros, ainsi que l’usage de techniques de segmentation d’instance, pour séparer les bâtiments le uns des autres. Nous espérons pouvoir mettre en place ces solutions au sein des modèles utilisés lors de nos prochaines études.

Puisque le but de cette étude est d’entraîner un modèle sur les données d’OpenStreetMap déjà disponibles, puis d’utiliser les prédictions faites pour détecter les erreurs au sein de ces mêmes données, nous quantifions l’impact des erreurs dans les données étiquetées sur la qualité des prédictions. Cette étude permet de déterminer qu’il est possible de produire des contours de bâtiments meilleurs que ceux utilisés en tant que vérité terrain lors de l’apprentissage.

Pour lire la thèse : https://tel.archives-ouvertes.fr/tel-02100741