Reflexions, le site de vulgarisation de l'Université de Liège


Cartographier la criminalité des villes

09/10/2015

Un jeune chercheur de l’Université de Liège vient de développer un modèle numérique interactif permettant de cartographier et d’analyser les informations d’un entrepôt de données relatives à la criminalité selon une approche multidimensionnelle. Ce type de modèle est appelé SOLAP (« Spatial OnLine Analytical Processing ») : un outil classique de la géomatique, une discipline à la croisée de la géographie et de l’informatique. Mais ce type de serveur a l’habitude de générer des cartes vectorielles, qui ne peuvent présenter que des valeurs discrètes, ou discontinues. Grâce à l’utilisation d’une méthode raster, qui développe des cartes à l’aide de pixels et non plus d’entités vectorielles (points, lignes, polygones), ce nouveau modèle permet l’intégration d’un espace et de valeurs continus sur une carte dès lors plus exacte  et fidèle aux attentes de l’utilisateur. Face à l’invasion des informations numériques, de tels outils sont primordiaux pour détecter et analyser ce qui se cache dans des bases de données de plus en plus vastes. Ce modèle ne se cantonne d’ailleurs pas à la criminalité, et pourra servir des domaines tels que l’écologie, la climatologie ou encore l’épidémiologie .

A la frontière de la géographie et de l’informatique se trouve la géomatique. Une discipline récente et encore méconnue, mais aussi variée que nécessaire. On la retrouve  dans l’acquisition de données spatiales, que ce soit sur le terrain (station totale ou scanner 3D), par imagerie satellitaire ou par photographie aérienne (photogramétrie et télédétection). Des acquisitions de données qui permettent d’alimenter des bases de données spatiales (ou systèmes d’information géographique) permettant une analyse poussée du territoire.

Un autre aspect plus familier de la géomatique a investi le cœur de notre quotidien, c’est l’aspect GNSS (Global Navigation Satellite System ou système de positionnement par satellite). Le GNSS, pourvu d’une constellation de satellites, est la branche à la racine de toutes les technologies GPS qui équipent les voitures, drones, avions, téléphones, et qui permet l’amélioration continue d’outils aussi célèbres que Google maps.

Jean-Paul Kasprzyk, géomaticien ayant fraîchement défendu sa thèse de doctorat (1), assistant à l’unité de géomatique de l’Université de Liège, s’est spécialisé dans le développement d’outils liés aux bases de données. « Le monde des bases de données est divisé en deux grands embranchements, résume-t-il. Il y a d’une part les bases de données transactionnelles, destinées à monsieur tout le monde. Ce sont des outils permettant de chercher des informations assez précises, comme un itinéraire de voyage. Et d’autre part, il y a l’informatique décisionnelle. Elle tient compte d’informations multiples et de calculs statistiques plus compliqués, permettant d’agréger une multitude de données pour aider un groupe restreint de personnes à prendre des décisions. L’informatique décisionnelle développe donc des outils aidant les pouvoirs publics, les chefs d’entreprise, etc, à embrasser des réalités et des données complexes et nombreuses, et agir en fonction. »

L’objet de la thèse de Jean-Paul Kasprzyk s’inscrit dans ce second courant. « Quel que soit le profil des décideurs, qu’ils soient privés ou publics, dès qu’ils doivent tenir compte d’informations numériques, ils peuvent être confrontés à des jeux de données tellement grands qu’ils deviennent opaques à toute interprétation. Pour les analyser, il faut les résumer, et donc les agréger. » Un moyen d’agréger ces données, c’est d’utiliser un serveur OLAP (OnLine Analytical Processing), une interface numérique reliée à un entrepôt de données, et qui permet à un utilisateur de les appréhender de manière conviviale et intelligible. Un OLAP peut couvrir toutes sortes de bases données. Quand il intègre les outils informatiques liés au spatial (les SIG, ou système d’informations géographiques), il est assez simplement rebaptisé SOLAP (Spatial OnLine Analytical Processing).

Organiser de grands entrepôts de données

Repartition cambriolages LondresUn nouveau SOLAP, c’est précisément ce qu’a modélisé Jean-Paul Kasprzyk. Si le prototype semble aujourd’hui pouvoir s’acclimater à des demandes variées, il a initialement été optimisé pour une tâche très précise : la gestion d’un entrepôt multidimensionnel de données répertoriant les crimes et délits perpétrés à Londres sur l’année 2012. Le caractère multidimensionnel désigne la distinction et la comparaison possibles entre des critères d’ordres différents, comme le type de délit (cambriolage, racket, vol à l’étalage…), sa localisation (rue, quartier, district…), sa temporalité (le mois de l’année, par exemple), ou le profil des délinquants et des victimes. Quant au choix de la capitale anglaise, la raison est assez factuelle. « Je devais initialement travailler sur une base de données belge, en partenariat avec la police fédérale, se souvient le jeune chercheur. Et certains de mes interlocuteurs témoignent encore aujourd’hui d’un grand engouement pour mon travail. Mais j’ai été confronté à des problèmes structurels de confidentialité. Or, la ville de Londres fournit ce type de données en accès libre, jusqu’à un certain niveau de détail. J’ai donc pu facilement inventorier toute une série de données, et il y en avait déjà énormément, rien que pour 2012. C’était suffisant pour commencer à mettre le SOLAP au point. » Londres n’est pas la seule ville à fournir ce type de données. La police de Seattle libère aussi de nombreuses informations, que le géomaticien a également intégrées dans l’entrepôt.

L’utilité d’un tel programme devient rapidement concrète. « On peut imaginer, par exemple, le chef de la police londonienne, qui, au début du mois de février, doit répartir les patrouilles de manière à réduire la criminalité au minimum. Pour s’aider, il consulte une base de données qui répertorie les délits passés. Assez rapidement, il peut obtenir une carte de Londres qui affiche la répartition spatiale de la criminalité pour le mois de janvier et partir de l’hypothèse que la répartition sera similaire pour le mois de février. » Mais un petit détail devient vite épineux, pour le chef de Scotland Yard. Il y a, en 2012, approximativement 1,2 millions de délits répertoriés pour la seule ville de Londres, ce qui en fait près de 100 000 pour le mois de janvier. « Une simple répartition spatiale de la criminalité, où chaque délit est représenté par un point sur une carte, devient illisible. »

Ce que les SIG permettent, c’est donc de rassembler, de résumer ces valeurs en fonction de ce que l’on cherche à savoir. « Sur un plan vectoriel, j’ai réorganisé ces délits en les agrégeant par entités, qui représentent ici les différents secteurs de police de Londres. La couleur de ces polygones varie en fonction du nombre de points qu’ils contiennent. On obtient donc une densité de délits agrégés dans un espace discrétisé. » Mais cette carte vectorielle ne sert qu’à illustrer l’utilité des SOLAP en général. Car Jean-Paul Kasprzyk ne s’est pas intéressé au mode vecteur, mais a cherché à intégrer un espace continu dans ce type de modèle, à l’aide de la méthode raster.

Du vectoriel au raster pour une continuité spatiale

« Le problème principal des techniques vectorielles de cartographie, souligne le géomaticien, est qu’elles biaisent les valeurs qu’on cherche à définir. Par exemple, la finalité de ce recensement de cambriolages est de localiser des « hot spots », ou des points chauds. C’est-à-dire des endroits qui présentent une plus forte concentration de la criminalité. Une analyse qui permettra ensuite de décider où déployer en priorité les patrouilles de police, et donc de mieux prévenir la criminalité. Or, la carte vectorielle présente un espace discret géométriquement figé, à la suite d’une décision arbitraire, à savoir ici la distinction des secteurs de police. » Les hot spots désignés sur la carte ont donc une forme influencée par ces frontières, dont le tracé est indépendant des délits. Il se peut dès lors que des zones à basse criminalité fassent partie d’un secteur à forte concentration de délits, et apparaissent sur la carte comme des hot spots, et inversement. D’où l’ambition d’intégrer un espace continu dans le modèle.

Carte vecteorielle raster
Les services de police privilégient déjà ce type de cartes, plus exactes. Ils utilisent pour cela un algorithme particulier, le KDE (Kernel Density Estimation, ou Estimation de la Densité par les Noyaux). « Initialement, les délits sont représentés par un nuage de points. Ces points sont des valeurs discrètes. Pour les intégrer dans un espace continu, il faut les lisser, ce que fait cet algorithme. Plus précisément, il balaie un territoire, et en chaque pixel d’un raster, il génère une valeur relative qui dépend du nombre de crimes sur un temps donné, et de leur proximité par rapport au pixel. » Au final, l’algorithme attribue à chaque pixel une variation colorimétrique en fonction de la densité de la criminalité. L’agrégation des données s’opère à un degré de résolution de l’ordre du pixel et ne dépend plus de frontières artificielles, mais de leurs véritables localisations. La carte peut être plus ou moins précise, selon la résolution des pixels, mais aussi de la taille de la fenêtre de lissage. « Plus cette fenêtre est grande, plus la surface va être lissée sur une grande distance. Il y aura donc peu de hot spots, qui seront assez gros. Ce qui donne une information moins précise, mais qui peut être utile si on cherche à dégrossir quelques zones à risque (analyse globale). A l’inverse, plus la fenêtre est petite, plus la résolution sera précise, et plein de petits hot spots vont apparaître. La carte sera plus précise, mais les données seront moins agrégées (analyse locale). » Il y a donc toute une série de paramètres qui ont un impact sur l’aspect visuel de la carte. L’important, comme dans beaucoup de domaines, est de trouver un juste milieu pour obtenir une image efficace.

Quand les techniques de la police inspirent la géomatique

Donnees SOLAP

Le KDE permet donc de générer un espace continu en lissant des phénomènes discrets pour déterminer des valeurs relatives sur une carte. C’est cette méthodologie utilisée par la police que Jean-Paul Kasprzyk a intégrée dans le SOLAP multidimensionnel. Un croisement innovant. « Les SOLAP existants fonctionnent avec du vectoriel, ce qui ne permet de faire que des cartes discrètes, puisque c’est au programmateur de définir chaque entité séparément, ce qu’épargne le pixel comme unité spatiale. Raison pour laquelle les cartes générées en vectoriel ne considèrent pas l’espace de manière continue. » Maintenant, le SOLAP est une discipline récente, créée au Canada en 1997. A l’époque, les chercheurs ont pensé la structure des entrepôts de données spatiales de manière vectorielle, parce que la technologie est plus légère que le raster, et que les résultats étaient déjà probants. Or, pour préserver une convivialité et un intérêt à l’utilisation des SOLAP, la fluidité et donc la vitesse de calcul, qui dépend du nombre d’informations sur le serveur, reste une des principales priorités. Un net avantage qu’avait le vecteur sur le raster. « Seulement, on se rend compte aujourd’hui des limites du vectoriel pour tout ce qui concerne l’étude des phénomènes spatialement continus, comme la pollution ou le climat, ou, dans le cadre de cette recherche, la variation du taux de criminalité au sein d’une ville. De plus, l’espace continu modélisé par le raster offre plus de liberté à l’utilisateur lorsqu’il désire inclure des entités géographiques dans son analyse. En effet, ces entités ne doivent plus être définies à l’avance dans l’entrepôt de données puisqu’elles peuvent être reconstruites à la volée au moyen d’un ensemble des pixels stockés dans le système.»  

Un modèle interactif et multidimensionnel

L’interface se trouve en libre accès sur Internet (http://nolap01.ulg.ac.be/rastercube). Un accès qui nécessite toutefois une rapide inscription au préalable. L’utilisateur peut alors sélectionner une série de données (certains types de crimes, certains mois de l’année, etc) et demander ensuite de générer une carte qui les agrégera. Il pourra également consulter une série de graphiques délivrant des informations chiffrées, comme la variation de la criminalité au fil des mois, etc.

Outre la technologie raster, une grande originalité de la recherche est le caractère multidimensionnel de l’analyse continue. « Habituellement, explique Jean-Paul Kasprzyk, les bases de données structurent l’information sous forme de tables stockant des listes d’enregistrements. Ici, le caractère multidimensionnel résulte du fait que le SOLAP fonctionne avec des hypercubes de données. Il puise, dans l’entrepôt, des données qu’il agence ensuite en plusieurs dimensions, plusieurs axes d’analyse. Ensuite, on peut couper dans le cube, pour se limiter à un seul type de délit, par exemple. On peut aussi opérer des forages. Plutôt que d’agréger l’information en fonction du mois, on peut partir sur une moyenne trimestrielle, etc. On peut aussi jouer sur la résolution de la carte, sur le nombre de pixels. Chaque opération révélera des informations différentes, et dépendra donc de ce que l’utilisateur recherche. »

Multidimensionnel SOLAP

Aujourd’hui, le prototype n’est pas utilisé par la police fédérale. Mais il vient seulement d’être présenté, et son avenir n’est pas encore écrit. Et s’il ne trouve pas une application directe, il ouvre la voie à de nouvelles méthodes, à un tout nouvel état d’esprit dans l’approche de ces SIG, qui, discrètement, nous aident quotidiennement. De plus, outre la criminalité à Seattle et à Londres, il propose déjà d’autres jeux de données. Essentiellement pour démontrer son adaptabilité, il permet aussi de représenter les variations de la température à la surface de la Lune. Etant donné l’absence totale de délits sur ce satellite, l’opération suffit à prouver que le modèle ne se limite pas à combattre le crime !

(1) Integration of spatial continuity in the multidimensional structure of a data warehouse - raster SOLAP. Université de Liège, thèse de doctorat en sciences. http://hdl.handle.net/2268/182360


© Universit� de Li�ge - https://www.reflexions.uliege.be/cms/c_399766/fr/cartographier-la-criminalite-des-villes?printView=true - 28 mars 2024