Carte de densité (KDE)


Les cartes de densité, également appelées "cartes de chaleur" ou "heatmap" sont classiquement utilisées en analyse criminelle depuis de nombreuses années pour représenter des points-chauds de criminalité. Elles offrent un rendu visuel facilement interprétable, mais souffrent également de limites. En raison de leur historique d'utilisation, elles sont présentées en premier, mais d'autres types de cartes, présentés ci-dessous, permettent des représentations plus précises et intègres.

Fonctionnement et limites à prendre en considération

A) Les cartes de densité sont des cartes de type raster qui exploitent une fonction d'interpolation (dans le plugin, il s'agit d'une fonction gaussienne) pour calculer une valeur de probabilité sur l'ensemble de la zone d'analyse. En conséquence, des zones ne contenant aucune occurence (aucun événement criminel) peuvent avoir une probabilité non nulle.

B) L'algorithme se base sur deux paramètres: le "pas" qui est la taille des cellules de la grille (grid cells) et la "bande passante" (search radius).

La zone d'analyse (la zone entourant l'ensemble des points ou la zone affichée à l'écran) est divisée en cellules dont il faut définir la taille (le "pas"). Pour chaque cellule, l'algorithme calcule une valeur de probabilité à laquelle une couleur est associée.

Le calcul se fait ainsi: (1) une fonction gaussienne est positionnée au centre de chaque cellule, (2) le logiciel sélectionne l'ensemble des cas compris à une distance inférieure ou égale à la bande passante définie (search radius), (3) pour chaque cas une probabilité est calculée sur la base de la distance entre le centre de la cellule et la position du cas, (4) les probabilités sont additionées pour chaque cellule, (5) puis normées pour obtenir une densité totale de 1 (la somme des valeurs de toutes les cellules vaut 1).

Le choix de ces paramètres influence très fortement le rendu. Ainsi, le "pas" défini la résolution de la carte et la "bande passante" le niveau de lissage. Le logiciel intègre des mesures pour guider le choix (cf. ci-dessous).


La carte de droite à une bande passante 2 fois plus grande que celle de gauche.

C) L'échelle de couleur influence très fortement l'interprétation. Classiquement, une échelle du bleu (peu de cas) au rouge (beaucoup de cas) est utilisée. Néanmoins, une telle échelle accentue très fortement les différences qui ne sont plus proportionnelles aux variations réelles ! Il est recommandé d'utiliser une échelle qui ne change pas (ou peu) de couleur.

Les deux cartes sont identiques, seule l'échelle de couleur est modifiée (en utilisant le panneau visualist). Remarque: afin d'obtenir un rendu lissé un traitement est ajouté au calcul (interpolation bi-cubique de l'image)

D) Le logiciel ne permet pas encore de prendre un compte un dénominateur (densités pondérées) !

Configuration

1. Sélectionner la couche de points à analyser. Le logiciel affiche des informations pour guider le choix des paramètres:
          - la distance moyenne du plus proche voisin (cf. carte des proches voisins)
          - la valeur de pas par défaut qui est égale à la largeur de la zone visible divisée par 100
          - le nombre de cas (indicateur du temps de calcul)
          - une valeur de bande passante à utiliser pour ne prendre en compte que les cas des cellules voisines

2. La "bande passante" définit le degré de lissage (en mètres). Elle doit être plus grande que le pas. La valeur par défaut est la distance moyenne du plus proches voisins. Elle doit être supérieure à cette valeur.

3. Le "pas" définit la taille de la grille pour les calculs (en mètres). Plus le "pas" est petit, plus les calculs sont importants.

4. Si la case à cocher est sélectionnée, l'image est rééchantillonnée pour augmenter la résolution indépendamment de la taille de la grille. Cela permet d'avoir une image "de bonne qualité" sans avoir à choisir un "pas" trop petit.

5. Sélectionner un dossier et un nom de fichier pour enregistrer la couche raster créée (au format geoTIFF).

 

Carte des proches voisins


L'algorithme développé pour produire une carte des proches voisins est une version simplifiée de l'algorithme de Ned Levine dans CrimeStat: http://nij.gov/topics/technology/maps/pages/crimestat.aspx. La carte représente les points-chauds par des zones de concentration identifiées par une analyse de proches voisins.

Important: l'algorithme calcul la distance euclidienne entre les cas. Il faut donc une couche de points projetés dans le plan (X, Y) et non un référentiel angulaire (longitude, latitude).

Fonctionnement et limites à prendre en considération

A) L'algorithme se base sur deux paramètres: la "distance de recherche" et la "taille des clusters".

         - la distance de recherche est automatiquement définie par la distance moyenne attendue si les n points de la distribution étaient répartis aléatoirement dans la zone totale A : d = 0.5 * Racine carrée de A/n. La valeur peut être modifiée.
         - la taille des clusters correspond au nombre minimal de cas que doit contenir une zone considérée comme un point-chaud. Le choix est subjectif.

L'algorithme fonctionne ainsi:

1. Pour chaque événement, un carré centré à la position du cas et d'une taille de deux fois la distance de recherche est utilisé pour sélectionner les proches voisins. Les distances avec les voisins sont calculés et les cas sont considérés comme des proches voisins du cas si la distance est inférieure ou égale à la distance de recherche.

2. Le cas ayant le plus de proches voisins est sélectionné. Lui et ces voisins forment le premier point-chaud. Ils sont retirés de la distribution et le cas suivant ayant le plus de proches voisins est sélectionné. Lui et ces voisins formes le second point-chaud, etc. L'étape est recursive jusqu'à ce qu'il n'y ai plus de cas ayant un nombre de proches voisins supérieur ou égal à la taille des clusters définie.

3. Pour chacun des groupes, le centre de gravité est calculé. Les distances sont recalculées avec les centres gravités pour assurer que les zones ne se chevauchent pas. En effet, certains cas peuvent changer de groupe dans le cas où deux points-chauds sont spatialement proche.

4. L'enveloppe convexe de chaque groupe est utilisée pour représenter les points-chauds par des polygones.

B) Contrairement à l'algorithme de Ned Levine dans CrimeStat (Nearest Neighbor Hierarchical Clustering), la carte ne représente que les clusters de premier ordre.

C) Les exemples ci-dessous montrent les avantages d'exploiter cette méthode plutôt qu'une carte de densité ou une carte en grille

Les points-chauds correspondent à des zones contenant toujours des cas, contrairement à l'interpolation d'une carte de densité. De plus les quantités représentent directement le nombre de cas survenus dans chaque zone.

Les zones sont définies directement par la distribution des cas, alors que sur une carte en grille le découpage est défini par la taille de la grille et la position de la zone totale. Sur une carte en grille, un déplacement de la grille modifie la représentation.

Configuration

 

1. Sélectionner la couche de points à analyser.

2. la distance de recherche (en mètres) est automatiquement proposée quand une couche est sélectionnée

3 la taille des clusters correspond au nombre minimal de cas que doit contenir une zone considérée comme un point-chaud.

 

 

 

4. Sélectionner un dossier et un nom de fichier pour enregistrer la couche de polygones créée (au format SHP).

 

Carte choroplèthe


Les cartes chroplèthes représentent une quantité (nombre de cas, pourcentages, etc.) par la couleur (ou un motif) pour des zones généralement administratives. Elles permettent de comparer les valeurs par région et d'exploiter des informations démographiques pour pondérer les mesures.

 

 

André-Michel Guerry, Essai sur la statistique morale de la France. Paris, Crochard,‎ 1833.

 

Fonctionnement et limites à prendre en considération

A) Ce type de carte est pertinent pour effectuer une comparaison par régions administratives et permet de pondérer le nombre de cas en regard, par exemple, du nombre d'habitants, d'habitations, de commerces (voir la fonction de pondération).

Le fonctionnement est relativement simple. A partir d'une couche de polygones (régions administratives), le nombre de cas (présents sur une couche de points) contenu dans chaques zones est calculé. Une nouvelle couche de polygones contenant une colonne stockant les valeurs est créée.

Note: cette nouvelle couche ne contient que les polygones contenant des valeurs.

B) Attention, ces cartes engendrent la perception que la distribution des cas est uniforme sur chaque zone.

Exemple superposant la distribution des points et la carte choroplèthe.

Configuration

1. Sélectionner la couche de poylgones.

 

2. Sélectionner la couche de points.

3. Une nouvelle colonne qui contient le nombre de points dans la zone est créée. Par défaut, cette colonne est nommée "PNTCNT". Ce nom peut être modifié.

 

 

4. Sélectionner un dossier et un nom de fichier pour enregistrer la couche vectorielle créée (au format SHP).

 

 

 

Carte quadrillée


Les cartes cadrillées divisent la zone d'analyse en carrés et représentent le nombre de cas présents dans chaque cellule par une couleur.

Fonctionnement et limites à prendre en considération

Le fonctionnement est simple. Le programme crée une couche de polygones (carrés) dont la taille est paramètrable sur l'ensemble de la zone d'analyse. Puis le nombre de cas présents dans chaque carré est compté.

A) Le découpage est défini par la taille de la grille et la position de la zone totale. Un déplacement de la grille modifie la représentation.

B) Le choix de la taille de la grille est un choix subjectif.

Configuration

1. Sélectionner la couche de points.

2. Définir la taille de la grille (en mètres).

 

 

 

 

 

3. Sélectionner un dossier et un nom de fichier pour enregistrer la couche vectorielle créée (au format SHP).

 

 

Carte à symboles proportionnels


Les cartes à symboles proportionnels regroupent l'ensemble des points ayant la même position en un seul point. Un cercle dont la taille est proportionnelle au nombre de cas est alors créé.

Les points peuvent également être regroupés par une couche de régions (couche de polygones) pour représenter l'ensemble des cas par zones.

Fonctionnement et limites à prendre en considération

Exemples de cartes à symboles proportionnels: à droite avec un regroupement des points avec la couche administratives des districts.

Configuration

1. Il est possible de sélectionner une couche de poylgones, pour regrouper les cas par région

 

2. Sélectionner la couche de points.

3. Une nouvelle colonne qui contient le nombre de points dans la zone est créée. Par défaut, cette colonne est nommée "PNTCNT". Ce nom peut être modifié.

 

 

4. Sélectionner un dossier et un nom de fichier pour enregistrer la couche vectorielle créée (au format SHP).

 

 

Carte de lignes graduées


Les cartes à lignes graduées permettent de représenter le nombre de cas le long de routes (couche polylines). L'algorithme commence par diviser les routes en segments dont la longueur est paramétrable. Le segment le plus proche de chaque point est ensuite identifié.

Fonctionnement et limites à prendre en considération

Pour générer une carte de lignes graduées, il est nécessaire d'exploiter une couche de lignes (polylines) représentant un réseau routier. L'algorithme fonctionne en deux étapes: (1) les routes du réseau sont divisées en segments dont la taille est paramètrable, (2) les cas sont ensuite projetés sur le segment le plus proche.

A) Les routes peuvent être segmentées selon deux méthodes:

- par une taille de segment fixe de 200 mètres, une route de 650 mètres est divisée en 3 segments de 200 mètres et un segment de 50 mètres (une route de 620 mètres sera divisée en 2 segments de 200 mètres et 1 segment de 220 mètres)

- par la division la plus proche de 200 mètres, une route de 650 mètres est divisée en deux segment de 216 mètres et un segment de de 218 mètres.

B) Les cas sont projetés sur les segments les plus proches de leurs positions, mais uniquement si la distance qui les séparèrent est inférieure à un seuil paramétrable (par exemple, 50 mètres).

 

 

 

Configuration

1. En cochant cette case, il est possible de n'effectuer que la segmentation de la couche de lignes.

2. Sélectionner la couche de lignes.

3. Définir la taille des segments (en mètres).

 

4. Définir la méthode segmentation. (cf. explications plus haut)

 

5. Sélectionner la couche de points. (les cas qui seront projectés sur les segments)

6. Cette case à cocher permet d'ajouter l'identifiant de la couche de segment à la couche des cas (pour des analyses subséquentes avec les attributs de la couche des cas).
7. Une nouvelle colonne qui contient le nombre de points par segment. Par défaut, cette colonne est nommée "PNTCNT". Ce nom peut être modifié.
8. Définir la distance (en mètres) à partir de laquelle un cas n'est pas projeté sur un segment car jugé trop éloigné.
 

9. Sélectionner un dossier et un nom de fichier pour enregistrer la couche vectorielle créée (au format SHP).