La Matrice de Confusion en Computer Vision

La Matrice de Confusion en Computer Vision

Introduction

Les mesures d'évaluation sont essentielles pour évaluer les performances des modèles de vision par ordinateur. Ces mesures quantifient les performances d'un modèle sur une tâche donnée, permettant aux professionnels d'évaluer son efficacité et de la comparer à d'autres modèles. Dans le contexte de la vision par ordinateur, où la perception visuelle est essentielle, les mesures d'évaluation sont essentielles pour déterminer l'exactitude et la fiabilité des prédictions. La matrice de confusion constitue un outil d'évaluation puissant qui permet aux professionnels de comprendre les forces et les faiblesses de leurs modèles de manière systématique.

Dans cet article, nous approfondirons les subtilités de la matrice de confusion, explorerons ses applications dans l'évaluation des modèles d'apprentissage automatique et discuterons de la manière dont elle aide les professionnels à obtenir des informations précieuses sur les performances des modèles.

Qu'est-ce qu'une matrice de confusion : comprendre les vrais positifs, les vrais négatifs, les faux positifs et les faux négatifs

Une matrice de confusion fournit une représentation tabulaire des prédictions faites par un modèle par rapport aux étiquettes de vérité terrain. Elle est généralement présentée sous forme de matrice 2x2, en considérant des scénarios de classification binaire. Il y a quatre éléments clés dans cette matrice : les vrais positifs, les vrais négatifs, les faux positifs et les faux négatifs.

Voici un exemple de matrice de confusion binaire :

https://towardsdatascience.com

  • Les colonnes représentent les valeurs réelles – la vérité connue
  • Les lignes correspondent aux valeurs prédites de l'algorithme

Pour comprendre ces concepts, imaginez un modèle qui prédit si une image contient ou non une voiture. Il s’agit d’un exemple de cas binaire, puisqu’il n’y a que deux résultats possibles :

  • l'image contient une voiture
  • l'image ne contient pas de voiture

TP comme vrai positif: cela se produit lorsqu'un modèle prédit correctement un résultat positif.

Le modèle identifie une voiture dans l'image et l'image contient bien une voiture.

Exemple de vrai positif

TN comme vrai négatif: cela se produit lorsqu'un modèle prédit correctement un résultat négatif.

Le modèle n'identifie pas de voiture dans l'image et l'image ne contient pas de voiture.

Exemple de vrai négatif

FP comme faux positif: cela se produit lorsqu'un modèle prédit un résultat positif là où il aurait dû être négatif. Le modèle identifie une voiture dans l'image lorsque l'image ne contient pas de voiture.

Exemple de faux positif

FN comme faux négatif :cela se produit lorsqu'un modèle prédit un résultat négatif alors qu'il aurait dû être positif. Le modèle n'identifie pas de voiture lorsque l'image contient une voiture.

Exemple de faux négatif

Ces quatre résultats constituent la base de la matrice de confusion, permettant aux professionnels d'analyser en détail les performances du modèle.

Précision : la mesure d'évaluation la plus élémentaire

La précision est peut-être la mesure d’évaluation la plus fondamentale dérivée directement de la matrice de confusion. Il mesure l'exactitude globale des prédictions d'un modèle en calculant le rapport entre les échantillons correctement classés et le nombre total d'échantillons.

La formule de précision est la suivante :

Bien que la précision fournisse un aperçu général des performances d'un modèle, elle peut ne pas convenir aux ensembles de données présentant des distributions de classes déséquilibrées. Dans de tels cas, où une classe l’emporte largement sur l’autre, la précision peut être trompeuse. Pour mieux comprendre, nous devons explorer des mesures d'évaluation supplémentaires qui abordent les compromis inhérents aux tâches de classification.

Précision et rappel : équilibrer les compromis

La précision et le rappel sont deux mesures d’évaluation cruciales qui visent à trouver un équilibre entre l’identification correcte des échantillons positifs et la minimisation des faux positifs et des faux négatifs.

Précision

Il quantifie le rapport entre les vrais positifs et le nombre total de prédictions positives et est calculé comme suit :

La précision révèle la capacité du modèle à faire des prédictions positives précises. Une valeur de précision élevée indique que lorsque le modèle prédit un résultat positif, il est souvent correct. Cependant, il ne prend pas en compte les faux négatifs, ce qui pourrait conduire à des résultats trompeurs dans les scénarios où les conséquences des faux négatifs sont graves.

https://picsellia.com

Rappel

Le rappel, également connu sous le nom de sensibilité ou taux de vrais positifs, mesure le rapport entre les vrais positifs et le nombre total d'échantillons positifs réels et est calculé comme suit :

Le rappel se concentre sur la capacité du modèle à identifier correctement les échantillons positifs dans l'ensemble du pool d'instances positives. Une valeur de rappel élevée indique que le modèle peut détecter efficacement les échantillons positifs. Toutefois, le rappel ne tient pas compte des faux positifs, ce qui peut s’avérer problématique dans les situations où les faux positifs sont coûteux.

www.picsellia.com

Score F1 : la moyenne harmonique de la précision et du rappel

Le score F1 est une mesure qui combine précision et rappel en une seule valeur, fournissant une évaluation équilibrée des performances d'un modèle. Elle est calculée comme la moyenne harmonique de précision et de rappel, et sa formule est la suivante :

www.picsellia.com

La moyenne harmonique représente les situations où la précision et le rappel ont des valeurs disparates. Le score F1 atteint sa valeur maximale de 1 lorsque la précision et le rappel sont parfaitement équilibrés, ce qui indique que le modèle réalise à la fois des prédictions positives précises et une détection complète des échantillons positifs. Cette métrique est particulièrement utile dans les scénarios où la précision et le rappel doivent être également pondérés.

Si vous souhaitez en savoir plus sur le score F1, vous pouvez consulter l’article suivant sur le blog de Picsellia : Comprendre le score F1 dans l'apprentissage automatique : la moyenne harmonique de précision et de rappel

Spécificité et sensibilité : mesures pour les ensembles de données déséquilibrés

Les ensembles de données déséquilibrés, dans lesquels une classe est nettement plus nombreuse que l'autre, posent des défis pour les mesures d'évaluation telles que l'exactitude, la précision et le rappel. Dans de tels scénarios, la spécificité et la sensibilité offrent des informations supplémentaires sur les performances d'un modèle.

  • La spécificité mesure la proportion de négatifs correctement prédits par rapport au nombre total de négatifs réels. Sa formule est la suivante :
  • La sensibilité quantifie la proportion de positifs correctement prédits par rapport au nombre total de positifs réels. Sa formule est la même que pour rappel :

En considérant à la fois les vrais négatifs et les vrais positifs, la spécificité et la sensibilité fournissent une évaluation plus complète de l'efficacité d'un modèle dans des ensembles de données déséquilibrés. Ces mesures aident les professionnels à évaluer les performances du modèle lorsque les classes sont fortement asymétriques, garantissant ainsi que le modèle peut identifier avec précision les échantillons négatifs tout en détectant les instances positives.

Courbe des caractéristiques de fonctionnement du récepteur (ROC) et aire sous la courbe (AUC)

La courbe des caractéristiques de fonctionnement du récepteur (ROC) et sa métrique associée, l'aire sous la courbe (AUC), fournissent une visualisation et une évaluation complètes des performances d'un modèle sur différents seuils.

La courbe ROC représente le taux de vrais positifs (sensibilité) par rapport au taux de faux positifs (1 - spécificité) à différents réglages de seuil. Chaque point de la courbe correspond à un seuil spécifique, reflétant l’arbitrage entre vrais positifs et faux positifs. La courbe ROC permet aux professionnels d'évaluer les performances d'un modèle sur l'ensemble des seuils de classification possibles, donnant ainsi un aperçu de son pouvoir discriminant.

L'AUC résume les performances de la courbe ROC en calculant l'aire sous la courbe. La valeur AUC varie de 0 à 1, une valeur plus élevée indiquant une meilleure discrimination. Un modèle avec une AUC proche de 1 présente de fortes capacités prédictives, distinguant efficacement les échantillons positifs et négatifs sur différents seuils.

https://towardsdatascience.com 

Interpréter la matrice de confusion : exemple pratique en vision par ordinateur

Pour illustrer les applications pratiques de la matrice de confusion en vision par ordinateur, considérons l'exemple de la détection d'objets.

Dans les tâches de détection d'objets, la matrice de confusion permet d'analyser les performances des modèles en identifiant les erreurs de classification courantes et en découvrant les limitations potentielles. Par exemple, si un modèle classe fréquemment à tort les piétons comme des cyclistes, la matrice de confusion peut révéler cette tendance, permettant ainsi aux chercheurs d'enquêter et de traiter les causes sous-jacentes. En comprenant les types spécifiques d'erreurs commises par le modèle, les professionnels peuvent affiner les algorithmes ou ajuster le processus de formation pour améliorer les performances et relever des défis spécifiques.

www.picsellia.com

Voici une matrice multi-confusion issue d’une expérience réalisée sur la plateforme Picsellia, qui consiste à détecter des vélos, des bus, des voitures, des moteurs, des personnes et des camions dans un ensemble de données.

Comment ça marche sur Picsellia ?

A la fin de la formation, vous pouvez accéder à l'onglet « Journaux » pour voir toutes les métriques de suivi des expériences liées à la formation, cela permet aux utilisateurs d'affirmer si l'expérience est réussie ou non.

Vous pouvez choisir les métriques à calculer et à afficher à la fin des graphiques, images, matrices et figures de formation.

Obtenez des détails en consultant notre guide de l’utilisateur sur le lien suivant : 8 - Créez votre projet et lancez des expérimentations

Limites et défis de la matrice de confusion

Une limitation importante est le recours à une classification binaire. La matrice de confusion est conçue pour évaluer des modèles à deux classes, ce qui la rend moins adaptée aux problèmes de classification multi-classes. L'extension de la matrice de confusion pour gérer des scénarios multiclasses implique généralement des modifications, telles que l'approche un contre tous ou l'utilisation de techniques de micro et macro moyenne.

Des ensembles de données déséquilibrés peuvent également poser des problèmes lors de l’interprétation des mesures d’évaluation dérivées de la matrice de confusion. Si les classes de l'ensemble de données sont déséquilibrées, ce qui signifie qu'une classe l'emporte considérablement sur l'autre, des mesures telles que l'exactitude, la précision, le rappel, la spécificité et la sensibilité peuvent ne pas représenter avec précision les performances du modèle. Dans de tels cas, d’autres techniques telles que l’échantillonnage stratifié, les méthodes de rééchantillonnage ou l’utilisation de mesures d’évaluation spécialisées telles que l’aire sous la courbe précision-rappel peuvent être nécessaires.

De plus, la matrice de confusion ne donne pas d’informations sur les causes profondes des erreurs de classification. Il sert de résumé des prédictions et des étiquettes de vérité terrain, permettant aux professionnels d’analyser et d’enquêter plus en profondeur sur les raisons des faux positifs et des faux négatifs. Des techniques supplémentaires, telles que l'analyse des erreurs, l'analyse de l'importance des caractéristiques ou les méthodes d'interprétabilité des modèles, peuvent être utilisées pour mieux comprendre les sources des erreurs de classification.

Conclusion : exploiter la puissance de la matrice de confusion en vision par ordinateur

La matrice de confusion est un outil indispensable pour les professionnels de la vision par ordinateur. En comprenant parfaitement ses concepts, ses mesures et ses applications, les individus peuvent obtenir des informations plus approfondies sur les performances de leurs modèles, identifier les domaines à améliorer et prendre des décisions éclairées.

N'oubliez pas que la matrice de confusion n'est qu'un aspect de l'évaluation des modèles de vision par ordinateur et qu'elle doit être utilisée conjointement avec d'autres techniques et considérations d'évaluation pour développer des systèmes robustes et performants.

Gérez vos données d'IA de la bonne manière

Obtenir un essai

Recommandé pour vous:

english language
EN
french language
FR