Dressage de chien – Démêler les mythes et les faits des modèles d’IA – Eduquer son chien

MÉTHODE POUR DRESSER VOTRE CHIEN seulement 15 min par jour

Imaginez que vous êtes seul à la maison. Il fait sombre. Tu viens de regarder Flair et vous avez vu un nombre inhabituellement élevé de cambriolages dans votre quartier ces dernières semaines. Vous êtes à l’avant-garde, mais vous vous rappelez: votre nouveau système de sécurité. Il s’agit d’une caméra à la pointe de la technologie qui promet de détecter non seulement les mouvements étranges, mais aussi les visages extraterrestres en temps réel. Vous êtes convaincu que ce système vous avertira si une personne suspecte s’approche de votre maison, vous dormirez donc paisiblement.

Votre nouveau système de sécurité est utile car vous avez confiance en son fonctionnement. Mais comment savez-vous que l’appareil fonctionne comme promis? Fondamentalement, les consommateurs font confiance à la caméra s’appuyant sur les technologies qui ont doté la caméra d’intelligence. Cela signifie que les technologies ont la grande responsabilité de s’assurer que les réseaux de neurones (NN) qu’elles construisent réussissent de toutes les manières pour lesquelles ils sont conçus, qu’ils soient conçus pour reconnaître des visages étranges ou non. Facile, non?

Pas vraiment. En réalité, les méthodes les plus courantes pour estimer la «précision» du réseau neuronal (NN) ne sont pas aussi fiables qu’on pourrait le penser. En fin de compte, les technologies veulent créer des modèles qui donnent de bonnes prédictions, mais comme nous n’avons pas accès aux exemples futurs, comment devrions-nous commencer par créer NN?

Il est courant de diviser le matériel disponible en sous-ensembles de formation et de test. Utilisez uniquement les données d’entraînement pour former NN (c’est-à-dire «Tricher» en regardant la série de tests). La qualité du NN de la série de tests est alors souvent évaluée avec une précision moyenne: le nombre de réponses correctes renvoyées une fois que l’ensemble de la série de tests a été évalué.

Il semble évident que la précision moyenne est le meilleur critère pour évaluer la qualité de NN – et elle est largement utilisée même dans les publications techniques des principales conférences – mais cela n’a pas autant de sens qu’il y paraît. Afin d’obtenir des modèles plus fiables – et en fin de compte des produits plus fiables – les technologies doivent éviter d’être induites en erreur par de simples mesures de précision et des malentendus généraux connexes. Considérer ce qui suit:

Une précision élevée ne signifie pas à elle seule une qualité élevée
Environ 1 personne sur mille dans le monde a reçu un Covid-19, heureusement, j’ai un modèle très précis qui prédit si vous avez un Covid-19. Mon modèle dit toujours non. C’est vrai 99,9% du temps (en moyenne), donc c’est très précis … mais complètement inutile.

Pratiquement aujourd’hui, si mon NN a une précision moyenne que votre ensemble de données habituel, je serai considéré comme «meilleur». Je crois que dans les deux sens, presque aucun client n’évalue la précision moyenne, malgré son omniprésence, comme mesure de la qualité.

Si vous voulez savoir pourquoi, demandez-vous comment vous pouvez dire si NN est utile dans la pratique. Il doit faire des prédictions qui sont à la fois: 1) bonnes, capables de répondre correctement face à des exemples du monde réel auparavant invisibles; et 2) utile, qui peut être fiable dans la prise de décision en aval.

Toutes les erreurs ne sont pas créées égales
Supposons que vous souhaitiez un NN capable de distinguer les images de chiens, de chats et d’hélicoptères. Les chercheurs en apprentissage automatique A et B créent tous deux des NN et montrent tous deux une précision de 98% dans la série de tests. Cependant, lorsque A ne renvoie pas le «chien» au chien, il renvoie le «chat», tandis que B renvoie «l’hélicoptère» aux chiens qu’il ne reconnaît pas. Les deux modèles ont la même précision de test que celle calculée ci-dessus, mais quel modèle aimeriez-vous? A est beaucoup plus susceptible que B d’avoir saisi correctement le concept de «chien», mais en termes de précision seulement, A et B sont équivalents.

Précision du modèle IA
Les deux modèles ont la même précision, mais préféreriez-vous un modèle avec une réponse incorrecte de «chat» ou un avec une réponse incorrecte de «hélicoptère»? (Photo: Détecter)

Malheureusement, les méthodes les plus courantes d’estimation de la précision sont incapables de déterminer dans quelle mesure le modèle de A est meilleur que B, ou d’optimiser le NN formé en conséquence. Les compteurs tels que mAP, f1 et bon nombre de leurs variations incluent certains aspects de la qualité du modèle, mais se concentrent uniquement sur le nombre d’erreurs et non sur leur gravité relative. Ce choix de priorité ne répond pas aux préoccupations de la plupart des clients. Par exemple, qu’est-ce qui est pire: X) La détection de visage permet à quelqu’un d’autre que vous de déverrouiller votre téléphone, ou Y) La détection de visage vous empêche de déverrouiller votre téléphone? Les deux sont ennuyeux, mais la plupart des gens disent que X est une erreur beaucoup plus grave qu’il est important de prendre en compte lors de l’évaluation de la qualité globale d’un modèle.

Une petite surprise est plus importante qu’une surprise moyenne basse
L’utilisation quasi universelle de l’anthropie croisée, qui capture la surprise moyenne, minimise littéralement la surprise moyenne que le NN final devrait avoir lors de la comparaison des prédictions sur la série d’entraînement par rapport à la vérité de base. L’entropie croisée ignore effectivement un petit nombre de résultats étranges, mais ce sont les résultats étranges qui fournissent le plus d’informations.

Supposons que sur 100 000 images d’entraînement, une seule image d’un chien soit classée à tort comme un hélicoptère, tandis que les autres chiens mal classés sont considérés comme des chats. Ne devrions-nous pas remarquer ce que cet hélicoptère chien choquant nous dit? Je pense que les utilisateurs se soucient de minimiser la surprise maximale, pas la surprise moyenne. Une image en hélicoptère d’un chien devrait avoir un effet significativement plus important sur NN pendant l’entraînement qu’une image d’un chien moins surprenant, bien que les images moins surprenantes soient beaucoup plus peuplées. Pour revenir à l’exemple de Covid-19, mon modèle a une surprise moyenne faible, mais la plus grande surprise maximale lorsqu’il rencontre quelqu’un avec un Covid-19. Par conséquent, il est inutile même s’il a une précision moyenne élevée.

Pour construire des modèles plus fiables – et finalement des produits plus fiables – nous devons repenser la façon dont la précision est mesurée et son rôle dans la détermination de la qualité. En remettant en question les hypothèses largement utilisées sur la qualité et les erreurs dans la construction de modèles, nous pouvons faire de nouveaux pas en avant dans la construction de NN qui sont à la fois bons et utiles et pas simplement et subordonnés «précis». Avec des modèles et des produits fiables qui fonctionnent comme il se doit, les personnes possédant des caméras intelligentes pour la maison peuvent avoir confiance que des intrus étranges déclencheront une alarme rapide et efficace et pourront se reposer facilement en sachant qu’ils sont en sécurité.

– Steve Teig est le PDG de Perceive Corporation.

MÉTHODE POUR DRESSER VOTRE CHIEN seulement 15 min par jour

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *