Dressage de chien – Les méthodes de dressage des chiens aident JHU à apprendre aux robots à apprendre de nouvelles astuces – Eduquer son chien

MÉTHODE POUR DRESSER VOTRE CHIEN seulement 15 min par jour

IMAGE

IMAGE: “La question était, comment pouvons-nous amener un robot à apprendre une compétence?” A déclaré l’auteur principal Andrew Hundt, un doctorant travaillant dans l’interaction computationnelle et la robotique de Johns Hopkins. plus

Crédit: Will Kirk / Université Johns Hopkins

Avec une technique d’entraînement couramment utilisée pour apprendre aux chiens à s’asseoir et à rester, des chercheurs en informatique de l’Université Johns Hopkins ont montré au robot comment s’enseigner plusieurs nouvelles astuces, y compris l’empilement de blocs. Avec la méthode, un robot appelé Spot a pu apprendre en quelques jours, ce qui prend généralement un mois.

En utilisant le renforcement positif, une approche familière à toute personne ayant l’habitude de traiter le comportement des chiens, l’équipe a considérablement amélioré ses compétences en robotique et l’a fait assez rapidement pour faire des robots d’entraînement du monde réel une tentative viable. Les résultats ont été récemment publiés dans un article intitulé “Cher Robot!”

“La question était, comment pouvons-nous amener un robot à apprendre une compétence?” a déclaré l’auteur principal Andrew Hundt, un étudiant au doctorat qui travaille au laboratoire Johns Hopkins d’interaction computationnelle et de robotique. “J’ai eu des chiens, donc je connais le travail de récompense, et c’était l’inspiration pour la conception de l’algorithme d’apprentissage.”

Contrairement aux humains et aux animaux, qui sont nés avec un cerveau très intuitif, les ordinateurs sont des tables vides et ils doivent tout apprendre à partir de zéro. Mais le véritable apprentissage se fait souvent par essais et erreurs, et les robots continuent de comprendre comment les robots peuvent efficacement apprendre de leurs erreurs.

L’équipe a atteint cet objectif en inventant un système de récompense qui fonctionne pour le robot d’une manière qui traite le travail du chien. Si un chien pouvait obtenir un cookie pour un travail bien fait, le robot gagnait des points numériques.

Hundt a rappelé comment il avait une fois enseigné à sa chiot de l’Association Terrier, Leah, l’ordre de «laisser» pour qu’il puisse ignorer les écureuils lors d’une promenade. Il a utilisé deux sortes de délices, les délices habituels des entraîneurs et quelque chose d’encore mieux, comme le fromage. Quand Lea était excitée et reniflait autour des friandises, elle n’a rien eu. Mais quand il s’est calmé et a détourné le regard, il a obtenu de bonnes choses. «Ensuite, je lui ai donné du fromage et j’ai dit:« Laisse-le! Chère Lea! “”

De même, pour empiler des blocs, le robot Spot a dû apprendre à se concentrer sur des actions constructives. En examinant les blocs, le robot a rapidement appris que le comportement correct de l’empilement permettait d’obtenir des scores élevés, mais que les mauvais ne méritaient rien. Atteignez, mais vous ne saisissez pas le bloc? Pas de points. Verser la pile? Absolument aucun point. Spot a gagné le plus en plaçant le dernier bloc au-dessus d’une pile de quatre blocs.

Non seulement la tactique de formation a fonctionné, mais il n’a fallu que des jours pour enseigner le robot, ce qui a pris des semaines. L’équipe a pu réduire le temps de formation en entraînant d’abord un robot simulé, un peu comme un jeu vidéo, puis en effectuant des tests sur Spot.

“Le robot veut un score plus élevé”, a déclaré Hundt. “Il apprend rapidement le bon comportement pour obtenir la meilleure récompense. En fait, il a fallu un mois d’entraînement dans le passé pour que le robot atteigne une précision de 100%. Nous avons pu le faire en deux jours.”

Le renforcement positif a non seulement aidé le robot à apprendre à empiler des blocs, mais grâce au système de points, le robot a appris plusieurs autres tâches tout aussi rapidement – même en jouant à un jeu de navigation simulé. La capacité d’apprendre des erreurs dans toutes sortes de situations est essentielle pour concevoir un robot capable de s’adapter à de nouveaux environnements.

“Au début, le robot n’a aucune idée de ce qu’il fait, mais il va de mieux en mieux à chaque exercice. Il n’abandonne jamais et essaie de s’empiler constamment et est capable d’accomplir la tâche 100% du temps”, a déclaré Hundt.

L’équipe imagine que ces résultats pourraient aider à former des robots domestiques à laver et blanchir les aliments – des tâches qui peuvent être populaires sur le marché libre et aider les personnes âgées à vivre de manière autonome. Cela pourrait également aider à améliorer la conception des voitures autonomes.

«Notre objectif est de développer à terme des robots capables d’exécuter des tâches complexes dans le monde réel, telles que l’assemblage de produits, les soins aux personnes âgées et la chirurgie», a déclaré Hager. “Nous ne savons pas pour le moment comment programmer de telles tâches – le monde est trop complexe. Mais un tel travail nous montre qu’il y a une promesse pour l’idée que les robots peuvent apprendre à effectuer de telles tâches de la vie réelle en toute sécurité.”

###

Le groupe et les auteurs comprenaient des étudiants diplômés de Johns Hopkins Andrew Hundt, Benjamin Killeen, Nicholas Greene, Heeyeon Kwon et Hongtao Wu; l’ancien étudiant diplômé Chris Paxton; et Gregory D. Hager, professeur d’informatique à Mandell Bellmore.

Avertissement: AAAS et EurekAlert! ne sont pas responsables de l’exactitude des bulletins envoyés à EurekAlert! les institutions de financement ou l’accès à toute information via le système EurekAlert.

MÉTHODE POUR DRESSER VOTRE CHIEN seulement 15 min par jour

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *