ロボットの作業学習と犬のトレーニング
犬のトレーニング方法で『正の強化』と呼ばれる報酬ベースの方法は広く知られており、今やドッグトレーニングの主流となっています。犬が望ましい行動をした時にトリーツなど報酬を与えて、その行動を強化していくというものです。
この報酬ベースの正の強化のトレーニングを、ロボットに作業を学習させる際に応用したところ驚くべき結果が出たという論文の発表がありました。
アメリカのジョンズ・ホプキンス大学のコンピューター科学者からの報告をご紹介します。
愛犬へのトレーニング方法から得たアイデア
論文の筆頭著者である研究者はテリアミックスのリアという犬を飼っています。彼はリアにコマンドを教える際に、普通のトリーツと特別なトリーツを使ってトレーニングをしました。
普通のトリーツを見せた時リアが興奮して嗅ぎ回ると何ももらえません。トリーツを見せても落ち着いて目をそらしたら特別なもっと良いトリーツが与えられました。リアが目をそらした瞬間に「無視!」というコマンドを出し、リアが目の前のものから目をそらして無視するという行動を強化します。
このトレーニングでリアは散歩の途中でリスを見かけても追いかけずに無視することができるようになりました。
研究者は工業用ロボットにブロックを積み上げる作業を学習させる際にこの方法が使えるのでは?というアイデアを思いつきました。
ロボットは工業用にデザインされた、物を掴むアームとハンドルで構成されたものですがスポットという名を付けられました。分かりやすいようにここでは「スポット君」と表記します。
ロボットのコンピューターはトライ〜失敗〜再トライ〜成功と試行錯誤を繰り返して学習していきます。ロボット工学の研究者はロボットが失敗や誤りから効率的に学習する方法を模索しており、今回犬の報酬ベースのトレーニング方法を学習アルゴリズムの設計に取り入れました。
スポット君の報酬ベースのトレーニング
工業用ロボットのスポット君が作業が上手く出来た時に受け取る報酬は数値ポイントです。
スポット君の課題は、床に散らばったブロックをハンドルで掴んで積み上げていくという作業を習得することです。
アームを伸ばして探るがブロックを掴めない時はポイントはありません。ブロックを掴むとポイントが与えられ、高く積み上げるとさらに高いポイントが与えられます。積み上げたブロックを倒してしまった場合にもポイントはありません。
まさに犬のトレーニング方法と同じなのですが、従来はロボットに100%の精度で学習を達成するには1ヶ月かかっていたところが2日で達成するという、驚くほど効果的だったということです。
スポット君はこのポイントシステムを使って他の作業も素早く学習しました。研究チームはこのリサーチ結果は、家事や介護、自動車の運転など単純作業ではない複雑な判断を必要とする作業ロボットの開発に役立つと考えています。
まとめ
報酬ベースで正の強化をする犬のトレーニング方法がロボットの学習にも効果的で学習効率を驚異的に向上させたという研究結果をご紹介しました。
正の強化のトレーニング方法は犬だけでなく他の動物にも効果的であることは分かっていましたが、ロボットの学習効率まで上げるというのは驚きですね。
言い換えれば、報酬をベースにして望ましい行動を強化するという方法が理論的で効率が良いということで、犬と接する人はこのことを改めて強く心に留めておくと良さそうです。
《参考URL》
https://hub.jhu.edu/2020/10/26/positive-reinforcement-for-robots/