二分化する犬のトレーニング法
罰を用いる方法は、未だに多く使用されています。この方法はとても古いスタイルのもので、行動科学が進歩した現在では推奨されるものではありません。犬に何かの行動を教える際に罰を使用していると、犬は罰を避けるために訓練者の望む行動を取ります。また、トレーニングを始める時にも罰を恐れて意欲的な姿勢にはならず、避けようとすることもあります。こうした罰が与えられるイベントを避けようとするのは、犬が「トレーニング=罰」ということを学習しているからです。
一方の報酬を用いる方法は、犬が望ましい行動を取った時に報酬(食べ物やオモチャ、飼い主の賞賛)が与えられます。そして望ましい行動が起こらなかった時には報酬を与えないようにして、正解を教えていきます。こうしたトレーニング法では犬は、何かを恐れる必要がないので、トレーニングを楽しみ、意欲的に取り組むようになります。脳科学においては、報酬ベースのトレーニングが最も効率的であると解明されています。
それぞれの訓練法の例
この両者のトレーニング法で「お座り」を教える際に違いを比較してみます。
罰を用いる方法
犬にリードを付け、「お座り」と発声した後に、リードを強く(ガツンと)引っ張る。それでも座らない場合は、尻を地面に押し付けて無理やりに座らせる。座る態勢になったら、撫でながら「よしよし」と褒める。
報酬を用いる方法
犬の前に座り(リードはつけなくても可)、犬の鼻先に食べ物を提示する。犬が食べ物を見たら、「お座り」と発声し、食べ物を犬の頭上方向に移動する。犬は見つめている食べ物に誘導されて頭を上げると、ある地点で立っているのが困難になり、自然と座る態勢になる。座ったら直ぐに食べ物を与える。
前者では指示語(お座り)の後に罰(リードをきつく引く)が与えられます。これが繰り返されているうちに、犬は罰を避けて座るようになります。訓練では、正しく座るまで罰は与え続けられます。また、多くはうまくいかないと罰の強さが増します。こうして訓練される犬の感情は、罰による痛みを受けたくないから座るという負の感情を持つようになります。
後者では、罰は用いられません。視線の誘導を使って態勢を変えて、報酬を与えます。また、リードがなくてもできるのも利点の一つです。数回繰り返すだけで、犬は座る動作を覚えます。失敗した時は黙ってやり直します。犬は報酬が欲しいので、素早く動作を学習します。犬の感情は報酬を得られる予感を捉えているのでポジティブな感情が芽生えてきます。
これらの2種類のトレーニング法を見てどのように思うでしょうか。ご自身が訓練される側になって考えてみてください。ほとんどの人は、後者の方が良いと感じるのではないでしょうか。
犬をその気にさせるのが報酬のメリット
それぞれの学習の方法の違いは、考え方の根底に大きな違いがあります。犬を命令に従わせるという感覚が犬に罰を与える方法を生みます。反対に、犬と会話をして指示に応答させようとするのが報酬ベースのトレーニング法です。
罰を用いたトレーニングでは、犬はトレーニングそのものを罰と結びつけます。一方の報酬ベースのトレーニングでは、犬はトレーニングを報酬と結びつけます。なので、当然ながら報酬ベースのトレーニングの方が犬は意欲的になります。犬が意欲的であることが効率を最も高くします。人間では「好きこそ物の上手なれ」と言われます。
原理はこれと同じです。本人のモチベーションがあれば、学習はスムーズに進むわけです。
報酬ベースでの犬のトレーニングの注意点
報酬には多くの場合で食べ物が使われます。ここで注意が必要なのは、犬が食べ物のある時のみ指示に応答するようになってしまうことです。これは未熟なトレーナーが陥るミスです。トレーニングの最初の段階では、食べ物で行動を誘導しますが、犬が指示に反応するようになったら、食べ物をポケットなどに隠して指示を出し、うまくいったらポケットの食べ物を取り出して与えるようにします。
次に、食べ物を与える頻度を減らします。心理学ではこれを強化スケジュールと言います。最初のうちは正しい行動の直後に毎回与えます。与える直前に「いい子」などと声をかけ、「いい子」という言葉と食べ物を結びつけさせます。
次に、食べ物を与える機会をランダムに設定します。定期的に与えたり、与えなかったりすると、犬はそのパターンを覚えてしまいます。これを避けるためにランダムにするようにします。毎回報酬を与えることを連続強化スケジュールと言い、ランダムに与えることを変比率強化スケジュールと言います。この変比率強化スケジュールは、スロットマシン効果とも言われ、いつ報酬が来るかわからないので夢中になってしまう心理状態になります。
この方法で強化された行動は消去が極めて難しくなります。ここまで詰めておかないと、食べ物の指示に応答している状態から脱することができません。
報酬ベースは効果が永続する
つまり、最初は連続強化スケジュールから初めて、次に変比率強化スケジュールに移行するとことが大切になります。最終的には褒め言葉の「いい子」が報酬におきかわり、食べ物による報酬は必要が無くなります。この段階までくれば、犬は報酬を指示者の言葉だと認知しているので、支持者に応答することを楽しんでくれます。これは指示者に対するポジティブなイメージが強化され、信頼関係を作る上で必要不可欠であり、最も効果的な方法です。
しかも、先述の通り、このスケジュールでトレーニングされると忘れることや、指示に応答することを放棄することもなくなります。つまりトレーニングで覚えたことが永続されるのです。
反対に罰を用いるトレーニングでは、罰をなくすことで応答性が下がります。したがって常に何らかの罰を用いる状態を続けなければならなくなります。
まとめ
ここで述べたように、犬に動作を教える場合や、トイレのトレーニングを行うのなら、罰は全く必要がないばかりか効率までも悪くしてしまいます。通常の犬のしつけのトレーニングであれば、罰を用いた方法は役立たずの方法と言えるでしょう。
現在では、この報酬ベースのトレーニングがドッグトレーナーにおいては主流になっていますが、いわゆる「おやつ中毒」な犬も増えています。これは完全な失敗例と言えるでしょう。肝心なことは、強化スケジュールを使って”食べ物が報酬”という認知を”人が報酬”に置き換えるプロセスを正しく踏むことです。正しく行えば、トレーニングの効果は永続され、人との信頼関係は、楽しく愛情に満ちたものになるでしょう。
《参考》
1,Stanley Coren(2010), Reward Training vs. Discipline-Based Dog Training. Dog training using rewards versus discipline produces different outcomes.,Psychology Today, Sussex Publishers, LLC.
2, Sandra Johnson,Kathleen Taylor(2011), The Neuroscience of Adult Learning: New Directions for Adult and Continuing Education, Number 110, Jossey-Bass, Wiley.