遂行システム
報酬勾配という概念が探索システムという考え方を得てより理解がしやすくなったと私は考える。探索システムとは、そこに報酬勾配を見出し、作り上げるシステムということが出来るだろう。そしてこれはごく原始的な生命体にも見られるものと考えることが出来る。
しかし実際の私たちの生活で、報酬勾配がたとえば塩分濃度や光子の量などの物理的な裏づけを持つ場合ばかりではない。すでに何度も出てきた例だが、炎天下を歩き続けて渇きに苦しんだ人が、100メートル先のソフトドリンクの自動販売機を目指して歩く時、一歩ごとにのどが少しずつ潤う、ということはありえない。
あるいは自販機で手に入れたミネラルウォーターを夢中で飲み干すという動的な行為そのものに、報酬勾配は介在しているのか? たとえば一口飲むごとに水がおいしくなるような現象などあるのだろうか?
結論としては、実はここにも仮想的な報酬勾配があるのだ。目の前の冷水のペットボトル一本を前にして、私たちは得られる報酬の全量を先回りして認知しているだろう。それは「あ、あそこに自販機があった。手持ちの100円玉で一本のミネラルウォーターを買おう!」と思った時の喜びとして、すでに体験されているからだ。それをたとえば10単位としよう。すると水を飲み干す、という行為はそれに向かって進む、つまりは報酬の全量に向かって近づいていくということだ。一口ごとに0.5単位、という風に。頭の中では必ずそう計算しているはずだ。それを報酬勾配と見なしていいということである。
その証明としてこんな思考実験をしてみよう。目の前のペットボトルの水が、最初から半量だったとする。ペットボトルに半分の水というわけだ。あるいは100円で出てきたのは最初から250ccの小さなボトルだった。最初からそれしか与えられなかったら、飲み干したあとに私は満足して余韻を味わうという静的なモードに入るはずである。「ああ、おいしかったなあ、ジーン」というわけだ。もちろんもう少し飲みたい、という気持ちはあるが、そもそもそれが実現する可能性は考えていない。水はすでに目の前からなくなっているし、もう一本の水を買うお金はもうない。その状態と、最初の全量の水500ccのちょうど半分だけ消費した時に、突然だれかにペットボトルを取り上げられてしまった場合を比べよう。その際には同じだけの水の量を飲んだはずなのに、著しい不快感を覚えるはずである。すなわち最初にどの程度の快を最終的に与えられるかを想定し、そこに向かうというプロセスにこそ意味があるのであり、そこで快の総和を水の量から判断することは出来ない。
結論としては、実はここにも仮想的な報酬勾配があるのだ。目の前の冷水のペットボトル一本を前にして、私たちは得られる報酬の全量を先回りして認知しているだろう。それは「あ、あそこに自販機があった。手持ちの100円玉で一本のミネラルウォーターを買おう!」と思った時の喜びとして、すでに体験されているからだ。それをたとえば10単位としよう。すると水を飲み干す、という行為はそれに向かって進む、つまりは報酬の全量に向かって近づいていくということだ。一口ごとに0.5単位、という風に。頭の中では必ずそう計算しているはずだ。それを報酬勾配と見なしていいということである。
その証明としてこんな思考実験をしてみよう。目の前のペットボトルの水が、最初から半量だったとする。ペットボトルに半分の水というわけだ。あるいは100円で出てきたのは最初から250ccの小さなボトルだった。最初からそれしか与えられなかったら、飲み干したあとに私は満足して余韻を味わうという静的なモードに入るはずである。「ああ、おいしかったなあ、ジーン」というわけだ。もちろんもう少し飲みたい、という気持ちはあるが、そもそもそれが実現する可能性は考えていない。水はすでに目の前からなくなっているし、もう一本の水を買うお金はもうない。その状態と、最初の全量の水500ccのちょうど半分だけ消費した時に、突然だれかにペットボトルを取り上げられてしまった場合を比べよう。その際には同じだけの水の量を飲んだはずなのに、著しい不快感を覚えるはずである。すなわち最初にどの程度の快を最終的に与えられるかを想定し、そこに向かうというプロセスにこそ意味があるのであり、そこで快の総和を水の量から判断することは出来ない。