2016年8月2日火曜日

推敲 4 ①

4章 報酬系という装置を作ってみる(実験的な章)

本章は、私たちの想像力を駆使して、報酬系を作ってみようという試みだ。心の中で行う一種のリバースエンジニアリングとも言えるだろう。
 まずあなたはロボットを製作しているとしよう。ごく簡単なものである。特に名前はないが、仮に「Cエレ」と呼ぼう。何か変な名前だが、その由来は定かではない。細長い体の部分はもう出来上っており、あとは頭の部分だが、複雑な行動を行わせる予定はない。たとえば感情表現は無理だ。だいたいCエレ君は、それを表現するような表情や声なども備えていない簡単なロボットである。でも製作者であるあなたは一つの使命をCエレに負わせる。それはそのロボットが「生き残る」ための行動をするようなプログラムを与えることだ。要するにCエレの素材の耐用年数が来るまでは、壊れずに動き続けることだ。そのロボットの頭部には一つのチップが埋め込まれることになっているが、あなたはそのプログラムを書き込まなくてはならない。ロボットはその指令に従い、それにより結果的に「生き延びる」ことになる。ちなみにそのチップには「報酬系」と書かれているが、まあそれはどうでもいい。読者には私の目論見をなんとなく分かってもらえればいい。それは「生き延びるためのプログラムを与えると、それは結局報酬系と同等になる」ことを示すことだ。しかしこの部分は読まなかったことにして欲しい。
さて、生き延びるという使命そのものはシンプルだが、環境は出来るだけ自然なものに近づける必要がある。しかしあまり自然界に似せると条件が複雑すぎて思考実験が出来ない。そこである実験環境を与えることからはじめよう。まず生き残る、とは具体的にはどういうことか。それは第一に「食べる」ことである。ロボットにとってのそれは要するに充電である。そのためにCエレは実験室のいくつかの場所にある充電用のマットに行く必要がある。そのマットには磁場が発生しており、マットの上に載るだけで、電磁誘導でCエレの内部に埋め込まれた電池が充電されるとしよう。しかし残念なことに、その電源マット自体が充電式なので、電気の量が限られている。そこでCエレは時にはいくつかを渡り歩かなくてはならない。どうしてこうするかといえば、それが自然環境に近いからだ。つまり餌の量は普通限られている。
 また実験室のいくつかの場所は、異常な高温のマットがあり、ロボットのプラスチックの部品が溶けてしまうので、そこは回避しなくてはならない。まあ、天敵というわけである。そしてより実際の自然環境に近づけるために、充電マットと高温マットは、時々場所を移動し、なかなかその動きを予測できないとしよう。ロボットはセンサーでその位置をある程度把握できるが、常に位置を変える可能性のあるそれらを見張っている必要がある。うん、それらしくなってきた。そこでCエレロボットにもう一つの初期条件を与える。それはCエレは常に動き回るということだ。これはもうこのロボットの本来的な性質なのだ。常にクネクネ体を動かして、目的地もなく動き回る。そうしていないと我慢できない。こうなるとCエレはかなり実際の動物に似てくる。
そこでCエレの生き延びる条件を考えよう。

1.  電池切れにならないように、電源マットに時々帰っていかなくてはならない。
2. 高温マットに接触するは出来るだけ避けなくてはならない。
さてCエレを、1,2の状況は同じで、しかしできるだけ自然な環境に近づけるとしたらどうだろうか? たとえば両マットは、時として神出鬼没である。電源マットはどこにあるか見えなかったりする。高温マットは突然現れたりする。だから Cエレならば、電源マットまでたどり着けずに、道半ばで電池切れになって(つまり死んで)しまうことを避けるために、ある程度電池の残量が減れば、それだけ必死に電源マットを探すという条件を付けなくてはならない。また電池の残量が減って、電源マットに向かっている途中に、高温マットの姿が見えてきたとしたらどうだろう?進むべきか、中止すべきか。結構複雑な状況になる。リスク(高温マット)とベネフィット(電源マット)がほぼ同じ場所にあるとしたらどうするのだろう? 普通のロボットならここでフリーズすることになるが、Cエレは得意の「動き回る」性質があるので、一瞬後には条件が変わり、リスクとベネフィットの天秤はどちらに傾くことになるから、フリーズ状態からは解放されるということになるだろう。

Cエレは結局報酬系を持つ運命にあるのか?
 私がこれから考えようとしてるのは、結局はCエレは報酬系を持つしかないだろう、ということだが、果たしてそこまで行き着くのか、あるいは頓挫するのか。とにかく続けよう。
実際の自然界を考えよう。充電マットは餌であり、捕食動物ということである。また高温マットは天敵と考えることが出来るだろう。そして高温マットにも温度が様々であり、比較的低温で、チップの温度が少し上がって不安定になる程度から、ロボットの体の一部が接触部分から融け出すといった危険な高温マットまで広く存在する。Cエレ君はまさに充電マットと高温マットのスープの中に存在する形になる。おなかがすいたら(電池の残量が減ってきたら)センサーを働かせ始めて電源マットの位置を探し始める、とか途中でたまたま高温マットに出くわしたら、センサーが働いてそれを回避する、とか悠長なレベルではない。スープの中で常にこまめにセンサーを働かせ、電源マットから充電をして、同時に高温マットを避ける。充電するか、避けるか、選択するか、拒絶するかという決断は各瞬間に下さなくてはならない。そしてそこでは充電マットの有する電池の残量と、高温マットの「危険性」とを常に天秤にかける必要が生じる。それが生存に直結するように両者のバランスが整っているのだ。たとえば充電マットが少し遠方にあり、そこに行きたいのだが、途中に高温マットが潜んでいる可能性があり、うっかりしているとヤラれてしまうとか。そしてここで重要なのは予兆であり、予期である。
実はCエレ君の生存はこの予期の正確さにすべてがかかっているということがわかる。ある瞬間に、どのような電源マットの存在を把握し、同時に高温マットの存在も感知し、どう進んでいくか。多数の競争相手がいることが、この予兆の正確さをさらに要求する。いい電源マットは、そこにたどり着くまでに他のCエレ君に取られてしまう。「後出し」条件だが、実はCエレ君にはたくさんの兄弟がいて、そこらへんを動き回っているのだ。もっと言えば Cエレ君は様々なライバルがいて、実は彼自身が電源マットなのだ。つまりライバルたちはC エレを飲み込んで、具体的には彼の充電池を抜き取って充電もできるのである。(つまり捕食する、ということだ。)すると結局こんなことが起きる。Cエレ君は今現在の環境で、最善の予期を行う。つまりあらゆる電源マットや高温マットの存在の予兆を察知し、そのいわば「力価」を査定し、行動を決める。力価とはつまり、電源マットがどの程度遠くにあり、その程度到達するまで時間がかかり、どの程度そこに電源が残っているかを瞬時に判断することであり、高温マットについても同様のことをすることだ。もしこの力価の査定が誤っているならば、それだけCエレの生存率は低くなる。たとえばすごく美味しい電源マットを遠くに見つけてそこに向かって泳ぎだしても、途中で出会う小ぶりの高温マットに一撃を食らって力尽きてしまうとか。結局はCエレの生存は、電源マットと高温マットの両者の力価の積分値の比較ということにかかっているが、その査定を巧くできないと、他の同胞Cエレの生存を許し、その分自分の生存の可能性は遠のくのだ。