2016年8月3日水曜日

推敲 4 ②

「サバイバル装置」について 

ここまでの思考実験では、Cエレが生き残るためには、極めて巧妙な装置を備えていなければならないことになる。というよりはこの装置がより優れた機能を発揮するほど、生き残る確率が高くなる。その機能とは、瞬時に、より正確に、将来得られる充電の量と、将来高温マットからこうむるであろうダメージを査定し、それを計算に入れたうえで最も合理的な行動を選択できる能力である。これをサバイバル装置、ないしはサバイバルシステム、サバイバル装置、と取りあえず呼んでおくことにしよう。
そのためにCエレ君は、いくつかの重要な機能を持つべきだろう。それは危うく体を溶かされそうになった高温マットの特徴を覚え、それを感知したとたんにそこから遠ざかる能力。(まるで扁桃核だ!)それとおいしい電源マットに出会った時に、その特徴を覚えておいて、それを再び見つけたら尻尾を振って近づく能力。(これも扁桃核、そして海馬も関係するだろう。)ということはつまり、Cエレはある種の記憶装置を必要としているということだろう。これは彼の生存の確立を一気に増すことになる。たとえば高温マットは赤などの暖色系の色をしていることが多い、と仮定しよう。電源マットは青などの寒色系にしようか。するとCエレは遠くにそれを察知した時に、体内のアラームを鳴らして反応する。赤い色を見たら、尻尾を振って遠ざかる。青い色を見たら、そこに向かって尻尾を振って近づく。
 ここでこれまでの話をまとめよう。Cエレのサバイバルシステムは次の条件を満たさなくてはならない。それらの条件とは、先ほどの2条件を少し書き換えたものである。
1.  電源マットを感知したら、そのプラスの力価を査定し、それに向かうこと。
2.高温マットを感知したら、そのマイナスの力価を査定し、それを回避すること。
この1,2に従って行動を決めることになるが、これらの機能を発揮する際に決定的に重要なのが、記憶装置というわけだ。電源マットを見出して、その遠さ、そこに蓄電されている量を予測し、それを獲得することがどれほど利得を与えてくれるかを査定するためには、過去の体験が大きな要素を占める。どんなに魅力的な電源マットでも、はるか遠くにあり、そこに至るまでにCエレ自身の電池を使い果たしてしまったら意味がない。さらにはその途中にコワい高温マットが潜んでいるとしたら、たちまち焼かれてしまって元も子もないではないか。これらを勘案して最終行動(つまりどちらかの方向に推進するか、怖い高温マットから退却するか。どれだけの速さで?どれだけの時間?・・・・・・・。これらはいずれも過去の二種類のマットとの遭遇により生じたことの記憶が大きな意味を持つ。もちろんCエレ君のチップに最初から、「赤からは逃げよ、青には近づけ」と書き込まれていると非常に助かる。いわばCエレの遺伝子情報である。しかし自然界にはその両方に明確に分類できないようなマットが至る所にあるとすれば、ある種の記憶の蓄積は必須と言えるだろう。
こうなってくると、このサバイバル装置には実に複雑なプログラムを書き込まれたチップを必要とすることになるように思える。というよりはそれを備えていないと生きていけない。(そしてこのサバイバル装置こそが、事実上「報酬系」なのである・・・おっと、これを言うのはまだ早いか。)
しかし実際はこれらのプログラムが書き込まれることはないし、その必要もない。要するに深層構造、hidden layer を持ったニューラルネットワークがあればいいだけの話だ。つまり結合の強度が可変的なネットワークの存在である。一方にインプットがあり、他方にアウトプットがある。あるいはその情報の流れは両方向性だ。最近ニューラルネットワークは新たな脚光を浴びている。
ニューラルネットワークの起源は1960年代にさかのぼるが、一時脚光を浴びていたものの、爆発的な進化を遂げていたわけではなかった。しかし最近グーグルの「アルファー碁」が、韓国のプロ棋士イ・セドルに圧倒的な勝利を見せることで、その威力を一般人にも見せつけた。実は技術者たちは深層構造に囲碁のルールを教え込んだわけではなかった。途方もない数の対戦を経験させてネットワークの結合の度合い(パラメータ)を変化させて行った結果、あれだけ強くなったのである。ちょうどインプットとして猫の写真をたくさん読み込ませてアウトプットを「猫である」とし、また猫以外の写真をどっさりインプットして、「猫ではない」というアウトプットを指定すると、そのうち猫を見分けるようになる、ということを囲碁でやるわけである。最近ではニューラルネットワークをより生物学的な脳の働きに近づけるため、活動電位(スパイク)を重視して作られた、スパイキングニューラルネットワークが考案されているという。スパイクが発生するタイミングを情報として取り入れ、ディープラーニングよりも扱える問題の範囲が広い次世代技術と言われている。(ちょっとWIKI様拝借)。
Cエレ君はコンピューターに比べて用いるネットワークは少ない。だからとても囲碁をプロ並みに打てるようにはならない。でも過去の電源マットとのおいしい体験、高温マットとの遭遇による痛い体験を多少ではあれ「記憶」する力はある。そしてある瞬間にCエレ君は周囲を見渡して検知する複数のマットからの「力価」を把握し、比較する事が出来るようになるのだ。
少し具体例を挙げてみよう。Cエレは、5メートル先に紺色の小ぶりの電源マットを発見する。「おいしそう!」という2+の力価がはじき出されるとしよう。実は最近までこの紺色のマットには1+の査定であったが、先日「食べた」ところ、以外にエネルギーが豊富で、紺色とは「適度な熟れ具合」を示していることが分かった。だからこれを発見した時はいつにもまして強く尾を振ってそちらに近付こうとした。しかしCエレは同時に、すぐ右前方に、こちらにゆっくり進んでくる淡いピンクの電源マットを発見したのだ。これにも遭遇したことがある。ピンクだから少し熱い、くらいで多少のダメージを被るに過ぎなかった。1-くらいか。ということは、紺色の電源マットに向かうという行動の持つ力価は合計で1+なのでCエレ君は紺色のマットに向かって前進を開始するのだ。その時Cエレのチップの中身を覗くと、紺色のマットを過去に捕まえ、おいしくいただいた時に、紺色に反応するネットワークのパラメータのレベルが一つ上がっていることがわかる。このために紺色のマットに対してより良い力価が与えられるようになっていたのだ。
さてこの思考実験は、サバイバル装置の持つ一つの重要な性質を示唆している。過去に紺色マットに意外と多くの電気が蓄電されていた時の「おいしい!」という体験が紺色マットに反応する一群のネットワークのパラメータの数値を上げていたことと、今回遠くから同じような紺色マットを検出した時の力価は対応している。過去の報酬の大きさが現在の報酬の予知に対応している。Cエレは過去の紺色マットを検出した時の体験(その時査定した力価を1+としよう)から変化を起こしている。同じような紺色マットを検出すると「2+」と査定するようになる。それは紛れもなく紺色マットを実際に「おいしく頂いた」という体験に基づく。そのときCエレ君はショックを受けたはずだ。「あれ、1+と思っていたのに、もっとおいしい!」ここでパラメータのノッチが上がってるわけだ。うまくできている!