2016年6月15日水曜日

装置 ④

いや、と考え直す。それほど報酬系の複雑ではないのではないか?記憶といったって複雑なプログラムではなく、案外単純ではないか。要は深層構造、hidden layer を持ったニューラルネットワークがあればいいだけの話だ。最近グーグルの「アルファー碁」が、韓国のプロ棋士イ・セドルに圧倒的な勝利を見せたが、実は深層構造に囲碁のルールを教え込んだわけではなかった。対戦をいくつも経験させてネットワークの結合の度合い(パラメータ)が変化して行った結果、あれだけ強くなったのである。
Cエレ君はコンピューターに比べて用いるネットワークは少ない。だからとても囲碁をプロ並みに打てるようにはならない。でも過去の電源マットとのおいしい体験、高温マットとの遭遇による痛い体験を多少ではあれ「記憶」する力はある。そしてある瞬間にCエレ君は周囲を見渡して検知する複数のマットからの「力価」を把握し、比較する事が出来るようになるのだ。
 私が書いていることが全く意味不明と思われると心外なので、例を出す。Cエレは、5メートル先に紺色の小ぶりの電源マットを見る。「おいしそう!」という3+の力価がはじき出されるとしよう。実は最近までこの色のマットには2+の査定であったが、先日「食べた」ところ、意外にエネルギーが豊富で、紺色とは「熟れ具合」を示していることが分かった。だからこれを見た時はいつにもまして強く尾を振ってそちらに近付こうとした。しかしCエレ君は同時に、すぐ右前方に、こちらにゆっくり進んでくる淡いピンクのマットを発見したのだ。これにも遭遇したことがある。ピンクだから少し熱い、くらいで多少のダメージに過ぎなかった。あのスピードだと自分が紺色のマットに到達するまでには追い付かないだろう。とすると1-くらいか。合計でプラス2なのでCエレ君は紺色のマットに向かって前進を開始するのだ。その時Cエレのチップの中身を覗くと、紺色のマットを過去に捕まえ、おいしくいただいた時に、紺色に反応するネットワークのパラメータのノッチが上がっていることがわかる。このために紺色のマットに対してより良い力価が与えられるようになっていたのだ。

さてこの思考実験は報酬系(もうそう呼んでしまおうか?)一つの重要な性質を示唆している。過去に紺色マットに意外と多くの電気が蓄電されていた時の「おいしい!」という体験が紺色マットに反応する一群のネットワークのパラメータの数値を上げていたことと、今回遠くから同じような紺色マットを検出した時の力価は対応している。過去の報酬の大きさが現在の報酬の予知に対応している。Cエレは過去の紺色マットを検出した時の体験(その時査定した力価を1+としよう)から変化を起こしている。同じような紺色マットを検出すると「2+」と査定する。それは紛れもなく紺色マットを実際に「おいしく頂いた」という体験に基づく。そのときCエレ君はショックを受けたはずだ。「あれ、1+と思っていたのに、もっとおいしい!」ここでパラメータのノッチが上がってるわけだ。うまくできている!