幼児は統計的に思考する

幼児期の記憶は残らない。
だから、我々は幼児の行動を観察する事によってしか、幼児の能力を推察できない。


日経サイエンスに面白い研究が紹介されていた。

 赤ちゃんや幼い子どもは理不尽で自分本位,分別のない未完の大人だと考えている人は多いだろう。かつて多くの心理学者は,子どもは何も分からない存在だとみなしていた。だが,最近の研究から,子どもは予想以上にさまざまな知識を持ち,科学者のような方法を使って周りの世界について学んでいることが明らかになってきた。
子どもの意外な“脳力”

 赤ちゃんや幼児の学習能力には目を見張るものがある。これほどたくさんのことをどうやって素早く正確に学んでいるかは謎だったが,著者らの研究によって,赤ちゃんには特に統計パターンに基づいて学習する優れた能力があることがわかった。赤ちゃんは統計の標本と母集団の関係を理解していて,自分の統計分析に基づいて周囲の世界についての理論を組み立てる。
子どもの意外な“脳力”


この研究は、外部から観察される赤ちゃんの主体的な行動から、赤ちゃんが統計分析をいわば積極的に利用しているのではないかという事なんだけれど、おいらは、もっと根っ子のところで統計的な作用があるんではないかと疑ってる。
むしろ、主体的な統計分析行動に見えるのは、この根っ子のところの統計分析的な作用の表象ではないんだろうか?


人間をコードする遺伝子領域の数はたった2万個あまり。
非コード領域やいわゆる偽遺伝子領域の役割ががどれくらい広大かはいまのところまだよくわからないけれど。
いずれ、人間の思考能力がすべて遺伝的に決まっていると考えるにはだいぶん少なすぎる。
発生〜脳の発達過程というのは、だから相当程度創発的なものであるのだろう。


そして、新生児は世界を認識するための機構を備えた形で生まれてくる。
しかし、その機構は未完成だ。
シナプス形成やらアポトーシスやらは進行しつづける。
そしてこれらの脳神経の形成過程では、生まれたときの配線という初期条件と外界からの入力、乳児の外界への出力からの応答入力が作用するはずだ。


そして、その進行は多分に統計的な形をとるはずだ。
なぜなら、遺伝的に決定されるにはゲノムの情報量が圧倒的に足りないから。
そして、赤ちゃんを取り巻く世界――というか赤ちゃんの持つ情報収集能力が受け取る生情報――はあまりにも情報量が多く、混沌としているから。
そもそも細胞内で進行する生化学反応自体が、熱振動にドライブされながら確率的に行われてるはずだしね。細胞内の組織機構にガイドされつつではあるはずだけれど。


混沌の中から意味のある結果を見つけていくには、多かれ少なかれ統計分析をさけては通れない。


初期配線で与えられたロジックが統計分析をおこなう能力をまず新生児の脳にもたらし、それをベースに統計分析の成果を受け入れる形で脳は外界との作用の仕方を発達させてゆくんだろう。
あるいは自己組織化写像(SOM)のような確率的な機構。
実際SOM的なものが関わるのかは知らないけれど、遺伝的に決定されていない部分は統計的にしか進行しえないような予感がしてる。


混沌の中から意味のある結果を見つけていく作業。


おいらが計算量の爆発問題(フレーム問題)をなんとか直感的に理解出来るように思えるようになったのは顔検出のプログラミングをするようになってからだと思う。*1
少なくとも、エイミー・トムスンの『ヴァーチャル・ガール』(1994)を読んだときにそれらしい描写(主人公のアンドロイドが情報の洪水にフリーズしかかる)が出てきたときは「なんじゃそりゃ?」と思った記憶がある。

ヴァーチャル・ガール (ハヤカワ文庫SF)

ヴァーチャル・ガール (ハヤカワ文庫SF)


所与のものをそれとして認識するのはなかなか難しいのだけれど、我々の意識は脳内の情報分析機構によってあらかじめ意味を付与されたいわば強化現実の世界を生きている。
混沌とした膨大な情報は脳内の分析機構によってフィルタされ(≒情報量を減らされ)意味を付与されて(≒ラベリングされて)から(高次統合野だか連合野だかの『意識』が巣くってると思われる領域で)意識されているのだけれど、あたかもはじめから明快な世界を知覚しているように感じられてしまう。


それが、逆にコンピュータビジョン(CV)を考えるときの障害になる。
見りゃ判ってしまうから。


顔を検出する?
目が二つあって鼻があって口があれば顔でしょ?
簡単じゃん?


最初期のコンピュータビジョンの研究はこう考えた研究者の死体が累々なんじゃなかろうか?
知らんけど。


知識ベースのアプローチで解決できるのは人工的なものだ。
例えば手書き文字認識。
識別出来る手がかりが明確。
円、直線、曲線、交差…
郵便番号の機械読み取りが始まったのは40年前だっけ?


自然界の現象からの入力に比べれば、全然単純。
30年も前から、パーセプトロンでも解析可能*2であることがわかっている程度の複雑さしかない。
あらかじめ低エントロピーで用意された課題。


だから昨今CVの分野で目覚しい成果を挙げている手法がすべからく統計ベース(学習ベース)の手法である事はむしろ自然なのだと思う。
haar-like filterとかactive shape modelsとかね。

*1:視覚認識が無意識のレベルでおこなわれているのは、そしてそれが写実的な絵を描こうとするときに障害になる事はずいぶん前から気付いてたけど

*2:つまり、高次元画像ベクトル空間で数枚の超平面で区切れるほど単純