ビッグデータは機械学習が重要かも

最近、統計学に注目が集まってるみたいだけど、もしかしてビッグデータを扱ううえで重要なのは機械学習系の応用なんじゃあなかろうか？

統計学で得られる知見ってのは、先に立てた仮説の検証って形になると思う。そう、あらかじめ予想されたことしか確認できない。

それより、新たな知見を自動学習で得られるような機械学習系のアプローチが重要になってくのではないか？

機械学習自体の精度向上も重要。駅のカメラ付き自販機からのおサイフケータイでの画像つきの大量の購入履歴とか、重要なデータ資源。

もちろん、その基礎のひとつとして統計学が重要なのは論をまたないとは思うけど。

統計では、無闇矢鱈にでかい標本数があっても得られる知見は向上しないと指摘して安易なビッグデータ流行りを戒めるブログエントリもみかけたけど、これも機械学習が重要だと考えると、話が変わってくると思う。

多変量データを高次元特徴空間で扱って機械学習させることでなんらかの意味のある知見を得ようとすると、大量の学習データがあるビッグデータの重要度は高い可能性がある。

高次元特徴空間では、標本密度がすんごく下がるからね。ワザと下げてる場合もあるわけだけど、良い学習結果を得るにはやっぱり大量の学習データがあったほうがいいだろう。

教師なしの自動学習で質の高い結果を得るには、試行錯誤の効率の低さゆえに、これも大量の学習データが必要になるだろう。