機械学習のトレンドはマルチモーダル、応用で生活が変わる

今年もPrometech Simulation Conferenceに行ってきました。
www.prometech.co.jp
シミュレーション技術がメインのカンファレンスですが、Deep Learningのセッションも多く大学の研究内容を話してくれるので、情報を得るには有益でした。

最近のDeepLearningの１つのトレンドは、画像認識の分野において、CNNの多層化が顕著だということ。１つ１つの層のフィルタを小さめに、階層を深くすることで、より少ないパラメータでより複雑な非線形性を持たせることができるらしい。
一般画像認識の分野は、CNNがかなりいい成績を出しているので、今後大きな進展はないかも？正答率97％くらいらしいですし。

一方で、画像と他のデータを組み合わせた研究が盛ん。こういういくつかの異なる情報を使うことをマルチモーダルと呼ぶらしいです。今回は文章からの画像生成や画像の説明文を生成したりといった事例やロボット制御の話題などがでました。それにしても、人工知能が画像を想起できる能力を得たことはスゴイことです。
分かり易くいうと「赤い魚」といったときに、こんな形かな？と人が連想する処理と全く同じことを今の人工知能ではできてしまうということ。
これを応用すると、こんな動作をすると、次にこんな画像が得られるはず、つまり、次に起こることを連想しながら行動したり出力を操作したりすることができるようになる。

まぁ、実際にこういったものを実現するためには、色々な論文を読んだりしないといけないんでしょうけど、そういったことができる未来がすぐそこにあると感じられたのは、よいきっかけだったかと思います。逆にちょっと焦りますね。そんな世界で技術者としてやっていけるのかと。。。
人との一番確実なコミュニケーションは自然言語。この分野も面白そうだなぁ。強化学習もやってみたいけど。。

まぁ、とりあえず、いまだに動かないCIFAR-10をなんとかします^^;
↓動きました。
hellkite.hatenablog.com
hellkite.hatenablog.com