2016.10.13

客観と主観を組合せ、統計コミュニケーションを駆使しよう ~Preferred Networks丸山宏氏インタビュー〜

IBM、キヤノン、統計数理研究所での勤務を経て、現在は株式会社Preferred Networksの最高戦略責任者としてご活躍されている丸山宏氏にお話をお伺いしました。

丸山宏氏(略歴)
1983年 東京工業大学修士課程修了
同年日本アイ・ビー・エム入社
ジャパン・サイエンス・インスティテュート(後の東京基礎研究所)にて,人工知能,自然言語処理などの研究に従事
1997-2000年 東京工業大学 情報理工学研究科 客員教授 XML,Webサービス,及びセキュリティの研究・開発・標準化を行なう
2003-2004年 IBMビジネスコンサルティングサービス株式会社へ出向
2006-2009年 東京基礎研究所所長。執行役員
2009-2010年 キヤノン株式会社 デジタルプラットフォーム開発本部 副本部長
2011-2016年 大学共同利用機関法人 情報・システム研究機構 統計数理研究所 教授
2016年4月から、株式会社Preferred Networks 最高戦略責任者

— 現在の主な研究内容をお聞かせください。

丸山: 現在はPreferred Networksという会社に所属し、機械学習および深層学習が、社会をどう変えていくか、テーマを主に考えています。実はこの研究テーマは、統計の分野とコンピュータサイエンスの分野のどちらかだけでは難しい領域です。統計的機械学習の分野は、確率的なアルゴリズムに依存して作られています。これは、統計の分野では当たり前なことですが、今日のコンピュータサイエンスの分野では、確定的なアルゴリズムが主流となっているので考え方が異なるのです。例えば、銀行の利息が、確率的に変わるということは許されるはずもなく、確定的な計算をするアルゴリズムが必要になります。そこで、確定的な計算を求める領域において、機械学習や深層学習といった確率的なアルゴリズムをどのように活かしていけるかという点が現在考えている領域です。

またPreferred Networksでは、TOYOTAやファナックなどの企業から出資をうけており、深層学習とIoT(Internet of Things)を組合せて何ができるかということを考えています。組み込み開発やロボットの開発などの場合、MATLAB Simulinkというツール等を使い、微分方程式を用いてモデリングをし、実装していくのが一般的です。一方で、機械学習を用いると、強化学習で成長させていく方法を取るので、先ほどのやり方とは根本的に異なってきます。現在の自動車開発では、R&Dの分野における組み込みソフトウェアの占める割合は年々増加してきていると言われている中で、統計的な機械学習や深層学習は十分に利用可能なものであり、その領域を深層学習で自動化できるようになれば、世の中に大きな影響をおよぼすことになるだろうと考えています。

 

— データ活用に携わるようになったきっかけをお聞かせください。

丸山: これまで、IBM、キヤノン、統計数理研究所で仕事をしてきました。統計については大学時代に勉強していましたが、統計数理研究所に入ったタイミングでもう一度最初から向き合うことになりました。統計数理研究所があった情報・システム研究機構に所属する極地研(国立極地研究所)や遺伝研(国立遺伝学研究所)では、仮説を立てて検証するというサイエンスの基本的な方法論おいて、統計は必須ツールでしたので、あらためて勉強しましたが、実際に利用するツールとして強力な反面、落とし穴もあり、学生時代より非常に面白く感じました。

その後、ビッグデータという流れがやってきて、統計とともにプログラミングが必要になりましたが、IBMとキヤノン時代に、コンピュータとビジネスに関する知識を身につけていたこともありその点ではあまり不自由はなく、結果として、データサイエンティストに求められるエンジニアリング、ビジネス、サイエンスという3つの領域をある程度網羅し、それ以降、データ活用に携わるようになっていきました。

ここまでのキャリアで、3つの領域を偶然網羅することができましたが、これからデータサイエンティストを目指す若い方々には「Opportunityがあれば、まずは掴みなさい!」とアドバイスをしたいです。IBMの基礎研究所にいた研究員の私がコンサルティングをやることになったのはまったくの偶然ですが、とりあえずやってみると、意外とたくさん勉強することができました。あまりやりたいことに固執せず、自分が担当している領域以外の仕事を頼まれても、自分とは関係ないと断るのではなく、まずは飛び込んでやってみる。そうすると、意外なこともたくさん見つかってきますが、これが様々な知識を身に付ける上で重要なことだと考えています。

— 専門領域のご研究や、データ活用に携わるに際して、どのようなスキルが必要でしたでしょうか?

丸山: やはり、数学に関するスキルが非常に重要だと感じています。最近、機械学習が注目を集めていることもあり、arXiv.orgなどの論文投稿サイトには日々新たな論文が掲載されています。私もたまに掲載されている論文を読むことがあるのですが、数式が主体の論文なので、数式だけで理解できるレベルのスキルが必要です。

もし、読者の中に大学生の方がいらっしゃるのであれば、「微分・積分や線形代数の授業も毛嫌いせず、しっかりやっておいた方が良い」とアドバイスしたいです。統計解析についても微分・積分がわかっていないと読めないですし、深層学習の分野では線形代数が広く使われています。自分自身が苦しんだからこそ、若い人には手を抜かずやってもらいたいです。また、海外の論文を読む機会も多くなるので、英語についても同様です。

丸山先生とスキル委員 孝忠・守谷

丸山先生とスキル委員 孝忠・守谷

— スキルを習得されるに際して、どのようなことを行われたか、工夫したことや苦慮したことなど、何かエピソードがございましたらお聞かせください。

丸山: 統計に関するスキルを身に付けることができたのは、統計数理研究所で授業を持ったことが大きいと思います。半年ぐらいの授業でしたが、自ら苦労して数式を証明してから、授業をするようにしました。これから学習する人も、みずから紙の上で実際に証明してみるのが、スキル習得への近道だと思います。

あと少し話は変わりますが、データサイエンティストには、主観と客観を切り分ける工夫が必要です。あまりにもデータを見すぎると、オーバーフィッティングしてしまう場合があるとよく言われます。そこで過去のデータを見すぎることなく、主観的な知識によってデータ分析を行うことも必要です。一方、矛盾するようですが、「自分はバイアスを持って判断している可能性がある」と客観的な目も同時に養っていく必要があります。自分でも気付いていないバイアスや、データ取得時点で発生するバイアスに気付き、判断できる力です。

そしてデータ分析の現場では、データサイエンティストのみならず、現場が主観的に判断してしまいなかなか分析結果を理解してもらえず苦労するということもあります。そこで、これからのデータサイエンティストには、統計を知らないお客様に統計で作られたモデルを理解して頂けるようなコミュニケーションスキル「統計コミュニケーション」が重要になってくると感じています。

— ご専門領域の今後の発展性/方向性/新たな活用の領域に関するアイデアなどがございましたらお聞かせください。

丸山宏氏

インタビュー風景

丸山: 今後の方向性という意味では、データサイエンティストによるデータを使った問題解決を進める上でのプロセスを定義する活動が必要だと考えています。

IT開発のプロセスであれば、ソフトウェアエンジニアリングという学問体系において、要件定義に用いる要求工学や、ウォーターフォール・モデルに代表される開発モデルなどがしっかりと定義されています。しかし、データサイエンティストの問題解決に関しては、うまくいったという経験談はよく聞きますが、確立されたプロセスというものはまだ存在していません。

例えば、IT開発の分野ではリグレッションテスト(回帰テスト:プログラムを変更した際に、その変更によって想定外の影響が他に現れないかを確認するテスト)があり、特定の領域で変更をかけても他の領域ではその影響がでないようにするのが当たり前ですが、データサイエンスの分野ではどうやってそのことを検証していくのか、もしくは、多少の変更は許容されるのかということすらもまだ定まっていません。しかし、いずれ、ビジネスの現場におけるデータを用いた問題解決の方法論が確立されるようになってくるのだろうと考えています。

今後、データサイエンティストが使う問題解決プロセスが整理されてくれば、これまで情報産業に携わる人数が増加してきたのと同様に、データに基づき問題を解決するという人も増えてくることが期待できるでしょう。

— 先生が考えられるデータプロフェッショナル・データサイエンティストを目指す方に高めて欲しいスキルやマインド、その他メッセージがございましたらお願いいたします。

丸山: 以前、共著で出版した本の中に、学生時代に身に着けて欲しいスキルとして「数学・語学・リベラルアーツ」と書かせて頂きましたが、数学と語学は必須のスキルだと思います。データサイエンティストを目指される方には、数学と語学を是非身に付けて頂きたいと思います。

また、データサイエンティストの心構えとして、データだけを眺めるのではなく、データが生まれている現場を見る癖をつけていただきたいです。データは、自然現象として出てくるものもありますが、多くの場合、人の営みに大きく影響を受けています。例えば、工場で警告データを可視化してみるとある時点を境に急激に警告が減少する箇所が見つかったとします。そこで、現場に何があったかを聞いてみると、あまりにも警告が多かったので閾値を変更したということだったのです。この事例からもわかるようにデータだけを見ているのは極めて危険であり、データを生み出している現場の人がどのように感じ、何の結果生み出されたデータかを正確に理解してから、分析することが重要です。

すなわち、数学や言語に加え、リベラルアーツ、すなわち、文化的背景や歴史言語なども含めて世の中の事象を理解できる力があれば、より良いデータサイエンティストになれるのだと思います。

 

■編集後記■

データサイエンティストは、データが生まれる現場を見るべし!という丸山先生のお言葉に共感です。フットワーク軽く現場を飛び回るデータサイエンティストになりたいと思いました。(スキル委員:孝忠)

最前線で機械学習のアルゴリズムや手法を検討している方々は、日々arXiv.org等から新しい論文を検索して常に新しい分析手法をウォッチしているという話を聞き、機械学習アルゴリズムを開発するためには地道な活動とスキルが必要であることを認識しました。とても参考になるヒアリングでした。(スキル委員:守谷)

TOYOTAやFANUCなどの企業と提携してデータ分析をビジネスに展開しようとするPreferred Networks社が考えているテーマの一端に触れられる貴重な機会でした。機械学習や深層学習がビジネスの現場でもっと納得感を持って受け入れられるよう、スキル委員としてはこれまで以上に人材の側面からアプローチすることが必要だと感じました。(スキル委員:高橋)

カテゴリ
アーカイブ
記事アクセスランキング
タグ