2016.10.24
統計はデータと人間のインターフェース ~統計数理研究所 中野純司先生インタビュー〜
統計数理研究所 モデリング研究系 研究主幹/データ科学研究系 教授でいらっしゃる中野純司先生に、これまでスキル獲得のために行われたことや、現在の研究内容などを詳細に伺ってまいりました。
中野 純司先生プロフィール
2015年4月- 現在 統計数理研究所 モデリング研究系 研究主幹
2005年4月- 現在 統計数理研究所 データ科学研究系 教授
1998年4月- 2005年3月 統計数理研究所 統計計算開発センター 教授
1992年4月- 1998年3月 一橋大学 経済学部 助教授
1989年4月 – 1992年3月 埼玉大学 大学院 政策科学研究科 講師
1980年4月 – 1989年3月 徳島大学 工業短期大学部 生産機械工学科 助手
Q. 現在の主な研究内容をお聞かせください。
現在はビッグデータをグルーピングして、各グループを1つのデータとして捉える「シンボリックデータアナリシス」という手法について研究しています。通常、数千万件もあるような大量のデータをそのまま見ても、多大な時間を要する割に意味を抽出しにくくなることが多くあります。そこで、極力情報量を落とすことなく幾つかの意味のあるグループに集約し、統計的な意味を見出していく手法です。
また、その中で、カテゴリデータと実数データが混ざっているような場合に、それぞれを同じように扱いながら解析する方法についても研究しています。やり方としては、カテゴリデータを実数化してすべての変数を実数データと考える方法と、実数データをカテゴリ化してすべての変数をカテゴリデータと考える方法の2種類があります。
Q. データ活用に携わるようになったきっかけをお聞かせください。
最初に就職した大学では時系列解析をやっていましたが、当時はまだ計算機環境があまり良くなく、NECの8801にFORTRANのコンパイラを入れたり、自分で計算機の世話をしながら計算処理をしていました。その過程で計算機が好きになり、Sのワークステーションへのポーティングも行いました。
その後、海外の研究者と共同研究をする機会があり、その研究者からデータビジュアライゼーションを紹介されました。当時の日本では計算機でデータを可視化するという人は少なかったのですが、3次元プロットのトラッキングの軌跡を可視化するというグラフィックスを見せられ、その面白さに気付き、研究するようになっていきました。
Q. 専門領域のご研究や、データ活用に携わるに際して、どのようなスキルが必要でしたでしょうか?
私が取り組んでいるデータビジュアライゼーションは、様々な現象を人間が理解できるようにするための効果的な手法です。そのため、無闇に複雑なグラフィックスを利用しても人が理解できなくでは意味が無いので、まずは、「ヒストグラム」や「ボックスプロット(箱ひげ図)」、「スキャッターダイアグラム(散布図)」の3つを使いこなすことが重要です。そして、もう少し高次元のデータビジュアライゼーションが必要になった場合は、「平行座標プロット」をおすすめします。最初に平行座標プロットをみた時、「こんな簡単なものを誰が使うのか」と思っていましたが、実際に使ってみると高次元のデータでも次元圧縮することなく全体の傾向を捉えられるということが分かり、それ以降よく用いています。
また、グラフィックスのためのプログラミングスキルについては、静的なグラフィックスはRがよいでしょう。また、最近は動的な可視化のためのツールが色々出てきていますので、それらのツールを使えばよいでしょう。どうしてもツールにないようなグラフィックスが必要になった場合には、プロラグミングが必要になってきますが、かなり面倒なので本当に新たなグラフィックスを作成する必要があるかどうかは考えたほうがいいです。
また、最近では、ビッグデータを扱うことが増えてきているのですが、Rでは処理しきれないのでHadoopを使って分析していきます。そうなるとインフラ部分の構築スキルが必要になりますが、これは大変なので、統数研ではSAS社と協定を結び、分析に必要な環境を提供してもらっています。
私は常々、データサイエンティストにすべてのスキルを求めるのには無理があると思っていますので、例えば分析の環境は他の専門家に依頼して準備してもらうというような割り切りがあっても良いと考えています。ビジュアライゼーションも便利なツールがあるので、それを使えば良いでしょう。
Q. スキルを習得されるに際して、どのようなことを行われたか、工夫したことや苦慮したことなど、何かエピソードがございましたらお聞かせください。
統計を使う人の中には、「統計学が出した結論だから正しい」という人がいますがこれはよくありません。統計にはただひとつの正解はなく、また、データビジュアライゼーションにもただひとつの正解がないということです。統計で言えるのは、検証しようとした仮説や現象がどの程度正しいかという客観的な情報を提供するところまでで、その結果を踏まえた価値判断は統計を超えて、人間に委ねられるということです。
ただし、統計学をうまく使えばデータの性質が見えてきます。特にビジュアライゼーションはその能力があります。私は、「統計とはデータと人間のインターフェースである」と考えています。データを理解するには、生データをボーッと眺めていても何か見えてくるわけではなく、うまく統計モデリングやビジュアライゼーションすることによっていろんな示唆や気付きが得られます。
ビジュアライゼーションスキルを習得するには、実践で試行錯誤するのが一番です。ある程度経験のある分野であれば、どのような可視化が適しているかはその場で判断もできますが、知らない分野で分析するような場合には、様々なグラフィックスを試行錯誤しながら見るしかありません。そして対話的なインターフェースを持つグラフィックスを利用することで、データが物語る現象を人間が読み解けるようになります。
また、データの可視化はツールを用いればある程度できますが、最終的にはグラフィックスや配置の「美しさ」のセンスが求められます。もちろん、美しさは1番というわけではありませんが、だからといって軽視すべきものでもありません。
少し話はそれますが、TEDのプレゼンテーションをみていると、やはり外国人は見せ方がうまいなぁと感じさせられます。小さい頃から、見せ方について習っているという点も大きいでしょう。以前、データビジュアライゼーションをやっている人に「統計をやっていなければ何をやっていたか」という質問をしたところ、「画家」と答えた人が意外と多かったということがありました。正直にいうと、私はあまり絵の才能がない方だと感じることが多く、その点ではいまだに試行錯誤しています。
Q. ご専門領域の今後の発展性/方向性/新たな活用の領域に関するアイデアなどがございましたらお聞かせください。
可視化には大きく「データの可視化」と「物理現象の可視化」の2種類が存在します。「データの可視化」については、これまでもそうですが、今後もハードウエア的に極端なブレークスルーは少ないと考えています。一方で、「物理現象の可視化」については、3次元可視化した方がわかりやすくなるものが多いので、ヴァーチャルリアリティなどのように今後もますます技術が進歩していくことでしょう。例えば、地図も物理現象の可視化の一種です。地図の上で、風の流れなどを可視化する技術というのも最近でてきています。また、インフォグラフィックスなどの手法も最近よく見かけますが、多くの方がグラフィックスに慣れ親しんでくれるという意味においては非常に良いことだと思っています。
また、個人的にはディープラーニングに頼りすぎるのはよくないと思っているものの、ディープラーニングが可視化を手助けしてくれるという活用の仕方はあるかもしれません。例えば、未知のデータに対して、どのように可視化すべきかをサポートしてくれるような利用方法はありえるでしょう。そのような場合でも、最後に判断するのは人間であるべきだということは忘れてはいけない点です。
Q. 先生が考えられるデータプロフェッショナル・データサイエンティストを目指す方に高めて欲しいスキルやマインド、その他メッセージがございましたらお願いいたします。
データビジュアライゼーションはデータ分析プロセスの中で最初にやることです。このプロセスを抜かしてしまうと、データ自体を理解できなくなってしまいますので、どんなデータでも、まず1回は可視化してみるというマインドは身に付けておいてほしいです。特に、バックグラウンドの知識が無いデータについては、とにかく色んな方法で「眺める」しかありません。試行錯誤を通してデータを理解することから始めてください。
また、統計にはあいまいな部分があることを理解した上で、客観的にデータを見せることができる人が、データプロフェッショナル・データサイエンティストだと思います。統計解析の結果は、後から意味をこじつけることができてしまうものでもあるので、その危険性を理解し、職業倫理としてそのようなこじつけはせず、客観的に表現するように心がけてください。
スキル委員:孝忠
統計のあいまいさを理解し客観的に判断できる人がデータサイエンティストという言葉が深く印象に残りました。「どんなデータでも、まず1回は可視化すべし」という教えを念頭に置いて、今後のデータ分析に取り組んで行こうと思います。
スキル委員:高橋
統計のあいまいさを理解し客観的に判断できる人がデータサイエンティストという言葉が深く印象に残りました。「どんなデータでも、まず1回は可視化すべし」という教えを念頭に置いて、今後のデータ分析に取り組んで行こうと思います。
- カテゴリ
-
-
DS関連NEWS
-
インタビュー
-
スキルアップ
-
コラム
-
教えて!DS
-
- アーカイブ
-
-
2024年
-
2023年
-
2022年
-
2021年
-
2020年
-
2019年
-
2018年
-
2017年
-
2016年
-
- 記事アクセスランキング
- タグ
スキル委員:大黒
「データと人間をつなぐインターフェースとしての統計とデータビジュアライゼーション」というのがかっこよくて印象に残りました。人間が眺めて何か考えるための可視化はとても大切だと思いました。そして、平行座標、散布図行列を代表例で挙げられていたので、さっそく、その二つはすぐに作ってみるようにしています。