2017.11.27

DSになるために必要なこと

私は現在、高校2年生です。
3点だけ、質問させてください。

1.データサイエンティストになるためにはどのような手順を踏む必要がありますか?

2.データサイエンスにおいて、習得が前提とされているスキルや知識はありますか?

3.それらのスキルや知識を習得するために大学ではどのような学部・学科でどのようなことを学ぶべきですか?

是非、意見をお聞かせください。

回答

DS協会員
スキル委員 安宅 より:

何人か答えるかと思いますが私の考えを書きます。3つだけとありますがそれぞれが相当入り組んでおり、その順序では極めて答えづらいです。

まず第一に理解すべきはデータサイエンティストとは何かです。次に理解するべきはだとすればどのようなスキルを身につける必要があるのかです。その上で、どのようにそのスキルは身につけることが出来るかを考えるのが筋です。学校その他はその手段の一つに過ぎません。

データサイエンティストとは何かの基礎的な理解については、2014年のプレスリリースをご覧ください。(http://www.datascientist.or.jp/news/2014/pdf/1210.pdf)一言で言えば、データの持つ力を解き放つ人がデータサイエンティストです。

そのためには数量的な分析力、統計数理、情報科学などのデータサイエンス力だけでなく、データサイエンスを意味のある 形に使えるようにし、計算環境(コンピュータ、クラウド)に実装、運用できるようにするためのデータエンジニアリング力、課題背景を理解した上で、ビジネス 課題を整理し、解決するビジネス力(ビジネス的な課題解決力)の3つが必要です。なので、「データサイエンティストとは、データサイエンス力、データエンジニアリング力を ベースにデータから価値を創出し、ビジネス課題に答えを出すプロフェッショナル」ということができます。実際には少なくとも一つの領域に強く、2領域以上の人と会話できる人何人かのチームで課題解決が行われます。

ちなみに「データサイエンティストとは何か」というのはサイエンティスト(科学者)とは何かをきいいているのとほぼ同じであまり何も具体的に意味していません。科学的訓練があっても扱う自然領域や対象によって全く異なるように、金融データ、デジタルマーケティングデータ、物流データ、センサーデータなど、扱うデータによっても行うことは全く異なります。

ビジネス力に含まれる各領域のドメイン知識は極めて重要です。データはあくまで世界の写像に過ぎず、その対象が何かを理解せずにそのデータを扱うことは全く意味が無いからです。これは周波数データと理解せずに通信データを解析することの意味の無さを考えればよく分かるでしょう(どのように情報がエンコードされているか、その情報はどういう意義があるのか自体を理解せずには永遠に解析しようがありません)。

なお、機械学習や自然言語処理、バイオインフォマティクスそのものの最先端技能の専門家、研究者は、具体的な課題に対してプロフェッショナルとして解決するデータサイエンティストというより、情報科学者、生命科学者の一種です。

では個別のスキル領域でどのような具体的なスキルが必要なのかについては、IPA(情報処理 推進機構)と共に見直し整理したスキルチェックリスト、タスクリストをまずご覧ください(https://www.datascientist.or.jp/common/docs/PR_skillcheck_ver2.00.pdf)。改訂版になる前のスキルチェックリストを俯瞰した資料が次に上がっていますのでそちらもご覧頂くとよりわかって頂けるかと思います。(https://www.slideshare.net/DataScientist_JP/ss-55326920)

高度な内容が含まれているので、いま言葉すらわからなくても気にされる必要はありません。ただ、わからなければそれぞれが分かるだけの知識と経験を積んでいく必要があります。ひとつ補足するならば、データ利活用の対象となる領域のドメイン知識を持った上で、何らかの課題解決につなげる情報科学以前のデータ素養、分析力、洞察する部分が非常に大切だということです。音や光を扱おうとして、それらの性質を理解せずに扱えないことは明らかです。

また、深層学習など先端的な情報科学、データサイエンス力領域をちゃんと理解するためには、大学教養レベルまでの線形代数、微分積分についての理解が必要です。その実態が、高度な数学モデルだからです。

これらの情報科学を実装するためのエンジニアリングスキルとしては自分の扱いたいデータと利活用したい内容によって使うべきツールも変わります。そもそもデータを切り出してきて成形するにはSQLが必要で、統計数理的な処理の世界ではPythonが有用なことが多く、大量データ可視化(Data Visualization)領域であればJava Scriptが2017年秋の現在では重要です。まずはスキルチェックリストを俯瞰してみるのがよいでしょう。

第三にこれらのスキルをどのように身につけるべきかなのですが、これについてはかなりスキル委員会で検討したことがあり、結論としては決まった手順はありません。一つ言えることは、個別の領域をそれぞれ深めるというのは意味があまりないということです(基礎的な統計数理が身についている前提)。具体的な課題をときながら、必要なサイエンス、エンジニアリングを学び、理解を深めていくのが最も効率的です。

見習い(Assistant)レベルは講義、演習などのプログラムでもである程度いけますが、一人前(Associate)以上は実際の現場で実課題、実際の大量データに対応することなしにに身につけることはほぼ不可能です。まず大切なのは実際のデータを使って分析するとは何かを身をもって知ること。データを取るということは何かを理解すること、データとは何なのかを皮膚感を持って理解することです。解析技術自体も奥深いですが、それらの科学的思考の基礎素養なしに頑張ることにはあまり価値がありません。

大学については、データサイエンス学部を持つのは、現在滋賀大のみですが、ここから1〜2年のうちにあといくつか設立される見込みです。データサイエンス力の視点では情報科学、データエンジニアリング力の視点では計算機科学の分野に進むことが効率的と考えられますが、これも一概には言えません。もともとICT系の教育が手厚い慶応大学のSFCや筑波大学、東工大などで何をやっているのかを見てみるのが参考になるのではないかなと思います。またこれからの学問分野では特に理数系の場合、データ解析を行わずにやっていくことは極めて困難なため、どのような領域においてもやることは十分可能かと思います。実際、米国のトップスクールの多くでは(MIT, Stanfordなど)、コンピュータサイエンス(計算機科学)やデータサイエンスと物理や経済などの他の領域の2つか3つを専攻(Major)で卒業する学生が既に過半を超えています。

以上ざっくりですが、参考になれば幸いです。

カテゴリ
アーカイブ
記事アクセスランキング
タグ