2017.02.09

プロのデータサイエンティストに求められるのは数学的な素養と先端理論の実装力

創業以来、「分析力をコアとするデータソリューションカンパニー」として成長を遂げ、2015年には東証マザーズへの上場も果たしたALBERT(アルベルト)。同社は、データサイエンス領域のテクノロジーを駆使することで、この分野でのリーディングカンパニーになることを目指し、「世界中の人に価値ある情報を届ける」というミッションへの挑戦を続けている。今回は、同社の執行役員でデータ分析部 部長の安達章浩氏に、数多くのデータサイエンティストを擁し、顧客へさまざまな形のデータソリューションを提供しているサービスベンダーの立場から、業務の特徴、求める人材および能力、人材育成の方針、そして今後求められるデータ分析の方法やスキルなどについて語っていただいた。

今回のキーパーソン

安達 章浩 氏

安達 章浩 氏 株式会社ALBERT(アルベルト) 執行役員 データ分析部 部長

データサイエンティストに求められるポイント

  • 分析者に必要な条件は、数学的な素養と先端理論の実装力
  • 分析の方針が決まった後は、各タスクの進捗管理の能力も必要
  • ディープラーニングにはチューニングのノウハウが求められる

独自のテクノロジーが卓越した分析力を支える

ALBERTの事業コンセプトは「分析力をコアとするデータソリューションカンパニー」であり、そのコアコンピタンスである卓越した分析力は、アナリティクス領域における「マーケティングリサーチ」「多変量解析」「データマイニング」「テキスト&画像解析」、エンジニアリング領域における 「大規模データ処理」 「ソリューション開発」「プラットフォーム構築」「最適化モデリング」、以上8つのテクノロジーに支えられている。各テクノロジーには豊富な実績に裏付けられた独自のアルゴリズムや手法が用いられており、他社への優位性を確保している。

同社は当初、Webサイトに不可欠なレコメンドエンジンの開発を主な業務としていた。この業務の過程で、どうしてそのような結果が出たのか原因を究明するため、データの分析に取り組んだのが、同分野へ参入するきっかけになったという。現在は、レコメンドエンジン系に代表されるシステム実装のエンジニアリング部隊と、データ分析系の部隊の2つが同社の事業を支えている。
「お客様が抱える経営課題などに対し、データ分析部隊のアナリストがソフトウェアなどを使って機械的に解決するためにはどのようなアルゴリズムを組めばよいかを検討、その実装やテストをエンジニアリング部隊が担っています」

かつて安達氏は某自動車メーカーでマーケティング分析を担当しており、その後コンサルディング会社へ転職。本格的にデータ分析へ取り組むようになった。20年以上にわたってデータ分析に携わってきたベテランであり、独立して会社を立ち上げたこともある。安達氏が同社へ入社したのは2012年のことで、当時はレコメンド経由で購入した人とそうでない人のコンバージョン率の差異分析をし、レポート化することが主な業務であったが、現在は先端的なアルゴリズムの設計がメインになってきているという。
「以前はエンジニアが片手間にクロス分析やクラスタ分析を行っていました。私が入社したころから専門的な統計解析や機械学習の知識を持ったスペシャリストを採用するようになり、現在では40名ほどが在籍しています。エンジニアも約30名おり、管理部門などの人員を併せると、約100名の体制でやっています」

求める人材は、数学的な素養と最先端の論文の実装力

高度な技術とノウハウを持った数多くのデータサイエンティストを擁し、顧客へ最先端のデータソリューションをさまざまなかたちで提供しているALBERTが求める人材とはいったいどのようなものか。この点について安達氏は、顧客が思い浮かべる分析者の人物像と、実際に求められる素養はかなり異なっているという。
「何より高度な専門知識が必須です。というのも、お客様自身がかなり高い専門性を持っていらっしゃいますので、それをはるかに上回るレベルにないととうていやっていけません。中でも具体的に求めるのは、分析の経験などではなく数学的な素養です。お客様の先を行くためには、数式の塊である最先端の論文も読みこなせなくてはなりません」

過去のアナリストは、SASやSPSSなどのパッケージ、それに回帰とクラスタ分析程度の知識が少々あれば、なんとなく回答を導くこともできた。しかし今や回帰分析やクラスタ分析でできることは非常に限られている。それ以上のものを実現するためには最先端の論文を読んで新たに実装するしかないが、そこで重視されているのが実装力だ。
「実装力とは、論文に記述されている数万行のプログラムを、商用サービスとして使用できるよう、統一された環境で、お客様の要求を満たしつつ、安く速く実現する能力です。実際、当社では論文では2万4,000行のコードを1,200行に圧縮した事例もあります」

一方で、業界知識についてはあまり重視していないとのこと。そこはPM(プロジェクトマネージャー)が理解していれば済むという割り切りだ。ただ、顧客が課題を漠然と捉えていることも多いので、業界知識やマネジメント力が不要というわけではない。
「分析の方針が決まったら、それを各タスクに切り分けて管理しなくてはなりません。この点はシステムエンジニアリングと同様で、それぞれのタスクの進捗管理はとても重要です。これができるPMは今後も育成していかなければならないと思いますし、社内に研究会も設けています」

採用はインターンシップで、育成は社内での研究会が中心

ALBERTの新人採用の基本は、長期アルバイト(インターンシップ)にある。実際の業務を経験してもらい、その際に与えた難解な課題への対処の仕方から素養を見極めて採用しているとのこと。
「一方、中途採用は実務経験者に加え、数学を専門に研究していた人も優先して採用しています。高度な数学の知識がある方であれば、統計分析などは後からでもすぐに身に着けることができますので、中途半端な経験は求めていません。実際、当社にはさまざまな研究機関から来た者が多数在籍しています」

育成面については、社内での研究会が中心となる。同社の研究会では、誰かが深掘りしたいテーマをマネージャーに申請し、認められればスタートすることができる。ひとりの人間が複数の研究会に所属することも可能だ。研究会の基本的な活動は論文の輪読および実装だが、その代表例として関数解析研究会がある。関数解析はディープラーニングで成果を得るためのチューニングに不可欠なものだ。
「いま課題となっているのが結果の共有です。実装までやった者と話を聞いただけの者とでは理解の度合いがまるで違うので、ノウハウを効率的に共有できるようにしたいと考えています」

採用ターゲットは“ポスドク”、および統計学や機械学習の研究室

ALBERTにおいて、データ分析系のメンバーは大きく3つのセクションに分かれている。一つはCRMや広告の分析をする部隊、二つ目は人工知能や機械学習の部隊、最後がディープラーニング系の実装が可能な部隊である。

かつてクライアントの大部分を占めていたネット系企業からの依頼はCRMの部隊が受けており、ヒューリスティック分析が主だ。しかし現在はクライアントで最も多い業種はメーカー系企業であり、案件のうち7割を人工知能/機械学習系が占めている。そこで同社は同分野に対応できる人材を増やしていく方針だが、中でも採用ターゲットとしているのがポストドクター(ポスドク)だ。
「研究機関におけるポスドクの枠には限りがあります。また、一般企業でポスドクは採用を避けられるきらいもありますが、我々は受け皿になることができます。他では、統計学や機械学習の研究室にも声をかけています」

ただしこれはあくまでALBERTが求める人材のレベルであり、一般企業におけるデータ分析の業務であれば、理系で一定の知識があればこなせるし、文系でも少し勉強すればやっていけると安達氏はいう。
「一般企業が自前でデータサイエンティストを育成するよりは、我々のような外部のスペシャリストと組む方が良いと思います。ですからむしろ必要なのはマネジメントできる人でしょうね。例えば、CRMのような世の中でも標準的なものであれば社内で対応し、研究機関が行っているような最先端の分析や、その先の機械学習については、外部のパートナーを活用した方が効率的に物ごとを進められると思います」

ディープラーニングではチューニングのノウハウが求められる

今後、重要度が増していくであろうデータ分析の方法やスキルについて、安達氏は以下のように語る。
「昔は職人技と呼ばれていた特徴量設計ですが、今では機械が代わってやってくれるようになりました。そこで現在、必要とされているのが実装力です」

かつてレコメンデーションエンジンが売れたのは、アソシエーション分析自体が以前からあり、それをバッチ処理で高速に回すことが可能になったためである。言い換えれば、それは実装力にほかならない。
「一方で今、ディープラーニングを高速で回そうとしても、それが可能なネットワークは存在しませんから、いかにネットワークを軽量化するか、プログラムを短縮し効率化するかなど、チューニングのノウハウが求められています」

例えば、物体認証をカメラに実装して動作させる際、現状はカメラで撮影した画像を膨大な数のGPUが並列処理し、結果を返している。しかしこれを現実のサービスに適用するのはコスト的な面などからも不可能であり、一般化するためにはGPU内へ物体認証の組み込みを実現する必要がある。
「今後はこうした組み込みの実装が勝負の分かれ目になるでしょうから、組み込み技術と機械学習系のアルゴリズムに対する理解が求められるようになるでしょう。もちろんこの2つを分業することは可能ですが、両者の橋渡しができる人が必要です」

はたして組み込みがデータサイエンスなのかという議論はあるが、場合によっては回路設計の知識も必要とされるかもしれないと安達氏はいう。また、特徴量設計において人間はディープラーニングにかなわないが、一方でディープラーニングは学習に時間がかかり、時々刻々と変わるものに対応できない欠点がある。
「そこは従来型の理論の方が圧倒的に優れています。もし対抗できるとすれば、ゼロスタートで速攻学習が可能な仕組みをディープラーニングと組み合わせるやり方ですが、残念ながらそうした分野の研究はあまり進んでいません」

インタビューの様子

最後に安達氏へデータサイエンティスト協会への要望を尋ねると、スキル定義などをもっと深掘りしてほしいという声をいただいた。
「データサイエンス領域そのものをソリューションにしている立場からすると、一般的な数学理論がスキル定義に入っていませんし、専門的な実装スキルも見当たらないので、ぜひこれらは盛り込んでもらいたいですね」

取材:博報堂DYメディアパートナーズ 下吹越義宏 調査・研究委員、日本電気 濱中雅彦 調査・研究委員
※こちらの記事は2016年9月に行われた取材をもとに作成されたものです。

株式会社ALBERT(アルベルト)
設立 2005年7月1日
所在地 東京都新宿区西新宿1-26-2 新宿野村ビル15F
代表者 代表取締役社長 上村崇
業務内容 「smarticA!DMP」をはじめとするシステムソリューションの提供、分析コンサルティング、データサイエンティスト養成ほか
URL:http://www.albert2005.co.jp/

カテゴリ
アーカイブ
記事アクセスランキング
タグ