データサイエンスツール―自社開発、購入、それともリース契約?

By Thao Tram Ngo
10月 3, 2019
Data scientist using a tool with chart visuals hovering above a tablet
Share

データサイエンスツールは、AI/機械学習モデルの迅速な構築、トレーニング、および導入を可能にし、チームを強力にサポートします。しかし、データサイエンスツールは自社開発すべきでしょうか、それとも頼れるベンダーを探すべきでしょうか。

データサイエンティストが概して仕事熱心なのは、ほとんどのマネージャーが同意するところでしょう。彼らの仕事は、生のデータを完全なモデルへと変換して世界を理解するという、チャレンジを好む人々のためのものであり、常に忠実度や細部に関わる別なレイヤーも存在します。しかし彼らが一番好まないのは、単調で退屈な仕事です。データサイエンティストにとって、データのクレンジングやスクラビングは退屈な仕事そのものであり、多くの場合、彼らの作業時間の80%ほどを占めています。

高度なスキルを持ち高い報酬を得ているスタッフの時間の多くをクレンジングに費やすことは、チームにフラストレーションが溜まるだけでなく、まさにリソースの無駄遣いです。しかし、企業はAIベースのデータサイエンスツールを使ってプロセスを最適化することで、リソースの多くを節約できます。それにより、主要なステークホルダーはビジネスに大きな影響のある仕事に専念できるようになります。

データクレンジングやその他の比較的単純なタスクを人工知能で自動化するには、アルゴリズムを開発、学習、実装、および実行するための、インフラストラクチャへの投資が必要になります。この記事では、4つの主な選択肢―ソリューションの自社開発、市販ソリューションの購入、ソリューションのリース契約、個別ニーズに応じたパートナーシップ―について説明します。

選択肢1:社内でデータサイエンスツールを一から開発する

Data scientists using laptop in Data Center next to servers to run diagnostics with IoT analytics data

マサチューセッツ工科大学のSloan Management Reviewは、内部および外部の収益化の可能性を最適化するために、「データ工場」モデルを提唱しています。同じ型を使ってプレス加工を繰り返す組立ラインのように、データの収集、クレンジング、強化、そしてインターフェースを自動化する必要性に焦点を当てています。データプラットフォームは、次のニーズを満たすことを期待されています。:

  •  解析:データサイエンティストがデータ解析を行いやすい直感的なインターフェースになっていますか?複雑性のレイヤーを追加して逆効果になっていませんか?
  •  統合:インサイトを利用した実験や、新しい戦略のテストを容易に行なえますか?
  • モデリング:高度な予測モデルを生成する機能の堅牢性は十分ですか?
  • 双方向性:ステークホルダーやパートナーと簡単にインサイトを共有できますか?内部ライブラリやオープンソースライブラリと問題なく統合できますか?
  • 拡張性:需要やスコープの拡大に合わせて効率的に拡張できますか?

企業独自のソリューション開発には、分かりやすい利点と欠点があります。データサイエンティストや開発者は、管理するデータのプロファイル、データが答えなければいけない問い、そしてこれまでにどのようなアプローチが成功したかなどについて、部外者よりも優れた感覚を持たなければなりません。

そして、AIを学習させて経験豊富な人材の論理的思考をクレンジングプロセスに適用します。それだけではありませんが、もし優れた独自のソリューションを開発することができれば、競合他社よりも優位に立てることでしょう。

主な欠点は、初期開発コストが他の選択肢に比べて増加する傾向があることです。社員に作業を依頼してから追加の支援を得るまでの間、あなたはプロジェクトにコミットすることになるでしょう。その結果、導入後にソリューションを維持するための時間と費用はもちろん、元の問題を解決することで節約できるリソースよりも多くのリソースが必要になる場合があります。

選択肢2:市販ソリューションの購入

Data scientist analyzing IoT data insights broadcasted on multiple computer screens

既製のソリューションを購入することで、独自のプラットフォームを構築する場合の初期開発コストの一部は回避できます。しかし、最終的なコストは同程度になるかもしれません。その理由は、ほとんどの場合、構築済みパッケージを企業のデータプロファイルに合わせて大幅にカスタマイズ(つまりは社内開発)する必要があるためです。また、購入したソリューションの技術的な制限によってそれ以上の開発が不可能になってしまうなど、行き詰まりの状況が生じることも珍しくありません。

プラス面は、業界のリーダーが開発した強力なツールにアクセスできることです。例えばAWSの機械学習ツールSageMakerの面白いところは、そのGround Truth機能です。人工知能のトレーニングでは、人間の生成した基準に合わせるように、また確立されたパターンに従うように人工知能を学習させます。また、訓練された人間のデータラベル付けをGround Truthが高い精度で模倣するように学習させることも可能です。

Amazonは現在、ラベル付け作業は70%まで自動化できると見積もっており、対処が難しい30%は自動的に人間の作業者に転送されるとのことです。

一方Tableauは、そのPrepツールで差別化を図ってきました。特にデータクレンジングを支援するために設計されたPrepのファジークラスタリングは、類似する分類タスクを大まかにグループ化し、不必要な反復を防ぎます。また、クリーンでリアルタイムなインターフェースも特筆すべき点です。

選択肢3:ソリューションと関連サービスのリース契約

Transparent futuristic tablet used by data scientist for IoT analytics

既製のデータサイエンスソリューションを購入するということは、(それが有用である限りにおいて、)活用するのは企業自身であるということです。ここで考えなければならない問題は、テクノロジーの急速な変化によって、データプラットフォームのライフサイクルに混乱が生じやすいという点です。アドホックな機能を独自に追加してきた企業は特に注意しなければなりません。

これと対象的なのがリース契約で、その限定的な契約期間やベンダーからの力強いサポートが特徴です。ベンダーには顧客企業をキープするために製品を最大限活用してもらうインセンティブがあります。

ビジネスケースの中には、他のケースに比べて多くのカスタマイズを必要とするものがあります。例えばMnuboのData Science Studioは、カスタムIPの開発に役立つフルマネージドなPython Notebookへのアクセスを提供しています。コードのバージョニングや海外への配布も容易に行えます 。

MnuboのIoTデータサイエンスとAI/MLサービス各種は社内開発チームを強力にサポートします。プラットフォームの設計に携わった従業員にも参加してもらうことで、プラットフォームを最大限に活用できるようになるでしょう。

ただし、要件によってはリース契約が利用できない場合もありますし、企業によっては独自のアーキテクチャの継続使用を好む場合もあります。

選択肢4:長期契約ではない、個別ニーズに応じたパートナーシップ

ソリューションの自社開発が「育児」 、ソリューションの購入が「結婚」、そしてリース契約が「お付き合い」であるなら、ニーズベースのパートナーシップは「都合の良い関係」と言えるかもしれません。
ニーズベースのパートナーシップにおいては、アジャイル性とカスタマイズ性が強調され、機会(または事態)に応じて最適な製品とサービスを選択します。強力なマーケットインテリジェンスと卓越したベンダー管理能力があれば、このアプローチは非常に魅力的であると言えるでしょう。

Mnuboのような製品は、可能な限り幅広いライブラリやサードパーティーツールと連携できるように設計されていますが、その他の製品は本質的にさらに複雑か、もしくはカスタマイズが必要です。また、ベンダーは安定した顧客層を持っていることが多いため、有利な価格設定は得にくいかもしれません。

最終的には、チーム内のデータサイエンティストや上級マネージャーと協力して決定を下す必要があります。データを収集するのはどのような問いに答えるためか、また、獲得したインサイトを活かせる国外市場はあるかなどについて検討しましょう。また他にも、どのような人的/物的リソースが利用可能か、AIを活用してどのように全体のパフォーマンスを向上できるかについても議論しておくべきです。幸せなデータサイエンスチームは創造的なチームです。その可能性を解き放ちましょう。

Newsletter

Stay up to date

You might also like

IoT analytics connecting the city

コンシューマー向け IoT

IoTデータ解析にまつわる5つの神話とその嘘

人工知能(AI)とモノのインタ…

Icons representing various types of data that can be found on analytics platforms

コンシューマー向け IoT

適切なデータ解析プラットフォームの選び方

データ解析において万能のプラッ…

5G network lit up across a city

コンシューマー向け IoT, 産業用 IoT

5Gがすべてを変える

5Gとは何か、そしてそれが私た…

Take the first step today

Get started