2019.8.7

ビッグデータ活用における最適なストレージ戦略(後編)

  • ITインフラ&オペレーション

ビッグデータを活用していくためのストレージ選定のポイントをご紹介いたします。

後編:ビッグデータ基盤を支えるストレージ戦略

ビッグデータ活用におけるストレージ選定の課題

一般的にビッグデータを扱う際に、適しているといわれるアーキテクチャを図に示しました。データの収集・蓄積・処理から利用に至る流れの中で、それぞれの特徴に応じて最適と考えられるストレージ技術を記載しました。

ビッグデータ処理の流れと各段階での最適なストレージ技術

一方で、データ収集から利用までのステージに応じて最適なストレージ技術を選択すると、目的別にストレージがサイロ化し、林立してしまうことになります。また、ペタバイトやエクサバイトのデータ量を意識すれば、最大容量が数百GBや数百TBのストレージ製品を選定することは効率的ではありません。

例えば、センサー・IoT・SNSなどのデータを可視化・分析・予測する場合、収集したデータに対して加工処理が必要となります。利用目的ごとにストレージ技術・ストレージ製品が別れることによって、ストレージ間のデータ移動やコピーが必要になります。

ストレージがサイロ化した場合のデータ処理イメージ

ここに記載している例は簡略化していますが、加工といってもデータのクレンジングや集計処理などさまざまな処理があります。場合によっては蓄積と処理の間をデータが行き来することもあり、データの重複が発生するなど大変非効率となります。

ストレージ選定における課題解決策

これらの課題を解決するために、データ蓄積・処理・活用といった一連の流れを同一のストレージに集約する方法があります。保管場所が集約されることで複数のストレージ間でデータを移動・複製する時間やハードウェアコストを削減することができます。大量のデータ重複が回避されれば、効率的にデータを活用することも可能になります。

一連のデータを同一ストレージに集約した場合の処理イメージ

データ活用のステップに応じたストレージ選定のポイント

まず、同一のストレージ装置にデータを集約し、既にお持ちのデータを見直して、徹底的に活用するステップ①を実現することが重要です。次にステップ②として、センサーや画像データなどの新たなデータもあわせて集約ストレージに格納し、データ分析・活用の幅を広げます。これらのステップを実施するにあたり、ストレージはデータ容量を簡単かつ柔軟に増加できる製品を選定することがポイントになります。
ステップ③のビッグデータ活用まで進むと取り扱うデータ量も格段に増加し、ストレージに求められる要求もより高いものとなります。

まとめ

ステップ①~③までを見越したストレージ選定を考える場合、データ処理のそれぞれの段階に応じた要求をすべてこなすことができる製品を選ぶことが重要です。
まとめると以下のようになります。

・ペタバイトクラスまで拡張が可能であること
・容量のみならず、コストもステップに応じて最適な対応が可能であること
・SSD並みの性能とHDD並みのコストを両立できること

これらを満たす製品を選定することが、ビッグデータ活用に向けた戦略的なストレージの選択と言えるのではないかと考えます。

 筆者:テクノロジー事業本部 技術戦略部 川島 寛史

本稿は、2019年2月27日開催「DX加速、データ分析・活用がもたらす未来~ビッグデータインフラの最新動向~」での講演内容をTECH REPORT用に編集したものです。

関連するソリューション・サービス

関連する取り組みレポート