活用概要
NICTサイエンスクラウドは、Gfarm/Pwrakeによる大規模なデータ処理能力と、HpFPによる革新的な高速データ転送技術を融合させました。これにより、膨大な科学データを「アーカイブデータ」として管理するだけでなく、「リアルタイムデータ」として即座に分析・可視化することを可能にし、科学研究のスピードと社会への応用力を飛躍的に向上させています。
この事例は、情報通信研究機構(NICT)サイエンスクラウドにおいて、Gfarm/Pwrakeおよび独自開発の高速データ通信プロトコル(HpFP)を活用し、リアルタイムでのデータ処理と可視化を実現した取り組みを紹介します。
課題
ビッグデータの「即時性」と「可視化」のボトルネック
宇宙科学、地球環境、人間科学といった多岐にわたる科学分野で、超大規模なデータ(多様なセンシングデータ、シミュレーションデータ、映像データなど)が日々収集されています。
従来のデータ処理では、大量のデータに対し可視化処理に膨大な時間がかかってしまうという課題がありました。特に、ユーザーがデータを要求してから処理を行うオンデマンド型では、データ処理時間と可視化結果の伝送時間がボトルネックとなり、結果を得るまでに数十秒を要していました。この通信時間のほとんどは、画像ファイルの伝送が占めていました。また、重要な科学データのトレーサビリティ(追跡可能性)を確保する際、従来の時刻認証システムでは高速・大容量のクラウドデータベースに対応できず、処理能力に限界があったことも大きな課題でした。
解決
60倍の高速化と瞬時のデータ表示、完全なトレーサビリティ
NICTサイエンスクラウドでは、分散ファイルシステムGfarmと並列ワークフローシステムPwrakeを中核に据え、独自の技術開発を組み合わせることで、データの即時的な利用を可能にしました。
高速・リアルタイム処理の実現
1並列処理による劇的な高速化
Pwrakeは、Gfarm上に分散配置されたデータに対し、ファイルローカリティーを優先した効率的なスケジューリングを行うことで、処理速度を大幅に向上させます。これにより、フェーズドアレイレーダの3次元データリアルタイム処理では、従来の20分かかる処理を20秒に短縮し、60倍の高速化を達成しました。観測後70秒以内に3次元可視化が可能となりました。
2高速な可視化と閲覧体験
独自に開発した多次元多階層画像データベースにより、ビッグデータの表示時間を従来の数十秒から約1秒程度に短縮。まるでGoogle Mapsのように、位置移動(スワイプ)や拡大縮小(ダブルクリック・ピンチ)といった操作に、ストレスなく応答する閲覧環境を実現しました。
遠隔地からの高速アクセスとデータ保証
3独自高速伝送プロトコル(HpFP)
通信のボトルネックとなっていた画像伝送を改善するため、パケットロスや遅延に強い独自のプロトコルHpFPを開発・導入しました。これにより、遠隔地からでもクラウドストレージへの高速なデータ書き込み・読み出しが可能となり、従来のプロトコル(UDT)よりも高速な遠隔ストレージを実現しました(最大12.8Gbps / 6並列)。
4完全性と真正性の担保
分散ストレージシステムとタイムスタンプサービスを連携させることで、データのトレーサビリティを確立。重要なデータが改ざんされていないこと(完全性)や、作成時期が正しいこと(真正性)を証明するシステムを実現しました。
今後の展開
私たちは、サイエンスクラウドの成果を社会の課題解決に役立てることを目指しています。たとえば、ひまわり8号リアルタイムWebは、防災や教育、報道など多角的な利活用が始まっており、アジア・オセアニア地域での国際化(多言語対応)をさらに進めています。今後は、新聞記事データベースの活用のように、「社会」と「個人」の意識の変化を重ね合わせる技術開発など、セキュアなWeb技術を応用した新たな分析手法の開拓を目指します。
高速伝送プロトコルHpFPをWebブラウザに組み込むことで、高遅延やパケットロスが多いネットワーク環境でも、画像伝送の高速化を実現する予定です。また、時系列データの多次元・多階層画像データベースは、現在の10億画像から5年後には1000億画像への拡張を計画しています。太陽光発電の予測システムなど、社会インフラに直結する分野へのデータ活用も進めています。