HPCI共用ストレージ

研究インフラの生命線!地理分散と冗長化で実現する超高信頼性データ共有基盤

活用概要

HPCI共用ストレージは、広域分散ファイルシステムGfarmとSINETの高速ネットワークの力を結集し、東西拠点でのデータ二重化と冗長化を徹底することで、研究インフラの生命線である「サービスの継続性」と「データの安全性」を最高レベルで実現しています。ユーザーは、地理的な制約を一切意識せず、必要なときに必要なデータを確実に利用できる、未来志向のデータ共有基盤です。

この事例は、全国のスーパーコンピュータ(スパコン)資源を結ぶ「HPCI共用ストレージ」の、極めて高い信頼性と可用性(止まらないシステム)を実現した取り組みを紹介します。

課題

巨大なデータ移動の課題とサービスの継続性

高性能計算(スパコン)を利用した研究では、一度のシミュレーションで数テラバイト(TB)規模の巨大なデータが生成されます。従来、これらの研究成果データを複数の研究機関間で共有するためには、巨大なデータを移動させる必要があり、効率的な研究の妨げとなっていました。また、研究インフラにとって、サービスの継続性は生命線です。データ処理や研究が途中で止まってしまわないよう、災害やメンテナンス時にもサービスを止めない強固な可用性の確保が最大の課題でした。

解決

「止まらない」インフラとシームレスなデータ共有の実現

HPCI共用ストレージは、広域分散ファイルシステム「Gfarm」を利用することで、この課題を解決しました。

拠点間の連携とデータの保護

1高速・大容量の単一ファイルシステム

全国のHPCI計算機資源から、高速かつ大容量のストレージ資源(論理100PB、物理200PB)へ、単一ファイルシステムとしてアクセス・データ共有が可能になりました。これにより、ユーザーはデータの所在や多重度を意識せず、どのスパコンセンターからでもデータを利用できます。

2東西拠点による強固な冗長化

R-CCS(西拠点)と東大・柏キャンパス(東拠点)の2カ所にストレージを配置し、常にデータ二重化(レプリケーション)を行っています。システム構成全体(ネットワーク、サーバー、ストレージ)も冗長化されており、システムの一部分に障害が発生してもサービスが継続する設計です。

3圧倒的な高信頼性の達成

この地理的分散と冗長化により、片方の拠点だけでサービス提供(片拠点単独運用)が可能になりました。その結果、2019年度には稼働率100%を継続し、計画外のサービス停止は発生せず、無停止連続稼働1年間を達成しました。

4高速なデータ同期

学術情報ネットワークSINETの広帯域・高信頼なネットワーク(400Gの回線)を利用することで、障害やメンテナンス後に大量に溜まったデータのレプリケーション(再同期)も短時間で完了します。

3データの完全性の保証

データ書き込み時にチェックサムを自動照合し、さらにファイルデータ二重化時にもチェックサム照合を自動実行することで、二重、三重のデータ完全性チェックを実現し、貴重な研究成果を強固に保護しています。

今後の展開

私たちは、この高信頼なデータ共有基盤を、国内の研究支援だけでなく、海外研究機関との国際的な連携やデータ共有の加速にも役立てていきたいと考えています。また、スパコン「富岳」とクラウドの連携など、今後の利用拡大に伴いトラフィックはさらに増加することが必至です。次期ネットワークには、この膨大なトラフィックを受け止め、国際的な研究を支えるネットワーク環境のさらなる整備・拡充を期待しています。

その他の活用事例

矢印アイコン