活用概要
すばる望遠鏡データ解析の事例は、Gfarmによる分散ストレージ技術と、Pwrakeによる高度なワークフロー管理が、いかにI/O負荷の高いビッグデータ処理のボトルネックを解消し、計算資源の利用効率を最大化できるかを示す好例です。I/Oがネックとなりがちな大規模処理において、Gfarm / Pwrakeの組み合わせは、科学研究のブレークスルーを支える強力なソリューションとなります。
この事例は、日本の最先端の天文観測プロジェクトである「すばる望遠鏡 Hyper Suprime-Cam(HSC)」の膨大な画像データ解析において、GfarmとPwrakeを活用し、処理速度を大幅に向上させた取り組みを紹介します。
課題
膨大なI/Oと既存システムの限界
すばる望遠鏡のHSCによる広域撮像観測は、遠方銀河の観測や宇宙のダークマター分布の解明を目的とした一大プロジェクトです。観測データは非常に大規模で、一晩の生データ量だけで300 GB(処理後はその約10倍)に達します。
このような膨大な画像データ(ビッグデータ)を迅速に解析し、結果を早く見たいという強いニーズがありました。特に超新星のような突発的な天体現象をフォローアップ観測するためには、処理時間の高速化が必須でした。しかし、従来のデータ解析パイプライン(hscPipe)に実装されていた並列処理システムは、データの入出力(I/O)性能や、計算資源(CPUコア)の効率的な使用において、スケールアウト(規模拡大)を妨げる欠点を抱えていました。具体的には、多数の計算ノードを使おうとしてもI/Oがボトルネックとなり、計算機の性能を最大限に引き出すことができませんでした。
解決
高効率なコア使用とI/O性能のスケールアウト
本プロジェクトでは、I/O性能とコア使用率の向上を目指し、並列ファイルシステムGfarmとワークフローシステムPwrakeをhscPipeに適用しました。
1スケーラブルなI/O性能
Gfarmは、データが計算ノードのローカルストレージに分散して保存される構造(Node-local Storage)を持ち、計算ノード数に応じてI/O性能が比例して向上(スケールアウト)します。これにより、従来のファイルシステムで発生していたI/Oのボトルネックを解消しました。
2効率的なタスク実行
Pwrakeは、ファイルのローカリティ(データが保存されている場所)を考慮し、処理をデータに近い場所で実行するようタスクをスケジュールします。これにより、計算ノードがタスクの終了を待つ間にCPUコアが遊んでしまう現象を減らし、コア使用率を効率的に向上させました。
3劇的な高速化の達成
小規模な観測データ(1晩の1/4)を用いた比較実験では、PwrakeとGfarmを組み合わせたシステムが、従来のhscPipeの並列実行システムと比較して2.2倍の高速化を達成しました(処理時間を6521秒から2968秒に短縮)。
4大規模処理の実証
58日分の観測データ(入力5.3TB、出力46TB)という超大規模な処理においても、30ノード480コアを使用し、52時間で処理を完了しました。この際、コア使用率は95.4%という非常に高い効率を達成し、システムが大規模データ処理に耐えうることを実証しました。
今後の展開
私たちは、この技術を通じて、大規模化する天文ビッグデータと情報統計学を融合させた「統計計算宇宙物理学」という新しい研究領域の開拓を目指しています。データ処理の高速化は、宇宙のダークマター分布の解明や、超新星のショックブレイクアウト(大発見につながる増光中の超新星)の早期発見など、宇宙論や銀河進化に関する幅広い研究を加速させます。
さらなる処理速度の向上を目指し、システムを構成するPwrakeの機能改善を進めています。具体的には、複数コアを使用するタスクの効率的な割り当てや、タスクの実行順序を最適化するアルゴリズムの改善などに取り組み、残された大規模実験の目標達成(60ノードで約28時間処理)を目指します。