活用概要
JLDGは、Gfarmという広域分散ファイルシステム技術を最大限に活用することで、複数の研究機関にまたがる大規模科学データの共有と管理を、ユーザーにとって極めてシンプルで効率的なものに変えました。SINETの広帯域ネットワークが国際的な研究協力(ILDG)の土台となり、素粒子物理学における新しい理論の発見や検証を力強く推進しています。
この事例は、素粒子物理学の研究分野において、複数の研究機関が持つ計算資源を連携させ、広域ファイルシステム「Gfarm」を中核としたデータグリッド「JLDG(Japan Lattice Data Grid)」を構築し、国内外の研究協力を促進した取り組みを紹介します。
課題
分散したデータと管理負荷の増大
素粒子物理学の重要な研究課題である「格子QCDシミュレーション」では、「QCD配位」という基礎データを生成します。このデータ生成には、単一のスーパーコンピュータだけでは追いつかないほどの膨大な計算機資源が必要でした。そこで、複数の研究機関のスパコンを利用してデータを生成し、ネットワークで共有する試み(hepnet-J/sc)が以前から行われていましたが、いくつかの課題がありました。
- データの管理の煩雑さ
-
データが複数のディスクに分散してしまうため、ユーザー側でデータの所在やミラー先(複製先)を全て覚えておく必要があり、管理負荷が非常に高かった。
- 組織をまたがる利用の難しさ
-
研究機関をまたいだユーザーやグループの概念がなく、複数の組織にまたがる研究インフラとしてのサポート体制の構築が困難でした。
- 高速ネットワークの要求
-
大規模データの複製作成や、遠隔サイトからのデータ転送が頻繁に発生するため、高速で信頼性の高いネットワークの存在が不可欠でした。
解決
フラットでシームレスな広域データ共有を実現
これらの課題を解決するため、2005年より開発に着手したのがデータグリッド「JLDG」です。
1「Gfarm」によるシームレスなアクセス
JLDGは、グローバルファイルシステムGfarmを中核技術として採用しました。Gfarmは「スペースの制限のないフラットなデータ共有システム」を実現し、ユーザーはデータが実際にどこに格納されているかを一切意識せず、自分の所属組織のサーバーにログインするだけで研究データに自由にアクセスできるようになりました。
2効率的なデータ配置
裏側では、遠隔地のデータへのアクセス時間を短縮するため、Gfarmが自動的にファイルの複製(レプリカ)を各拠点のサーバーに配置する仕組みを導入しました。
3組織をまたがるユーザー管理
仮想組織管理ツール(VOMS)やユーザー認証システム(Naregi-CA)を組み合わせることで、組織をまたいだ利用者管理が可能となり、複数の研究機関が共同でインフラを利用できるようになりました。
4SINETによる国際連携
SINETの高速・高信頼なネットワーク(L3-VPNサービス)を利用することで、この膨大なデータ転送を支えています。JLDGは、国際的なデータグリッドであるILDG(International Lattice Data Grid)にも参加しており、SINET経由で国内外の研究者へQCD配位データを提供し、国際的な研究連携を可能にしました。
今後の展開
JLDGは現在、計算素粒子物理学の研究成果を広く公開するために利用されていますが、近い将来には、研究者たちが日常的に利用する「研究インフラ」の基盤として、さらに発展させていきたいと考えています。そのためには、今後も増大する大規模データの複製や転送を支える、SINETのような高速で安定したネットワークサービスが不可欠です。
計算機アーキテクチャ、ファイルシステム、通信ソフトウェア、各種ライブラリといった多岐にわたる要素の研究開発を進め、よりシームレスで効率的なデータ共有システムを実現し、素粒子物理学の発展に貢献していきます。