Gfptar

大量の入力エントリ(ファイル)を、出力ディレクトリ内に存在する
複数のアーカイブファイルに自動的にまとめながら、並列に転送します。

技術概要

大量の「小さな」ファイルを高速にまとめる技術

大規模分散ファイルシステム(Gfarm)では、効率的なデータアクセスを実現するために、一つあたりのファイルサイズを大きくし、複数のファイルへ並列にアクセスすることが推奨されます。しかし、現実にはログファイルやシミュレーションの中間データなど、「大量の小さなファイル」を効率的に扱いたいというニーズも多く存在します。

Gfptarは、この課題を解決するために開発された並列アーカイブコマンドです。大量の入力エントリ(ファイル)を、出力ディレクトリ内に存在する複数のアーカイブファイルに自動的にまとめながら、並列に転送します。

特徴と強み

億単位のファイルに対応するスピードと柔軟性

1圧倒的なファイル対応能力

Gfptarは、億を超える多数のファイルに対しても効率的なアクセスと処理を可能にします。デフォルトでは約200MBごとにファイルを分割してアーカイブを作成するため、並列性が最大限に活かされます。

2高速なリスト取得と復元

作成したアーカイブの内容確認(リスト取得:-tオプション)は、大量のファイルであっても高速に行うことができます。また、アーカイブを元に戻す(復元:-xオプション)際も、高速に戻すことが可能です。

3柔軟なアーカイブ更新と耐障害性

  • 更新(-uオプション)
    既に作成済みのアーカイブに対し、新しいファイルだけを追加できます。また、ネットワーク障害などでアーカイブ作成が中断した場合でも、このオプションを用いてアーカイブを再開できます。
  • 追加(-rオプション)
    ファイルの追加のみを行う場合は、-uオプションよりも高速に実行可能な-rオプションが利用できます。
  • カスタマイズ
    デフォルトではgzip圧縮が行われますが、他の圧縮方法を指定したり、除外したいファイル名を指定したりするなどの柔軟な設定が可能です。

活用イメージ

ビッグデータのバックアップと効率化

大規模シミュレーション結果のバックアップ
数億に上る小さな中間ファイルを、一つのアーカイブディレクトリに効率的かつ並列にまとめ、安定したバックアップを迅速に完了させます。
中断からの復旧
大容量のアーカイブ作成中にシステム障害が発生しても、-uオプションを利用して途中から処理を再開し、作業時間を大幅に短縮します。
必要なデータのみの取り出し
アーカイブ全体ではなく、特定のエントリ(ファイル)のみを指定して復元(-xオプション)することができ、必要なデータへのアクセスが容易になります。

想定ニーズ・対象ユーザー

HPC(ハイパフォーマンス・コンピューティング)ユーザー
シミュレーションや計算結果として大量の小さなファイルが生成され、それらを効率的に管理、移動、保管する必要がある方。
データ管理者 / IT担当者
億単位のファイルを扱うシステムにおいて、高速かつ堅牢なアーカイブ・バックアップ手段を探している方。
データサイエンティスト
データセットのバージョン管理や、特定の中間ファイル群をまとめて移動・共有したい方。

その他の技術・開発

矢印アイコン