データ分析基盤の基本構造

エンジニアのためのデータ分析基盤入門
2.2 データの世界のレイヤー より

データ分析基盤のレイヤー

  • コレクティングレイヤー(データを集める)
  • プロセシングレイヤー(データを処理する)
  • ストレージレイヤー(データを保持する)
  • アクセスレイヤー(データを利用する)

コレクティングレイヤー

  • ストリーミング:絶え間なくデータを処理
  • バッチ:一定以上の塊でデータを収集
  • プロビジョニング:仮にデータを配置

プロセシングレイヤー

  • ETL
  • データラングリング
  • 暗号化・難読化
  • データ品質計算/メタデータ計算

ストレージレイヤー

  • マスターデータ管理
  • データのライフサイクル管理
  • メタデータストア
  • データのゾーン管理
データのゾーン管理(本書内では図解や実現案など記載有)
  • ローゾーン:データをそのまま保存しておく場所
  • ゴールドゾーン:データマートやデータウェアハウスの役割
  • ステージングゾーン:不変なデータの提供
  • クォレンティーンゾーン:機密情報等の関係で許可制で利用するデータ
  • テンポラリーゾーン:将来的に取り込み対象にする様な候補データ

アクセスレイヤー

  • GUI
  • BIツール
  • API
  • ストレージへ直接アクセス
  • メッセージキューに対するアクセス

各レイヤーの詳細については、以下各章で詳細に解説有
・2.3 コレクティングレイヤー
・2.4 プロセシングレイヤー
・2.5 ストレージレイヤー
・2.6 アクセスレイヤー