エンジニアのためのデータ分析基盤入門
2.2 データの世界のレイヤー より
データ分析基盤のレイヤー
- コレクティングレイヤー(データを集める)
- プロセシングレイヤー(データを処理する)
- ストレージレイヤー(データを保持する)
- アクセスレイヤー(データを利用する)
コレクティングレイヤー
- ストリーミング:絶え間なくデータを処理
- バッチ:一定以上の塊でデータを収集
- プロビジョニング:仮にデータを配置
プロセシングレイヤー
- ETL
- データラングリング
- 暗号化・難読化
- データ品質計算/メタデータ計算
ストレージレイヤー
- マスターデータ管理
- データのライフサイクル管理
- メタデータストア
- データのゾーン管理
データのゾーン管理(本書内では図解や実現案など記載有)
- ローゾーン:データをそのまま保存しておく場所
- ゴールドゾーン:データマートやデータウェアハウスの役割
- ステージングゾーン:不変なデータの提供
- クォレンティーンゾーン:機密情報等の関係で許可制で利用するデータ
- テンポラリーゾーン:将来的に取り込み対象にする様な候補データ
アクセスレイヤー
各レイヤーの詳細については、以下各章で詳細に解説有・2.3 コレクティングレイヤー
・2.4 プロセシングレイヤー
・2.5 ストレージレイヤー
・2.6 アクセスレイヤー