P105 データリネージ(データ経路の追跡)

データリネージ[Data Lineage]とは、データがどこから発生し(出自)、どのような変換や加工を経て、現在の形になったかという流れを追跡可能にすることである。
バックトラックと呼ばれる場合もある。
この追跡により、例えば分析の根拠となっているデータを確認したり、異常時(不整合や改竄)を発見した際の原因追跡、監査を実現可能とする。

データリネージの基本はデータ処理の流れを記録することにある。
データレイクにあるこのデータは、データ収集層がどこのデータソースから、いつ取得してきたデータなのか、もしくはいつ、どのETL処理が、どのデータソースを元に変形したものなのか、そのデータがいつデータウェアハウスのどの表にロードされたのか、といったことを記録していきます。

これを実現するには、例えば、データを操作するためのワークフロー環境を統制し(限定し)、そのワークフローの中で実行したジョブプログラム、ETLプログラム等とアクセスされたデータについて記録するという方法が考えられる。但し、この方法はこのワークフローの外で行われた操作についてはリネージできないことになる。
そのため、「完全な」リネージ環境を作るということは、その操作方法を統制する(限定する)ことに直結し、自由度を下げるというトレードオフ関係が発生する。
よって、リネージが本当に必要なのかどうか、もしくはどこの部分だけ確実に記録すべきかを考えた上で、データリネージの実現方法を検討する必要がある。