エンジニアのためのデータ分析基盤入門
2.4 プロセシングレイヤー データを変換する より
意味
非構造データを構造データにしたり、付加価値を付ける作業を行うこと。
ラングリングはこねくり回すという意味である。
データプレパレーション[data preparation]とも呼ばれる。
どちらも同じ作業内容を指す。
データラングリング自体非常に難易度が高く、
プログラミング言語を習熟していること(Pythonが多い)、
社内のドメイン知識が必要になってくる。
データサイエンティストやデータエンジニアリングが担当することが多い。
海外では、CTOやCDO自身が行うケースもある。
主な3つの作業(本書内では図解解説有)
データストラクチャリング[data structuring]
- 非構造的なデータを構造化データにする操作のこと
- 非構造データのパターンを見つけ出し、構造化
データクレンジング[data cleansing]
- データに含まれた重複データ、破損データ、フォーマットに沿ってないデータの除去
- 分析しにくいだけでなく、二重カウントなど邪魔になる場合があるためデータ精度の向上のため実施
データエンリッチング[data enriching]
- 分析に必要な情報を付加
- 特定のユーザーに紐づいたセッション情報を付加等
ETLとデータラングリングの違い
- ETLはバッチ処理等定型で、データラングリングは手動なども含む
- データラングリングで行っていた作業をETL化する流れとなる