データラングリング[data wrangling]

エンジニアのためのデータ分析基盤入門
2.4 プロセシングレイヤー データを変換する より

意味

非構造データを構造データにしたり、付加価値を付ける作業を行うこと。
ラングリングはこねくり回すという意味である。
データプレパレーション[data preparation]とも呼ばれる。
どちらも同じ作業内容を指す。

データラングリング自体非常に難易度が高く、
プログラミング言語を習熟していること(Pythonが多い)、
社内のドメイン知識が必要になってくる。
データサイエンティストやデータエンジニアリングが担当することが多い。
海外では、CTOやCDO自身が行うケースもある。

主な3つの作業(本書内では図解解説有)

データストラクチャリング[data structuring]
  • 非構造的なデータを構造化データにする操作のこと
  • 非構造データのパターンを見つけ出し、構造化
データクレンジング[data cleansing]
  • データに含まれた重複データ、破損データ、フォーマットに沿ってないデータの除去
  • 分析しにくいだけでなく、二重カウントなど邪魔になる場合があるためデータ精度の向上のため実施
データエンリッチング[data enriching]
  • 分析に必要な情報を付加
  • 特定のユーザーに紐づいたセッション情報を付加等

ETLとデータラングリングの違い

  • ETLはバッチ処理等定型で、データラングリングは手動なども含む
  • データラングリングで行っていた作業をETL化する流れとなる

もっと早くに読むべきであった…。