P166 Embulk

データをある場所から別の場所へまとめて転送するバルクローダ
データを転送する際に、途中でのデータの変換、エラーリカバリ、並列読み出しなどを担う
ユースケースとしては、基幹系から分析系への移動など

Embulkは、Fluentdを開発したTreasure Dataによって開発されている。
Fluentdはストリーミングデータを扱うツール、Embulkはバルクデータを扱うツールという理解でよい。
YAMLで記述するので、小回りは効きにくいが、記述している内容が明瞭で職人芸が入りにくく、メンテナビリティを維持し易い。

入出力プラグインが多数公開されており、例えばPostreSQLの入力プラグインSQLServerの出力プラグインを組み合わせることでデータをPostgreSQLからSQLServerに移したり、巨大CSVファイルにあるデータをBigQueryに移したりなどが簡単に実現できる。

Embulkについては、WEB+DB PRESS Vol.92の特集2にも記載されている。

WEB+DB PRESS Vol.94

WEB+DB PRESS Vol.94

WEB+DB PRESS Vol.92

WEB+DB PRESS Vol.92

  • 作者: 近藤宇智朗,大和田純,谷口禎英,後藤利博,黒瀧悠太,山下和彦,河野匡貴,古橋貞之,瀬尾直利,菅原元気,吉川崇倫,鈴木康平,星北斗,三宅英明,長野雅広,のざきひろふみ,うらがみ,稲富駿,伊藤直也,うさみけんた,丸山晋平,中島聡,はまちや2,竹原,WEB+DB PRESS編集部
  • 出版社/メーカー: 技術評論社
  • 発売日: 2016/04/23
  • メディア: 大型本
  • この商品を含むブログを見る