本-WEB+DB PRESS Vol.94

P171 Digdag

Embulkとの併用を視野に開発されたワークフローエンジン Embulk単体では、スケジュール実行や複数のタスクをまとめて実行する実行基盤に相当する機能が不足しているが、Digdagはそれをカバーするために開発されたといっても過言ではない。 Embulkと同様にTre…

P166 Embulk

データをある場所から別の場所へまとめて転送するバルクローダ データを転送する際に、途中でのデータの変換、エラーリカバリ、並列読み出しなどを担う ユースケースとしては、基幹系から分析系への移動などEmbulkは、Fluentdを開発したTreasure Dataによっ…

P165 Re:dash

OSSのBIツール Re:dashから各種データソースに接続して、そこにあるデータを利用したグラフやダッシュボードを作成可能 データソースは、PostgreSQL、MySQL、SQL Serverなどの各種RDBMSだけでなく、Amazon Redshift、Google BigQueryなどのビックデータも利…

P38 AWSでオートスケールを行う方法

AWSでオートスケールを行うには、Auto ScalingグループというEC2のインスタンスを束ねる集合を定義し、そのグループごとに以下の設定を行う必要がある。 ・インスタンス台数の最小(min)、最大(max)、希望(desired) できるだけ希望台数を維持しようとする ・…

P34 メモリ使用率

Free buffers×innodb_page_sizeがbuffer poolのサイズとなる。 但し、Free buffersが0になったからといって、すぐにパフォーマンス劣化するとは限らない。 しかし、できる限りbuffer poolが溢れないようにする事が望ましい。[ワンライナー] mysql -u hoge -p…

P33 コネクション数

最大コネクションの確認は、max_connectionsというシステム変数で決定する。 接続中のコネクション数は、Threads_connectedというキーワードで確認できる。 なお、RDS for MySQLやAuroraの場合は、デフォルトではメモリ容量から最大コネクション数が決まる様…

P32 発行されるクエリの数

クエリ数を計測しておくと、既存コードの修正やリリースした際に、どの程度増減したかを観測できる。 繰り返し取得する事で、その差分を算出すれば、区間時間内のクエリ実行数を算出することも可能である。[ワンライナー] mysql -u hoge -ppassword -ppasswo…

P23 ビジーなワーカー数

Apacheでは、mod-statusを有効にして、BusyWorkersという項目を確認する。nginxではngx-http-stub-status-moduleを組み込んだ状態でstub-statusディレクティブを有効にして、Writingという項目を確認する。WEB+DB PRESS Vol.94作者: 藤原俊一郎,朽木拓,八木…

P21 Norikra

ストリーミング処理エンジンfluentdやLogstash, Beatsなどを用いて順次送り込まれてくるログを、SQLを用いて柔軟な抽出、集計処理が可能[利点] ・大量のログを少ない台数で処理可能 ・クエリの反映を無停止で可能(fluentdは再起動が必要) ・複雑な条件も記…

P11 AWSとVPSとの比較

価格面はVPSの代表的なさくらやConohaなどの方が圧倒的に安い。 同レベルのインスタンスで価格が約5〜10倍位違う。 (どちらもフルで動かしたと仮定した場合) また、AWSは下りの転送料が0.14ドル/GB発生するが、だいたいのVPSは数TBの無料転送枠が付いてくる…

P4 プロダクトアンチパターン

@higeponさん継続は力なり 第二回 ・ABCDEFGHテスト問題自信がないから全部試そうでは駄目 ・設定地獄問題そもそも全ての人に受け入れてもらうものは作れない。 ペルソナを定義して、ある程度は切り捨てないと、誰も触らない設定だらけになってしまう。 ・パ…