本-Pythonクローリング&スクレイピング

P123 Pythonからメールを送信する

・emailモジュールとsmtplibモジュールを利用 ・SMTPサーバとしてGmailのサーバーを使うのがお手軽であるが、認証が必要で、さらにTLS/SSL利用が必須なのでSMTPの代わりにSMTP_SSLを利用する必要が有 ・OP25Bに対応するためにはP323の様な実装が必要Pythonク…

P122 Voluptuous

Pythonの基本的なデータ型を定義できるライブラリ Schemaオブジェクトでスキーマを定義し、関数として呼び出すことで引数のオブジェクトのバリデーションを実施可能Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド-作者: 加藤耕…

P117 @retryデコレーター

リトライ処理を簡潔に書けるライブラリ # stop_max_attempt_number:最大リトライ回数 # wait_exponential_multiplier:指数回数的(1,2,4,8…)なwaitを仕掛ける事ができ、初回のウェイトをミリ秒単位で指定 @retry(stop_max_attempt_number=3, wait_exponennti…

P109 robots.txtとrobots metaタグ

robots.txtやrobots metaタグは、拘束力のない紳士協定です。これらの指示に従うかどうかは、クローラ作成者が決められます。 相手のWebサイトに迷惑をかけないようにするため、クローラーを作成する際には、これらの指示に従うべきである。なお、上記背景よ…

P90 パーマリンク

1つのコンテンツに田老牛、時間が経っても対応するコンテンツが変わらないURLをパーマリンク[Permalink]と呼びます。不変のという意味とリンクを組み合わせた言葉です。 パーマリンクを持つWebサイトは、Googleなどの検索エンジンのクローラーがコンテンツを…

P88 URLの構造

URLの部分 説明 スキーム httpやhttpsのようにプロトコルを表す。 オーソリティ //のあとに続き、通常ホスト名を表す。ユーザー名やパスワード、ポート番号を含む場合もある。 パス /で始まり、そのホストにおけるリソースのパスを表す。 クエリ ?のあとに続…

P22 Microdata

HTML中に検索エンジンなどのロボットにも読みやすいメタデータを埋め込むための規格https://html.spec.whatwg.org/multipage/microdata.html Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド-作者: 加藤耕太出版社/メーカー: 技…

P3 pythonの有名なライブラリ

・NumPy(数値計算) ・SciPy(科学技術計算) ・pandas(データ解析) ・matplotlib(グラフ表示) ・scikit-learn(機械学習) ・Requests(HTTP) ・Django,Flask(Webアプリケーションフレームワーク) ・Beautiful Soup,lxml(スクレイピングライブラリ) ・Scrapy(クロ…

P3 クローリングとスクレイピング

・クローリング Webページのハイパーリンクをたどって次々にWebページをダウンロードする作業・スクレイピング ダウンロードしたWebページから必要な情報を抜き出す作業Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド-作者: 加…