日別アーカイブ: 2022年4月26日

pythonを使ったGoogle検索結果のWebスクレイピング にトライ。

Pythonを使ったらWebスクレピング(狙ったWebサイトから、特定の文字列を抜き出すこと)が簡単に実現できる。

いろいろと方法はあるようだけど、一番学習コストが低くてサクッとできそうなので、Beautiful Soup(ビューティフル・スープ)を使ったスクリプトに挑戦

参考サイトはこちら。コードもシンプルで素敵だし、解説も分かりやすくで参考になった。

【Webスクレイピング入門】Google検索の上位サイトを件数指定して表示する方法

一部だけ変更。抽出したURLに「&sa=U&」+α の文字列が表示されていて、そのままではURLをクリックしても「ページが表示されない」ので、当該文字列以降を除外して、URL抽出するようにした。

具体的には、以下の部分。(上の行:もともと、下の行:変更後)

#site_url = site["href"].replace("/url?q=", "")
site_url = site["href"].split("&sa=U&")[0].replace("/url?q=", "")

kCrYT の部分がサイトタイトルとURLのあるHTMLタグだとか、Google検索の仕様のようだが、調べるのに骨が折れそうなので、まとめてあるサイトがあって助かった。