Pythonを使ったらWebスクレピング(狙ったWebサイトから、特定の文字列を抜き出すこと)が簡単に実現できる。
いろいろと方法はあるようだけど、一番学習コストが低くてサクッとできそうなので、Beautiful Soup(ビューティフル・スープ)を使ったスクリプトに挑戦。
参考サイトはこちら。コードもシンプルで素敵だし、解説も分かりやすくで参考になった。
【Webスクレイピング入門】Google検索の上位サイトを件数指定して表示する方法
一部だけ変更。抽出したURLに「&sa=U&」+α の文字列が表示されていて、そのままではURLをクリックしても「ページが表示されない」ので、当該文字列以降を除外して、URL抽出するようにした。
具体的には、以下の部分。(上の行:もともと、下の行:変更後)
#site_url = site["href"].replace("/url?q=", "")
site_url = site["href"].split("&sa=U&")[0].replace("/url?q=", "")
kCrYT の部分がサイトタイトルとURLのあるHTMLタグだとか、Google検索の仕様のようだが、調べるのに骨が折れそうなので、まとめてあるサイトがあって助かった。