日別アーカイブ: 2022年4月28日

Python, スクレイピングについて考えたこと。そして、Feedlyを試してみる。

Python で、簡単なスクレイピングを組んでみた。使えそうだし、やっぱりプログラミングって楽しい。

単に、自分のローカルマシン(実行させているノートPC)だけで使うのではなくて、友達とか、会社のチームメンバとかにも使ってほしいと思ったので、Flask で Webアプリ開発でもやってみようと考えた

Flask の基礎の基礎は勉強済み。超簡単なサイトも作成。

そして、いざスクレイピングするWebアプリを作ろうとしたところで、ふと考えた。

今のスクレピングは、指定のGoogle検索結果を一覧表示するものだけど、もともと思い描いていた効果が、思ったほど得られない気がする、と

そもそも、スクレイピングは、①ワードを指定する、②指定されたワードについてデータを集める、③集めたデータを加工する、という目的で開発されるのが基本だ。

特に「③集めたデータを加工する」という部分がポイントで、例えば、Nampyを使って分析するとか、AIに食べさせるために加工するとか、そういうことがポイントだと今は理解している。

なので、今回のスクレピングの結果が、なんだか物足りなく感じてしまった。

さて、ではどうするか。自治体の公募情報を集めるとかだと、おもしろいし、仕事にも活用できるし、検索するのが面倒=スクリプト化する意義が高いので、やってみようかと考えた。

が、各自治体で、公表するしない、公表の仕方、使っている文言の違いなど、ゆらぎが多くって、スクリプトとして吸収するのが面倒だということが発覚。

これはこれで良い知見を得たのだが、今の僕の状況を考えると、開発に踏み切るのは後回しにしたいところ。

ということで、スクレピングの開発は一旦終了とした。スクレイピングのことを考えたおかげで以前よりも理解が深まったのは、とても良いことだと思う。スキルアップできた。

さて、それはそれとして、各自治体の公募情報はほしい。なんとかならないものか…。

考えた結果「RSSの活用」が頭に浮かんだ。最近はあまり活用されていないかもしれないが、改めて活用してみる=使えるのか検証してみるのも良さそうだ。

Feedlyというサービスが今のメジャーらしいので、早速使ってみることにする。結果が楽しみだ。

【参考サイト】Feedly