RubyでMechanizeを利用してWebスクレイピングする方法について解説します。
Rubyについてそもそもよく分からないという方は、Rubyとは何なのか解説した記事をまずご覧ください。
なお本記事は、TechAcademyのWebアプリケーションオンラインブートキャンプの内容をもとに紹介しています。
今回は、Rubyに関する内容だね!
どういう内容でしょうか?
Mechanizeを利用してWebスクレイピングする方法について詳しく説明していくね!
お願いします!
Mechanizeとは
MechanaizeとはスクレイピングするためのRubyのライブラリーです。他にnokogiriというスクレイピングするライブラリーもあります。
ここにいうスクレイピングとはweb情報を取得したり、加工したりして使用することです。今回はこのMechanaizeというライブラリーを使用してスクレイピングする方法を紹介していきます。
Mechanizeのインストール
まず、Mechanizeのライブラリーを使うために、gem install mechanize でインストールをしましょう。
Gemファイルに書いてインストールする場合はGemファイルに、source “https://rubygems.org” gem “mechanize” を記載して、bundle install を実行することによってインストールできます。
Mechanizeを利用してWebスクレイピングする方法
では、Mechanize を使用して実際にスクレイピングしてみましょう。ファイルに以下のように書いてみてください。
require 'mechanize' agent = Mechanize.new page = agent.get('https://techacademy.jp/') p page.links
ライブラリーとして使いますので、require ‘machanize’ を書きましょう。このファイルを実行してみます。linksはページ全体のリンクのリストが全部取得できます。
#=> ................................ [#<Mechanize::Page::Link "TechAcademy" "/"> , #<Mechanize::Page::Link "コース" "#"> , #<Mechanize::Page::Link "プログラミング" "/programming"> , #<Mechanize::Page::Link "Webアプリケーションコース" "/rails-bootcamp"> , #<Mechanize::Page::Link "PHP/Laravelコース" "/php-bootcamp"> , #<Mechanize::Page::Link "Javaコース" "/java-bootcamp"> , #<Mechanize::Page::Link "フロントエンドコース" "/frontend-bootcamp"> ..................................
以上のようにページ全体のリンクの情報が取得できていますね。
今回はページ内のリンク情報を取得する方法で紹介しましたが、他にもいろいろな情報を取得することもできますので、調べてみると良いでしょう。
筆者プロフィール
町田 耕
学生時代は会計学専攻。塾講師勤務を経て、企業のCFOとして会社経営に携わる。 会社経営から一線を退いた後、インフラエンジニアの妻の勧めでプログラミングを 独学で始め、プログラミングセミナーなど転々としながら、開発案件に携わるようになる。 現在、フリーランスとして活動しながらテックアカデミーのメンターも勤めている。 |
内容分かりやすくて良かったです!
ゆかりちゃんも分からないことがあったら質問してね!
分かりました。ありがとうございます!
TechAcademyでは初心者でも最短4週間でエンジニアになれるRuby on Railsオンラインブートキャンプを開催しています。
現役エンジニアがパーソナルメンターとして受講生に1人ずつつき、マンツーマンのメンタリングで学習をサポートし、最短4週間でオリジナルWebサービスを開発することが可能です。
また、現役エンジニアから学べる無料のプログラミング体験会も実施しているので、ぜひ参加してみてください。
情報提供元:TechAcademyマガジン
記事名:「RubyでMechanizeを利用してWebスクレイピングする方法を現役エンジニアが解説【初心者向け】」