- 更新日: 2017年02月27日
- 公開日: 2017年02月24日
Web マーケターのスキルアップに!Web スクレイピングとは
Web にアプリ、SNS に人工知能、日々進化し、増え続けるデータを元に、的確なマーケティングを行い、成果を上げ続けることは容易なことではありません。またマーケターの仕事は、SEOに広告戦略、アナリティクス分析、対策レポート作成など日々の業務も膨大です。
そんな忙しい Web マーケティング担当者を助けてくれるツールに Web スクレイピング(Web Scraping) があります。ネット上に蓄積されたデータを元に、新たな統計を生み出し、マーケティングの可能性を拡げてくれる Web スクレイピング。
今回は、Web マーケティング担当者が知っておきたい スクレイピング についてご紹介します。
Web マーケターのスキルアップに!Web スクレイピングとは
Webスクレイピングの概要
Web スクレイピングとは、Web に公開されているデータを引用し、データ収集したり、自社および自分の管理する Web サイトやアプリに利用することができます*。
第三者のデータを利用することで次のようなメリットが考えられます。
- 自社にはない情報を取得できる
- 競合他社の価格リストなどを素早く入手できる
- アプリ開発に応用できる
1 の情報取得について
例えば、口コミサイトなどに掲載されている自社の評価を引用することができます*。
試しに、プログラミング教室の評価サイト プロスタから CodeCamp の口コミダイジェストを引用してみると、下記のようになります。このように第3者による評価を掲載することで、サービス価値を高めることに期待できます(例えばです)。
引用元:プロスタ (著作権法第47条の7*情報解析のための複製等より合法と判断し、本事例を紹介します)
他には、Facebook の いいね! 数を抽出し、比較データに活用することができます。
2の価格リストについて
ECサイト運営者、マーケティング担当者にとって必要な競合他社の価格や商品ラインナップのデータを素早く入手でき、データ活用することができます。例えば、こちらでは Python 言語を使って amazon の商品情報を入手しています。
3のアプリ開発について
最近話題の家計簿アプリにもスクレイピングは活用されているようです。
*Web スクレイピングは、著作権法に抵触する場合があります。下記に記載する「スクレイピングの注意点」をご参照ください。
スクレイピングと似たような技術との違い
第三者のデータを引用する方法は、スクレイピングだけではありません。代表的なものは下記4点が考えられます。
- HTML の iframe タグ
- API
- 専門のデータサービス
- Web スクレイピング Web スクレイピングを使うケースとしては、データ元が API を用意・公開していなく、それでもそこにあるデータを使いたい場合です。
スクレイピングのやり方
Web スクレイピングを利用する方法は、3つあります。
- 有料のサービスを使う
- 無料のサービスを使う
- 自分でプログラムして、スクレイピングする
コスト | 応用性 | プログラミング力 | |
有料のサービスを使う | $99 - $799/月* | △ | ほぼ必要なし |
無料のサービスを使う | 0 | △ | HTML、CSS |
自分でプログラミング | 0 | ○ | 必要 |
有料サービス例/import.io、WebHarvy
現在無料サービスは、Google Chrome の拡張機能『Scraper』と WordPress のプラグイン『WP Web Scraper』の2種類が確認できます。
Chrome については私の場合起動できず、WordPressについては 1要素のデータのみ抽出することができました。いずれの場合も、HTML と CSS の知識は必要となります。
自分でプログラミングする場合は、ある程度プログラミングの知識は必要となりますが、ネット上にあるサンプルを参考にすればプログラミング初心者の方でも決して無理なことではありません。
まずスクレイピングできる主なプログラミング言語は、以下のようになります。
- JavaSript(Node.js)
- Python
- R
- PHP
- Ruby
- Java
- Perl
- C# ほとんどの言語でスクレイピング用のライブラリが用意されていますので、比較的簡単にスクレイピングを楽しむことができます。 私は プログラミング & スクレイピング初心者 ですが、スクレイピングできました。
【マルチ・スクレイピング】人気アプリを使う人が使うアプリをリストアップ
スクレイピングするデータ
可能性 iTunes のアフィリエイトに応用し、収益化を狙える?
実行結果
参考/「Crawl the Web With Python」 by Derek Jensen
スクレイピングの注意点
img : USA Network
スクレイピングを始める前に以下の 3点を注意する必要があります。
- API はないか
- 著作権に抵触しないか
- アクセス先へ負荷がかかり過ぎないか こちらの注意点については、東北ギークさんの記事が参考になります。
東北ギーク『Webスクレイピングのノウハウを公開します』
実際にあったスクレイピング事件やあれこれ
自社サイトをスクレイピングされないように阻止するツール例
- Distil
- ScrapeSentry
- Web Application Firewall(StackPath)
\AIエンジニアに必要なスキルが身に付く/
まとめ
いかがでしたでしょうか?スクレイピング、やってみたくなりましたでしょうか?
私自身今回スクレイピングのために、はじめて Python を使いましたが、サンプルコードがあってもうまく起動せず、○○時間はまっていました。結局インデント(スペース)が正しくない、というだけの単純ミスでした。あぁ〜やっぱり基礎は大事だな、と思いました。
- この記事を書いた人
- オシママサラ