スクレイピング と クローリング [注意点あり]

この記事は約2分で読めます。

 

今回は スクレイピング と クローリング について、基本的な仕組みをご紹介します。

スクレイピング とは

スクレイピングとは、HTMLから任意の情報を取得することです。

いつも見るWebサイトは全てこの記法で書かれていて、

それを、ブラウザが解釈して、普段見るような画面になるのです。

 

スクレイピングは、このHTMLから、欲しい情報を取り出すプログラムを書きます。

[ Golang ] Go 言語入門~ Web スクレイピング ~

以前書いたこの記事は、まさにWebサイトから、HTMLファイルを取得し、解析しています。

 

クローリング とは

クローリングとは、Webサイトのリンクを巡回して、Webページの情報を取得する技術のことです。

 

例えば、googleの検索結果一覧をプログラムで取得する行為のようなことを言います。

検索結果もHTMLでできているため、実際、上のスクレイピングと同じ処理を行い、リンクを取得していきます。

注意点

これらの利用には注意点が存在します。

  • サーバに負荷をかける
  • 情報の著作権や利用規約

まず、プログラムだと、かなり多くのアクセスが可能になるので、Webサイトを公開しているサーバに負荷をかけてしまう可能性があります。

2010年にLibrahack事件というのがあります。これは、岡山県のある図書館の検索サイトの使い勝手が良くないと思った人が、検索サイトをクローリングとスクレイピングを行い、別の検索サイトを作りました。この際に行った、データ取得によって、検索システムに執拗にリクエストを送りつけたものとして偽計業務妨害容疑で逮捕されました。

このように、相手のサーバに負荷をかける可能性があるので、気をつける必要があります。

次に、

情報の著作権や利用規約ですが、Webに上がっている情報にも、著作権がかかる場合があるので、そうなると原則違法となってしまいます。

利用には十分ご注意ください

まとめ

今回は、技術の前に、スクレイピングやクローリングについて、そして注意点について簡単にまとめました。

 

ここで基礎知識を理解した上で、ぜひ、スクレイピングを試してみてください!

その際、Goでやってみると、Goが好きになります!笑

 

[ Golang ] Go 言語入門~ Web スクレイピング ~
今回は、Go言語を用いて、Webスクレイピングのプログラムを実装します。プログラムを使って、webにアクセスし、取得したデータを見やすいように整形します。webの仕組みを理解する時に、とても勉強になると思います。

 

タイトルとURLをコピーしました