クロール&スクレイピングの可否について

create 2021/08/13

Python クロール スクレイピング 勉強メモ

t f B! P L

クロール&スクレイピングの練習を兼ねて、OGPを利用したまとめサイトのようなWEBサイトを作る計画を立てたことがあったんですが、規約周りが怖いので自分なりにまとめたメモです。

最終的には、まとめたい対象が某アイドルだったこともあり、著作権・肖像権まわりが怖いのでボツ案としました。

※2021年2月頃に調べた内容なので、現在は変わっている情報もあるかもしれません。

robots.txtには従うべき。

  • ニュースサイトはrobots.txtや利用規約でクロール禁止している場合が多そう。
  • 「/news_id/」(ナタリー)「/artist/」(ユニバーサルミュージック)など、実際のURLではないけど該当のページをまとめてDisallow指定しているような意図を感じる記載もある。意図を汲んでクロール禁止と見なすべきだと思う。
  • こういうのはrobots.txtのパースで自動判定から漏れちゃいそうだから目視がベストなのか?

Webスクレイピングする際のルールとPythonによる規約の読み込み - Stimulator

  • 機械学習利用や、完全な個人利用目的では、スクレイピングに関しては制約はゆるそう。個人利用目的でもクロールが禁止されている場合は利用を避けるべき。

OGPを利用することについて

  • リンクを貼ること自体に違法性はない。
  • OGP自体に著作性が認められれば、違法となる可能性はあるけど、今のところ著作権侵害で罰を受けた判例がない。
  • SNSなどでシェアされることを前提としている情報なので、転載の許可が出ていると解釈はできる(SNSと個人サイトは別物だとは言えるかも)
  • 画像を自サーバーとかにダウンロードして表示するのは複製にあたるので完全NGだが、OGP情報をそのまま表示すること自体には現段階では違法性はない?

OGPと著作権とインラインリンクと著作権法 旧47条の6

その他参考サイト

【スクレイピング】違法にならないサービスパターン5選 | PigData

  • まとめサイトは転載元にリンクつけるなど引用と認められる範囲ならOKの認識。

このブログを検索

自己紹介

自分の写真
Pythonが趣味です。 勉強のアウトプットを公開したくて、新たにブログ開設しました。 勉強メモのつもりだけど、日常の雑記も書きたい予定。

独学中の身で、個人的な勉強メモも投稿しているので、間違った内容が含まれることもあるかもしれません。
お気づきの際は、問い合わせフォームや、コメント欄からご指摘いただけましたら、大変助かります。

旧ブログ(更新停止中。いずれ統合するかも)ゆーるるのゆるゆる日記

参加中ランキング

PVアクセスランキング にほんブログ村

ブログ アーカイブ

QooQ