クロール&スクレイピングの練習を兼ねて、OGPを利用したまとめサイトのようなWEBサイトを作る計画を立てたことがあったんですが、規約周りが怖いので自分なりにまとめたメモです。
最終的には、まとめたい対象が某アイドルだったこともあり、著作権・肖像権まわりが怖いのでボツ案としました。
※2021年2月頃に調べた内容なので、現在は変わっている情報もあるかもしれません。
robots.txtには従うべき。
- ニュースサイトはrobots.txtや利用規約でクロール禁止している場合が多そう。
- 「/news_id/」(ナタリー)「/artist/」(ユニバーサルミュージック)など、実際のURLではないけど該当のページをまとめてDisallow指定しているような意図を感じる記載もある。意図を汲んでクロール禁止と見なすべきだと思う。
- こういうのはrobots.txtのパースで自動判定から漏れちゃいそうだから目視がベストなのか?
Webスクレイピングする際のルールとPythonによる規約の読み込み - Stimulator
- 機械学習利用や、完全な個人利用目的では、スクレイピングに関しては制約はゆるそう。個人利用目的でもクロールが禁止されている場合は利用を避けるべき。
OGPを利用することについて
- リンクを貼ること自体に違法性はない。
- OGP自体に著作性が認められれば、違法となる可能性はあるけど、今のところ著作権侵害で罰を受けた判例がない。
- SNSなどでシェアされることを前提としている情報なので、転載の許可が出ていると解釈はできる(SNSと個人サイトは別物だとは言えるかも)
- 画像を自サーバーとかにダウンロードして表示するのは複製にあたるので完全NGだが、OGP情報をそのまま表示すること自体には現段階では違法性はない?
その他参考サイト
【スクレイピング】違法にならないサービスパターン5選 | PigData
- まとめサイトは転載元にリンクつけるなど引用と認められる範囲ならOKの認識。
0 件のコメント:
コメントを投稿