有没有比较好的防止采集的思路或代码
By
ivanilla
at 2016-05-17 • 0人收藏 • 4901人看过
我的CMS打算加入此功能,在尽量不影响收录的前提下,提高采集的难度,因为无法完全防止。
@lincanbin
20 个回复 | 最后更新于 2016-05-26
回复#8 @lincanbin :
我明白你的意思了:
现有的采集程序一般是按顺序抓取目标网站的内容,然后提取出正文信息。
如果网站的文章或者其他内容是有规律的(比如1、2、3…….html,DZ论坛固定的伪静态URL),又或者是WP那种固定链接格式(如按照日期、文章标题等)都可以通过采集程序去匹配抓取,如果是用GUID这种随机且唯一的链接形式就可以防止这种抓取方法。
不过我不清楚这样会不会对SEO有一定的影响。
另外我打算加入UA白名单,只允许浏览器和搜索引擎的UA,其他的UA全部403,这样可以防止那些不能改UA的抓站工具、恶意爬虫/蜘蛛、漏洞扫描工具等来采集信息。
登录后方可回帖
GUID主键
单IP读取频率限制
代码中间加入辣鸡字符,以CSS样式控制为不显示