写了个php脚本,自动抓取谷歌的搜索结果并过滤,不过老是出问题
这个百度就不会出问题,百度比较“友好”,不设置防机器人机制
经过测试,谷哥只屏蔽掉了类似”inurl:XXX”之类的语法
只要是这类语法,都会被跳转到验证页面,自然就无法抓取了
而且机制很细致,inurl后台跟冒号的话才会被跳,如”inurl%3A”,而”inur%3A”或”inurl3A”等会被认为普通搜索,不跳
看来只是防高级搜索技巧
不过解决方法也简单,传到国外服务器上使用就不被屏蔽了,可能是因为在中国,也可能因为没有独立IP
在想办法完美模拟浏览器进行抓取
