端午节前自己写了一个爬取某网站关键字搜索结果下的所有图片的爬虫脚本,具体实现的原理大致就是利用正则匹配到图片所对应的地址,即img标签下的src 然后利用file_get_contents或者curl等方式get下来保存到本地,听起来挺简单,但具体做的时候还是有很多细节问题要解决的,因为要做一个类似的事情首先要分析所爬取的网站的规则是什么,不管是爬取图片还是调用对方的隐藏ajax接口等等,这都是要做的第一步,比如我所爬取的那个图片网站,是通过表单提交了一个get 还传了一个页码 那么这样我就能通过模拟url来获取所有搜索关键词下的页面 只需用一个循环让页码累加即可,比如这样
$page = 1;while($page<42){ $Info = file_get_contents("http://********/items/search?query=%E6%96%97%E5%9B%BE&p=".$page); $page = $page+1;}
这样就能获取到每一页,关于正则匹配 和如何保存到本地服务器自不必多说, 这种爬虫最关键的还是要根据目标网站的规则来设计。比如有的网站是用ajax触发的下拉分页,那你就要查看他的ajax发送的地址来处理数据。