博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
<马丁>关于爬虫脚本
阅读量:6853 次
发布时间:2019-06-26

本文共 592 字,大约阅读时间需要 1 分钟。

hot3.png

        端午节前自己写了一个爬取某网站关键字搜索结果下的所有图片的爬虫脚本,具体实现的原理大致就是利用正则匹配到图片所对应的地址,即img标签下的src 然后利用file_get_contents或者curl等方式get下来保存到本地,听起来挺简单,但具体做的时候还是有很多细节问题要解决的,因为要做一个类似的事情首先要分析所爬取的网站的规则是什么,不管是爬取图片还是调用对方的隐藏ajax接口等等,这都是要做的第一步,比如我所爬取的那个图片网站,是通过表单提交了一个get 还传了一个页码 那么这样我就能通过模拟url来获取所有搜索关键词下的页面  只需用一个循环让页码累加即可,比如这样

$page = 1;while($page<42){    $Info = file_get_contents("http://********/items/search?query=%E6%96%97%E5%9B%BE&p=".$page);       $page = $page+1;}

 这样就能获取到每一页,关于正则匹配   和如何保存到本地服务器自不必多说,  这种爬虫最关键的还是要根据目标网站的规则来设计。比如有的网站是用ajax触发的下拉分页,那你就要查看他的ajax发送的地址来处理数据。

转载于:https://my.oschina.net/guoying1024/blog/689979

你可能感兴趣的文章
信息安全的“无间道” 如何严防内鬼?
查看>>
云计算容器服务该何去何从
查看>>
Python操作MySQL基本环境搭建及增删改查实现
查看>>
Hacking Team事件导致一名韩国情报官员死亡
查看>>
高通肯花300亿美元收购恩智浦吗?
查看>>
英国Ofcom确定物联网频段 充分利用VHF甚高频部分频段
查看>>
《Linux内核精髓:精通Linux内核必会的75个绝技》一HACK #6 使用localmodconfig缩短编译时间...
查看>>
CNCC 2016 | 南京大学黄宜华教授 50 张 PPT 剖析 Alluxio 及其应用
查看>>
盘点:视频监控行业的潜在商机
查看>>
机器视觉在安防行业是如何应用的
查看>>
IIS URL Rewrite 重定向域名到www
查看>>
Generating Text with Deep Reinforcement Learning
查看>>
如果你没被WannaCry感染就一定要小心Adylkuzz
查看>>
HR:2017/2018年数据中心驱动400Gbps部署
查看>>
单元测试覆盖工具coverlipse
查看>>
Jmeter分布式部署文档
查看>>
微软打算用DNA存储数据 但成本和速度仍是个大问题
查看>>
使用Java向properties存数据
查看>>
产能过剩的光伏电池,是否还是未来的朝阳产业?
查看>>
如何在SaaS企业及服务市场上站稳脚跟
查看>>