风哥教程

培训 . 交流 . 分享
Make progress together!

python的简单采集过程

[复制链接]
内容发布:suger| 发布时间:2021-3-11 17:36:27
首先,对于对于一个正常人获取网页内容,只需要3个步骤,(1)打开浏览器,输入URL,打开源网页
(2)选取我们想要的内容(3)存储到硬盘中。这三个过程,应用到技术层面上,其实就是:网络请求,抓取结构化数据,数据存储。我们使用Python写一个简单的程序,实现上面的简单抓取功能。
#! -*- encoding:utf-8 -*-  
   import requests   
import random   
  # 要访问的目标页面  
  targetUrl = "http://httpbin.org/ip"  
   # 要访问的目标HTTPS页面  
  # targetUrl = "https://httpbin.org/ip"   
  # 代理服务器(产品官网 www.16yun.cn)
   proxyHost = "t.16yun.cn"  
  proxyPort = "31111"  
   # 代理验证信息  
  proxyUser = "username"   
proxyPass = "password"  
   proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {      
"host" : proxyHost,   
    "port" : proxyPort,     
   "user" : proxyUser,     
   "pass" : proxyPass,    }   
  # 设置 http和https访问都是用HTTP代理  
  proxies = {        "http"  : proxyMeta,     
   "https" : proxyMeta,    }   
  #  设置IP切换头   
tunnel = random.randint(1,10000)  
  headers = {"Proxy-Tunnel": str(tunnel)}   
  resp = requests.get(targetUrl, proxies=proxies, headers=headers)  
   print resp.status_code   
print resp.text
这就是一个简单的爬虫入门的基础程序。实现一个采集过程,也是上面的几个基础步骤。但是实现一个强大的采集过程,你会遇到一些限制。比如:
1、一定时间内单个IP访问次数,一个正常用户访问网站,不会在一段持续时间内过快访问一个,持续时间也不会太长。针对这个限制我们可以采用大量高匿代理IP形成一个代理池,随机从代理池中选择优质代理ip,模拟访问。
2、账号的访问次数也是有限制的,如果一个正常账号一直在访问一个数据接口就会被当做机器人了,所以我们可以采用大量正常账号进行访问就可以了。
只要ip限制和账号限制搞定了,就解决了大部分阻碍了,其他的问题可以根据网站的限制采集反爬策略的升级。

回复

使用道具 举报

1框架
高级模式
B Color Image Link Quote Code Smilies |上传

本版积分规则

热门文章教程

  • 大数据技术与应用入门培训教程(电子版下载
  • Oracle 12cR2 九大新功能全面曝光_详解云数
  • Oracle OCP认证考试IZ0-053题库共712题数据
  • MySQL5权威指南(第3版)PDF电子版下载
  • 风哥Oracle数据库巡检工具V1.0(附2.6网页
  • Oracle19c数据库发布与下载地址
快速回复 返回顶部 返回列表