博客
关于我
Request模块实战02 --- 实现简易网页采集器(UA伪装反爬策略、处理有参数url)
阅读量:327 次
发布时间:2019-03-04

本文共 1490 字,大约阅读时间需要 4 分钟。

Request模块实战:简易网页采集器的实现

目录

  • 反爬机制
  • UA伪装
  • 网页采集器
  • 代码实现
  • 解析

一、反爬机制

反爬机制是为了防止爬虫对网站造成过度访问压力而设置的保护措施。常见的反爬方法包括通过UA识别爬虫、监控访问频率、利用Cookie和验证码等。

UA识别爬虫

UA(User Agent)是浏览器请求的身份标识。许多网站会通过UA判断请求是否来自爬虫。爬虫脚本通常会伪装成浏览器,但这也使得反爬机制难以完全阻止爬虫。

访问频率识别

爬虫为了提高效率,通常会在短时间内多次访问同一目标网站。通过监控单IP的访问频率,可以识别出异常的爬虫行为。

Cookie和验证码

Cookie可以用来限制账号的抓取频率,而验证码则可以通过随机性阻止爬虫程序正常执行。


二、UA伪装

UA伪装是一种常用的反爬策略。通过伪装爬虫请求的UA为某款浏览器,可以让目标网站无法识别爬虫行为。

UA的作用

UA是浏览器请求的身份标志。服务器可以通过UA判断请求是否来自浏览器或爬虫程序。爬虫程序通过伪装UA为浏览器可隐藏其爬虫身份。

反爬机制

某些网站会通过UA识别爬虫请求并拒绝数据提供。

反爬策略

通过伪装爬虫请求的UA为某款浏览器,可以有效突破部分反爬机制。


三、网页采集器

网页采集器是一种利用爬虫技术实现定向网页信息抓取的工具。它类似于数据转换器,通过代码与网络数据进行互动。


四、代码实现

以下是实现简易网页采集器的Python代码示例:

import requests# 设置伪装的User-Agentheaders = {    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36'}# 输入要爬取的关键词keyword = input('请输入要爬取的关键词:')# 爬取的URLurl = 'https://www.sogou.com/web?'# 发送请求response = requests.get(url=url, params={'query': keyword}, headers=headers)# 获取响应内容page_content = response.text# 存储爬取结果filename = keyword + '.html'with open('data/' + filename, 'w', 'utf-8') as fp:    fp.write(page_content)print(f'{filename} 保存成功,爬取数据已完成!')

解析

UA伪装

通过将爬虫请求的UA设置为常见浏览器的标识,可以让目标网站难以识别爬虫行为。

URL参数处理

代码中通过params参数将关键词传递给目标URL,并处理了URL中的查询参数。

请求与响应

通过requests.get方法发送请求,并获取了服务器返回的网页内容。

数据持久化

爬取到的网页内容以文件形式存储,方便后续使用或查看。


运行说明

  • 输入关键词:程序会提示用户输入要爬取的关键词。
  • 发送请求:程序会使用伪装后的UA发送请求,携带关键词参数。
  • 获取内容:程序会将服务器返回的网页内容提取出来。
  • 存储文件:爬取到的网页内容会以文件名.html的形式保存到data目录下。

  • 测试结果

    打开保存的HTML文件,查看内容是否与目标网页一致。通过F12开发者工具可以查看爬虫请求的实际UA和参数。

    转载地址:http://fweq.baihongyu.com/

    你可能感兴趣的文章
    Nginx配置如何一键生成
    查看>>
    Nginx配置实例-负载均衡实例:平均访问多台服务器
    查看>>
    NHibernate学习[1]
    查看>>
    NIFI1.21.0通过Postgresql11的CDC逻辑复制槽实现_指定表多表增量同步_增删改数据分发及删除数据实时同步_通过分页解决变更记录过大问题_02----大数据之Nifi工作笔记0054
    查看>>
    NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_配置binlog_使用处理器抓取binlog数据_实际操作01---大数据之Nifi工作笔记0040
    查看>>
    NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_配置数据路由_实现数据插入数据到目标数据库_实际操作03---大数据之Nifi工作笔记0042
    查看>>
    NIFI同步MySql数据_到SqlServer_错误_驱动程序无法通过使用安全套接字层(SSL)加密与SQL Server_Navicat连接SqlServer---大数据之Nifi工作笔记0047
    查看>>
    Nifi同步过程中报错create_time字段找不到_实际目标表和源表中没有这个字段---大数据之Nifi工作笔记0066
    查看>>
    NIFI大数据进阶_离线同步MySql数据到HDFS_02_实际操作_splitjson处理器_puthdfs处理器_querydatabasetable处理器---大数据之Nifi工作笔记0030
    查看>>
    NIFI大数据进阶_连接与关系_设置数据流负载均衡_设置背压_设置展现弯曲_介绍以及实际操作---大数据之Nifi工作笔记0027
    查看>>
    NIFI数据库同步_多表_特定表同时同步_实际操作_MySqlToMysql_可推广到其他数据库_Postgresql_Hbase_SqlServer等----大数据之Nifi工作笔记0053
    查看>>
    NIFI汉化_替换logo_二次开发_Idea编译NIFI最新源码_详细过程记录_全解析_Maven编译NIFI避坑指南001---大数据之Nifi工作笔记0068
    查看>>
    NIFI集群_内存溢出_CPU占用100%修复_GC overhead limit exceeded_NIFI: out of memory error ---大数据之Nifi工作笔记0017
    查看>>
    NIFI集群_队列Queue中数据无法清空_清除队列数据报错_无法删除queue_解决_集群中机器交替重启删除---大数据之Nifi工作笔记0061
    查看>>
    NIH发布包含10600张CT图像数据库 为AI算法测试铺路
    查看>>
    Nim教程【十二】
    查看>>
    Nim游戏
    查看>>
    NIO ByteBuffer实现原理
    查看>>
    Nio ByteBuffer组件读写指针切换原理与常用方法
    查看>>
    NIO Selector实现原理
    查看>>