‘爬虫’ Articles at 小果冻之家

怎么防止网站/APP上的数据被爬虫抓取

2023-08-07 by ambiti

要防止网站/APP上的数据被爬虫抓取，可以采取以下几种措施：

1. 使用验证码：在用户登录、提交表单或进行敏感操作时，使用验证码来验证用户身份，以防止爬虫自动化攻击；

2. 需登录方可访问，提高抓取门槛；

Python爬虫框架Scrapy上手试用

2021-10-09 by ambiti

Python下有个爬虫框架，Scrapy，用来抓取页面比较方便，适用一些结构简单的网站。

[官方文档](https://docs.scrapy.org/)

Golang版爬虫

2019-03-31 by ambiti

自己用Golang写个小爬虫，作为Golang的练手项目。

功能需求

– [x] 页面抓取：内容、状态码
– [x] 页面内容解析：DOM、正则
– [x] 抓取深度控制
– [x] 抓取内容存储：文件、数据库
– [x] 并发处理控制
– [x] User-Agent
– [ ] 代理：设置、频繁更换
– [ ] 表单提交
– [ ] cookie处理：接收、发送

豫ICP备19001387号-1