Scrapy常见问题及解决方法。
- 403 Forbidden
可能是User Agent的问题,在settings.py
中配置USER_AGENT
- [DEBUG] 403 Forbidden by robots.txt
robots.txt
不让抓,直接忽略它即可。settings.py
中修改
ROBOTSTXT_OBEY = False
- 获取A链接的文本和链接
title = a1.css("::text").get()
# href = a1.css("::attr(href)").get()
# 两种方式都行,后者更简练
href = h2.attrib['href']