首先我们先看下目标网站
OK 页面上的数据就是我们要的数据
这就是个get请求吗 有什么难的 直接上代码
def parseUrl():
response = requests.get(url)
print(response.status_code)
try:
assert response.status_code == 200
html = etree.HTML(response.text)
result = etree.tostring(html, encoding='utf-8')
print(result)
except Exception as e:
print(e)
if __name__ == '__main__':
parseUrl()
一看返回的状态码 403
纳尼 到底什么情况 为什么浏览器就能看到数据
而代码就没有数据呢
是不是对方已经知道我们是个爬虫
那他是通过什么来知道呢
那肯定是User-Agent
那我们添加User-Agent 是不是就可以拿到我们想要的数据了呢
直接添加 莽就完事了
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
"Chrome/83.0.4103.116 Safari/537.36"}
def parseUrl():
response = requests.get(url,headers=headers)
print(response.status_code)
try:
assert response.status_code == 200
print(response.text)
except Exception as e:
print(e)
if __name__ == '__main__':
parseUrl()
我们看下返回结果 状态码 200
内容也已经获取到了