目的

不登录,爬取tuniu网站部分页面数据

问题

python操作selenium,直接打开具体页面,页面为空,无内容

无内容原因:

  1. tuniu 采用了阿里云的前端安全验证 https://g.alicdn.com/sd/ncpc/nc.js
  2. cookie 关键值是 acw_sc__v3

解决办法:

  1. 使用未被收录特征的工具 利用google浏览器 打开 tuniu 首页
  2. 使用未被收录特征的工具 利用google浏览器 通过 tuniu 首页的h5的拖拽验证码 的验证,则此时浏览器会缓存一定有效期的 acw_sc__v3 cookie
  3. 在cookie默认有效期内,执行selenium相关代码(options.add_argument(user_data_dir)),这样selenium就不会被要求安全验证了。

标签: selenium

评论已关闭