今天


小帅b想给大家讲一个小明的小故事







话说


在很久很久以前


小明不小心发现了一个叫做


学习python的正确姿势


的公众号


从此一发不可收拾


看到什么网站都想爬取



有一天


小明发现了一个小黄网


里面的小姐姐


一个比一个诱人


看了一会这个小黄网


小明不知道在倒腾什么


反正30秒之后小明虎躯一震



….



那天晚上


小明躺在床上


夜不能寐


脑子一直都停留在那个


突然灵光一闪


我这不是刚学了爬虫技术么


我应该把那个网站上的小姐姐都爬取到自己的电脑啊


就算下次那个没了


自己也还有东西可看


真是佩服自己的机智啊



…..


第二天小明就开始爬取


小明使用


python爬虫入门01:教你在 Chrome 浏览器轻松抓包


抓了一下数据的请求


然后用


python爬虫04 | 长江后浪推前浪,Reuqests库把urllib库拍在沙滩上


开启一顿的骚操作




哎~


小明还是太年轻了


这时候网络运维人员看到了自己的服务器


“瓦里割草”


怎么突然被疯狂的请求?


赶紧看一下日志


妈的,都是同一个 IP


谁他妈闲着没事来搞我?


小伙再定睛一看


我去, user-agent 是 python 程序


把小伙子给气的啊


直接把对方的 ip 地址给封了(加入黑名单)



….



小明本来以为一切都能按自己计划行事


没想到突然中断了


小明重新运行了一下程序


发现完全无法连接了


以为是自己的网络断了


可是自己上百度是可以的啊


后来突然想到


好像之前 小帅b 说过


爬虫要学会伪装,要不然很容易被对方识破的



….


原来如此


小明使用了代理ip


user-agent 设置为 Chrome 浏览器


然后又开始一顿的爬取了


还特么开启了多线程



….



运维人员又发现不对劲


妈的


这数据不正常,这不正常


肯定有人又来搞事情了


然后就把网站设置为只有登录的人才可以获取数据


…..



小明发现了


觉得这是小意思


在这个网站注册了账号


然后设置了相应的cookie


继续爬!


….


没过多久


小明的手机突然响了


小明以为是自己的外卖到了


拿起电话就说:来了~


结果没想到的是


手机那边传来:wcnmlgb!你他妈再爬你看我不弄死你


吓得小明差点yw



挖槽


原来刚刚自己注册的是自己的手机号码


小明突然觉得自己太 sb 了


….


小明本来想就这样算了的


可是刚被骂的觉得很不爽


小明把自己的手机关机


然后自己注册了很多个账号


搞了多个 cookie 池


一起爬!!



….



这次运维人员慌了


没想到对方这么会搞事情


开始对那些频繁访问的ip给封了


然后给自己的网站加了验证码


谁他妈想要请求数据


都要先输入一次验证码才可以


这次看你怎么搞


….



小明这次真的是杠上了


机器学习识别验证码都搞上了


直接在程序自动识别验证码然后进行请求


这次小明完全不把小帅b放在眼里了



….



运维人员快要没办法了


突然看到了一些大量的请求都只是获取 HTML 数据


但是 js 和 css 这些都不请求的


不合理


于是把整个网站


都不直接返回 HTML 了


用 ajax 加载


…..



小明呵呵一笑


这能难倒我?


拿出最近小帅b说的


python爬虫09 | 上来,自己动 !这就是 selenium 的牛逼之处


直接模仿人类操作


这还没完


听 小帅b 说还有一个叫做 phantomjs 的玩意


selenium + phantomjs 可以达到完全模拟浏览器操作


友情提示:小帅b 下篇推文会跟大家说怎么使用selenium + phantomjs


….


这下


运维人员真的没办法了


玩不动了


只能说一句


真的求求你们了,不要再来爬取了!





哈~


本故事纯属乱吹


如有雷同


别在意



最后


大家都是程序员


不容易


别乱搞事情



扫一扫

学习 Python 没烦恼