学了python不知干啥?爬爬虫! (3)爬取豆瓣书籍列表(bs4/lxml简单使用)
爬取豆瓣书籍列表
合理爬取,不随意扩大站点压力本文章仅作示例,请勿用作非法用途
效果 解析豆瓣书籍列表,包括作者/介绍/评分,如下图
开始 和上文一样,我们先去网页端看看我们准备获取的数据 随便点进去一个子分类 右键——查看框架源代码 (Edge,其他浏览器请自行对应 ) 哇塞,又是一下子就找到了。 接下来,开始爬取!
试爬取 根据前几节课的,我们写一版简单的代码试试 执行一下! woc!报错!我们来看看这个418是个什么错误
错误描述:经过网上查询得知,418的意思是被网站的反爬程序返回的,网上解释为,418 I’m a teapotThe HTTP 418 I’m a teapot client error response code indicates that the server refuses to brew coffee because it is ...
学了python不知干啥?爬爬虫! (2.5)爬取有度小说全本+GUI操作界面 完整代码
合理爬取,不随意扩大站点压力本文章仅作示例,请勿用作非法用途
前言 最近有朋友向我请求帮助,问我可不可以帮忙爬一下有度小说网的 (这不是广告!这不是广告!这不是广告! )完本小说,刚好有空我就试了一下。于是就有了此篇。 本篇可以算是学了python不知干啥?爬爬虫! (2)爬取网络小说全本并保存的另一个例子吧,所用到的基本思路都是一样的,想知道为什么这么写的朋友可以翻一下那个链接,一点一点分析的。 本篇就不费话了,直接上代码
库 本身 完整代码12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879""" Copyright @FunnySaltyFish Python 3.7"""import ur ...
学了python不知干啥?爬爬虫! (2)爬取网络小说并保存全本
爬取全本小说并保存到本地!
尊重知识产权,建议阅读原版本文章仅作示例,请勿用作非法用途
该系列的其他篇目:系列文章完整目录
效果如你所见,这是一个完整的小说文档。尽管小说原网站并没有提供下载功能,但我们爬虫却做到了!那么,让我们开始吧~
开始这篇小说从哪里来?互联网上。我们不妨先去看看网页端效果是怎样的。打开这个网页,你就会看到完整的章节列表、广告和广告……让我们随便打开一章,右键——查看源代码,看看这些东西背后到底是什么。哇,真的是非常的amazing啊,我们居然一下就找到了我们所需要的小说内容!但是兄弟,我们怎么才能获得这些源码呢?走,我们进入下一步!
获取网页源码上节课 (没看过的请自行查看) 我们讲过,urllib的urlopen函数可以打开一个网页链接,这一次咱们如法炮制,再试一次。
1234def get_html(url): response = ur.urlopen(url) html = response.read().decode("utf-8") return html
然而当你print一下之后,你会发现:
1prin ...
学了python不知干啥?爬爬虫!(1)爬取网络图片
生活就像淋浴:方向转错,水深火热 ——意林
引言
各位玩python的,相比对“爬虫”这个字眼并不陌生。啥?你不知道?对啦,就是需要一个不知道的……
那么,咱们的第一件事就是……
概念上来一手概念,恐怕这是最劝退的了咱们还是先来看看它能干啥吧
这只虫,能干嘛?
不打开网页,下载图片啦
不打开网页,看看小说啦
或者保存点贴吧贴子啦,图片啦
等等……
什么,你说:那我要这玩意儿干嘛?我打开网页不是更快吗?同志,男人不能一味追求快……不对,是有些事情你打开网页也不好干……例如: - 获取某乎所有用户年龄组成、性别比例(诶?怎么有点像生物) - 获取某地区程序员平均工资 - …但是,这些,爬虫都可以干!那么,让我们愉快的开始吧!环境author:FunnySaltyFishpython:3.6win7 x86
搞张图片首先,让我们打开百度图片,这样搜索:然后在你看到的这张可爱的图片上,单击右键——复制图片地址(此处使用的是360毒瘤浏览器,是的没错,360。不推荐你使用这玩意儿。其他浏览器应该也有此功能,找到类似的就好)(如果你是手机编程党,比如我,推荐使用via。这款0.5M ...
学了python不知干啥?爬爬虫!目录
合理爬取,不恶意扩大站点压力本文章仅作示例,请勿用作非法用途
该系列的其他篇目:
(1)保存网络图片
(2)爬取网络小说全本并保存
(2.5)另一个网络小说例子+GUI操作界面
(3)爬取豆瓣书籍列表(bs4/lxml简单使用)
(4)多线程爬取
(5)requests+错误处理
(6)爱词霸翻译【js逆向,全过程详解】
(7)代理的概念和使用
其他
我的github
我的gitee
关于我
简介个人开发者,混迹于酷安 @FunnySaltyFish
作品:Android应用
FunnyTranslation——一对多翻译软件,零广告、全免费、少权限
开源库
FunnyBottomNavigation——基于Kotlin实现的Android底部导航栏,具有漂亮的过渡动画,易于使用
FunnyTimeLine——自定义View实现的时间轴,带有三阶惯性滑动
持续开发中……