使用XPath进行爬虫
XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子,并且将该这个帖子里每个楼层发布的图片下载到本地。
XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子,并且将该这个帖子里每个楼层发布的图片下载到本地。
Requests 继承了urllib2的所有特性。Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定响应内容的编码,支持国际化的 URL 和 POST 数据自动编码。Requests能完全...
opener是 urllib2.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的)。
Selenium 库里有个叫 WebDriver 的 API。WebDriver 有点儿像可以加载网站的浏览器,但是它也可以像 BeautifulSoup 或者其他 Selector 对象一样用来查找页面元素,与页面上的元素进行交互 (发送...
冒泡排序是按照要求从小到大或者从大到小排序,我们通过不断比较数组中相邻两个元素的值,较大或较小的元素前移,直到没有相邻元素需要交换,说明该元素排序完成。
HTML超文本标记语言,超文本指的是超链接,标记指的是标签,是一种用来制作网页的语言,这种语言由一个个的标签组成,用这种语言制作的文件保存的是一个文本文件,文件的扩展名为html或者htm,一个html文件就是一个网页,html文件用编辑...
Redis是key-value的数据,所以每个数据都是一个键值对。键的类型是字符串,值的类型分为五种:字符串string、哈希hash、列表list、集合set、有序集合zset。
NoSQL,全名为Not Only SQL,指的是非关系型的数据库,随着访问量的上升,网站的数据库性能出现了问题,于是nosql被设计出来。
JSON是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。JSON和XML的比较可谓不相上下。
使用XPath,可以先将 HTML文件 转换成 XML文档,然后用 XPath 查找 HTML 节点或元素。