爬虫

Python Scrapy入门示例

2023-04-18胖蔡阅读(579)赞(0)

Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。

2023-04-18胖蔡阅读(699)赞(0)

Tesseract 是一个 OCR 库,目前由 Google 赞助(Google 也是一家以 OCR 和机器学习技术闻名于世的公司)。Tesseract 是目前公认最优秀、最精确的开源 OCR 系统。除了极高的精确度,Tesseract ...

2023-04-13胖蔡阅读(402)赞(0)

和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。

2023-04-13胖蔡阅读(431)赞(0)

XPath来做一个简单的爬虫，我们尝试爬取某个贴吧里的所有帖子，并且将该这个帖子里每个楼层发布的图片下载到本地。

2023-04-13胖蔡阅读(378)赞(0)

Requests 继承了urllib2的所有特性。Requests支持HTTP连接保持和连接池，支持使用cookie保持会话，支持文件上传，支持自动确定响应内容的编码，支持国际化的 URL 和 POST 数据自动编码。Requests能完全...

2023-04-12胖蔡阅读(388)赞(0)

opener是 urllib2.OpenerDirector 的实例，我们之前一直都在使用的urlopen，它是一个特殊的opener（也就是模块帮我们构建好的）。

2023-04-12胖蔡阅读(396)赞(0)

JSON是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。JSON和XML的比较可谓不相上下。

2023-04-11胖蔡阅读(433)赞(0)

使用XPath,可以先将 HTML文件转换成 XML文档，然后用 XPath 查找 HTML 节点或元素。

2023-04-11胖蔡阅读(418)赞(0)

正则表达式，又称规则表达式，通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过...

2023-03-31胖蔡阅读(439)赞(0)

谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。在Python中有很多库可以用来抓取网页，我们先学习urllib2。