-
Python使用 pytesseract 进行图片识别
在编写爬虫的时候,如果遇见参数图片化的情况的(例如登录验证码),就需要对图片验证码进行识别,我们就可以使用pytesseract。 pytesseract简介 pytesseract是一款用于光学字符识别(OCR)的python工具,即从图片中识别出和“读取”其中嵌入的文字。 底层使用的是Google的Tesseract-OCR 引擎(Tesseract是一个开源文本识别 (OCR) 引擎(注意:…...
塵風- 0
- 0
- 2.3k
-
Python从路径|URL中获取文件名、文件后缀的方法
Python从路径|URL中获取文件名、文件后缀的方法分享: 我们可以通过urlparse模块中的urllib.parse方法、os.path模块或者是字符串split、rfind等方法去实现,非常简单。这样就不用去写正则了哈哈哈。 一般情况下urlparse更合适解析URL(URL中有参数的时候,不需要做其他处理),os.path模块则更合适处理本地路径,所以大部分时候个人建议选择这两种方式也就…...
塵風- 0
- 0
- 1.3k
-
Python虚拟环境使用
虚拟环境是独立的Python环境,在虚拟环境中通过安装第三方库,不会影响到本地的Python环境或者是其他虚拟环境,这样可以再不同项目对库的版本有不同需求的时候方便我们的使用。 笔记来源内容: 虚拟环境和包 — Python 3.9.13 文档 参考请注意python版本是否相同,其他版本的文档我没看过。 网上还找到了更加详细的虚拟环境相关内容,感兴趣可以自行前往查看: 最全的Python虚拟环境…...
塵風- 0
- 0
- 1.3k
-
使用Python检查提取网站死链
网站死链会影响我们的用户体验和搜索引擎对我们站点的评分(尤其是网站存在已经被做成赌博、色情网站的链接,影响很大),但是网站运营时长长了,就难免会有这样的问题,所以我们可以考虑定期的处理下,我之前分享过一些WordPress死链、外部链接处理的文章,如果你是使用WordPress,就可以直接参考下述的文章去解决: WordPress去除文章失效链接 WordPress文章外部链接清除 WordPre…...
塵風- 0
- 0
- 561
-
Python sort()函数详解 – Python列表排序函数
Python sort()函数介绍 sort()函数是Python 列表的一个方法,是python中的内置函数,sort()函数可以对列表进行就地排序。 只使用<来比较项之间的关系。如果任何比较操作失败,异常将不会被屏蔽(在排序过程中发生任何比较操作失败的异常,该异常将会被抛出,而不会被程序自动处理或忽略。) - 如果任何比较操作失败,整个排序操作将失败(并且列表可能会处于部分修改的状态)。…...
塵風- 0
- 0
- 856
-
python os.scandir()函数
概述 在 Python 3.5版本中,新添加了 os.scandir()方法, scandir是一个目录迭代方法,返回一个DirEntry迭代器对象,它能告诉你迭代文件的路径。 os.scandir() 的运行效率要比 os.walk 高。 在 PEP 471 中,Python 官方也推荐我们使用 os.scandir() 来遍历目录。 相关文章:Python os.walk() 方法 官方介绍截…...
塵風- 0
- 0
- 1.7k
-
Python reversed 函数 – 对序列进行逆序操作
Python reversed 函数是一个Python内置函数,它可以对序列进行逆序操作。 序列可以是列表、元组、字符串等,通过使用reversed()函数,我们可以快速简便地将序列中的元素进行逆序排列。我们也可以用它来实现for循环反向遍历。 reversed()函数语法 reversed(sequence) 参数 sequence即是要进行逆序操作的序列( tuple, string…...
塵風- 0
- 0
- 359
-
Python获取字典的前x个元素
Python获取字典的前*个元素我们可以使用itertools中的islice函数实现或者是sorted函数、Counter(dict).most_common()函数实现,再Python中列表实现这样的需求就很简单,我们可以直接通过切片获取,不过字典没有切片,我们就先取出所有 keys,再用拿到的key去取value,在组成一个新的字典就可以了。 注意: sorted函数、Counter(dic…...
塵風- 0
- 0
- 1k
-
Python Excel常用操作库+使用笔记分享
Python操作Excel表格的库有不少,我接触到的比较多的主要要“三个”,这篇文章主要是对它们几个之间的区别介绍和基础使用笔记,它们分别是:xlrd+xlwt,openpyxl库,csv库。并整理了对应的官方文档地址, 方便进行使用学习, 干货文章快快收藏吧. 介绍和区别 xlrd+xlwt xlrd+xlwt是两个库:xlrd用于读取,xlwt用于写入编辑,xlrd和xlwt可以读取格式为.x…...
塵風- 0
- 0
- 681
-
UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xb9 in position 0: invalid start byte错误解决
今天在使用Python csv模块的时候,出现了这个错误,不过应该打开其他类型的文件,例如txt文件没指定正确的编码应该也会出现这个问题,可以一起参考下文章里面的解决方法,详细报错信息如下: Traceback (most recent call last): File "你的Python文件路径***.py", line 18(代码所在位置), in <module&g…...
塵風- 0
- 0
- 851
-
Python pip命令大全
Python pip 使用命令大全分享 官方文档 地址:https://docs.python.org/3/installing/index.html 命令大全 安装模块 pip install 模块名 通常,如果已经安装了模块,再次安装 它再次不会有任何效果。如需要升级 请使用升级命令。 不加版本号 默认安装模块当前最新版本。 安装指定版本 pip install 模块名==1.xx 指定源安装…...
塵風- 0
- 0
- 390
-
Python字典按照值(value)的大小进行排序方法
Python字典按照值(value)的大小进行排序可以使用collections的Counter()函数和sorted函数两种方式进行,关于Counter和sorted函数之前也记录过,关于这两个详细的就不说了,有需要可以自己看看: python Counter()函数介绍 - 统计值出现的次数 Python3 sorted() 函数 - 对所有可迭代的对象进行排序操作。 下面我们直接看使用它们对…...
塵風- 0
- 0
- 741
-
Python glob模块和主要方法
概述 glob是python自己带的一个文件操作相关模块,查找文件目录和文件,类似于Windows下的文件搜索。 glob模块会将查找到的文件目录或文件的搜索结果返回到一个列表中。 支持的通配符: 支持:*,?,[],这三个通配符 *代表匹配0个或多个字符?代表匹配任意一个字符[]匹配指定范围内的字符如:[0-9]匹配所有数字[a-z]匹配所有字母[1,2,3]仅匹配1,2,3三个数字[!1,2,…...
塵風- 0
- 0
- 1.8k
-
Pycharm批量添加引号
Pycharm批量添加引号和选中多行进行编辑技巧记录分享: Pycharm中批量添加单引号或者是双引号我们可以通过pycharm中的搜索替换中正则表达式功能或者是批量选择多行的方式进行添加,非常简单和高效,在我们写代码的时候可以很好的帮助我们提高效率,不用一个个去点击添加,就比如我们复制浏览器header要做个dict的时候。 PS:网上说Pycharm中有自带的快捷键,我找了下并没有找到,也就没…...
塵風- 0
- 0
- 2.1k
-
Python模块requests参数verify – SSL证书认证
Python模块requests参数verify - SSL证书认证 requests模块中verify关键词参数用于控制是否开启SSL证书认证,requests在请求HTTPS链接时,默认是开启SSL证书认证的,即请求中verify参数默认为True(verify=True)。 关闭SSL证书认证 如果要关闭SSL证书认证,我们可以把verify参数设置False即可,例如: # -*- cod…...
塵風- 0
- 0
- 884
-
python requests请求之timeout参数
requests请求之timeout参数 1、python 的requests请求都可以使用timeout参数。2、timeout参数可以传入一个简单的浮点数,它将请求的连接部分和读取部分设为相同的超时时间。3、timeout参数也可以传入一个包含两个简单浮点数的元组,用来分别设置请求超时时间和读取超时时间。 举例说明: 1、传入简单浮点数: import requests # 设置超时时间为1秒…...
塵風- 0
- 0
- 1.1k
-
Python os.walk() 方法
概述 os.walk() 方法用于通过在目录树中游走输出在目录中的文件名,向上或者向下。 os.walk() 方法是一个简单易用的文件、目录遍历器,可以帮助我们高效的处理文件、目录方面的事情。 在Unix,Windows中有效。 语法 walk()方法语法格式如下: os.walk(top[, topdown=True[, onerror=None[, followlinks=False]]]) …...
塵風- 0
- 0
- 931
-
如何查询百度搜索资源平台API推送配额
查询百度搜索资源平台API推送配额可以直接推送然后获取返回的结果得到的我们的百度搜索资源平台API推送配额。 如果不想暂用托送额度查询的话,可以直接把推送一个星号*作为URL推送,那么会返回推送的结果,可以看到推送额度,这个*号会被当做不合规的URL,不会暂用我们的推送额度。 百度推送API结果说明 通过API地址推送后会返回json格式的数据,其中remain字段的值是当前剩余推送额度,详细解析…...
塵風- 0
- 0
- 548
-
Python wmi模块 获取电脑CPU、网卡、硬盘等信息
模块介绍 WMI介绍 Windows Management Instrumentation 翻译过来是Windows 管理规范,简称WMI,是基于 Windows 的操作系统上管理数据和操作的基础结构。 尽管可以编写 WMI 脚本或应用程序来自动执行远程计算机上的管理任务,但 WMI 还会向操作系统和产品的其他部分提供管理数据。 例如,System Center Operations Manage…...
塵風- 0
- 0
- 795
-
网站搜索页面出现大量垃圾网页被收录怎么处理
网站搜索页面出现大量垃圾网页被收录怎么处理?这个问题是前几天一个朋友问我的,问题示例如下: 问题展示 再说解决方法之前我们先聊聊这个问题出现的原因,原因很明显: 就是网站被模拟搜索了大量的垃圾信息关键词,然后出现了对应的页面让搜索引擎抓取了。 像这种也算是"黑帽SEO"推广了吧...不过我认为这个东西实现起来还是很简单的,技术含量很低,而且挺早之前就出现了。 我可不可以不处理?…...
塵風- 0
- 0
- 1.2k








