-
Python爬虫requests参数timeout以及retrying的使用
timeout参数的使用 在某些网络情况不好或者服务器端异常的情况会出现请求慢或者请求异常的情况,这个时候我们需要给请求设置一个超时时间,而不是让程序一直在等待结果。写一个简单的例子: import .requests response = requests.get('https://www.linfengnet.com/', timeout=3) print(response…...
塵風- 0
- 0
- 1k
-
在Python中打开文件使用utf-8-sig和utf-8的区别
今天在使用Python读取CSV文件的时候,出现了一个KeyError的错误的,这个错误提示很明显,就是没有对应的列名,但是经过检查我的CSV文件中是有对应的列名的呀,然后编码格式我也检查了,这个时候我就想先打印列名看下,打印后就看出问题了。 问题原因 假设通过Excel打开我的CSV文件,列名是:列名1、列名2... 但是打印出的结果是如下: ['\ufeff列名1', …...
塵風- 0
- 0
- 730
-
网站被黑,被搜索引擎收录垃圾信息删除处理教程
现在有非常多的站点被黑导致网站被搜索引擎收录了许多的色情、赌博信息,导致网站被降权,或者搜索品牌词的时候出现的站点信息变成了垃圾信息等情况,尽管有的企业不依赖SEO转化,但是品牌词有搜索量的公司遇见这种情况也是比较重要的问题。 注意:这篇文章是教你怎么处理/删除:被搜索引擎收录垃圾信息,而不是教你处理网站被黑(至于网站被黑这问题怎么处理,则太宽泛了,问题原因数不胜数,不是一篇文章说的清楚的)。 处…...
塵風- 0
- 0
- 1.3k
-
Python os.walk() 方法
概述 os.walk() 方法用于通过在目录树中游走输出在目录中的文件名,向上或者向下。 os.walk() 方法是一个简单易用的文件、目录遍历器,可以帮助我们高效的处理文件、目录方面的事情。 在Unix,Windows中有效。 语法 walk()方法语法格式如下: os.walk(top[, topdown=True[, onerror=None[, followlinks=False]]]) …...
塵風- 0
- 0
- 926
-
Python glob模块和主要方法
概述 glob是python自己带的一个文件操作相关模块,查找文件目录和文件,类似于Windows下的文件搜索。 glob模块会将查找到的文件目录或文件的搜索结果返回到一个列表中。 支持的通配符: 支持:*,?,[],这三个通配符 *代表匹配0个或多个字符?代表匹配任意一个字符[]匹配指定范围内的字符如:[0-9]匹配所有数字[a-z]匹配所有字母[1,2,3]仅匹配1,2,3三个数字[!1,2,…...
塵風- 0
- 0
- 1.8k
-
网站搜索页面出现大量垃圾网页被收录怎么处理
网站搜索页面出现大量垃圾网页被收录怎么处理?这个问题是前几天一个朋友问我的,问题示例如下: 问题展示 再说解决方法之前我们先聊聊这个问题出现的原因,原因很明显: 就是网站被模拟搜索了大量的垃圾信息关键词,然后出现了对应的页面让搜索引擎抓取了。 像这种也算是"黑帽SEO"推广了吧...不过我认为这个东西实现起来还是很简单的,技术含量很低,而且挺早之前就出现了。 我可不可以不处理?…...
塵風- 0
- 0
- 1.2k
-
Python requests 异常Max retries exceeded with url: 请求地址… (Caused by SSLError(SSLCertVerificationError(1, ‘[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1129)’)))”))}解决
今天在写爬虫的时候遇见了如下错误: Max retries exceeded with url: https://******... (Caused by SSLError(SSLCertVerificationError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get …...
塵風- 0
- 0
- 652
-
如何查询百度搜索资源平台API推送配额
查询百度搜索资源平台API推送配额可以直接推送然后获取返回的结果得到的我们的百度搜索资源平台API推送配额。 如果不想暂用托送额度查询的话,可以直接把推送一个星号*作为URL推送,那么会返回推送的结果,可以看到推送额度,这个*号会被当做不合规的URL,不会暂用我们的推送额度。 百度推送API结果说明 通过API地址推送后会返回json格式的数据,其中remain字段的值是当前剩余推送额度,详细解析…...
塵風- 0
- 0
- 542
-
Python requests 异常Proxy URL had no scheme, should start with http:// or https://解决
异常原因 Python requests 异常Proxy URL had no scheme, should start with http:// or https://解决,在使用Python requests的proxy代理功能的时候出现了这个错误,意思是我们使用的代理方案应该以http:// or https://开头。 在网上看到的原因是说在Python3.7及以上版本中使用request…...
塵風- 0
- 0
- 804
-
Python requests 异常InsecureRequestWarning: Unverified HTTPS request is being made to host ‘***domain’. Adding certificate verification is strongly advised. See…解决
Python在使用requests模块的时候出现如下异常信息: C:\Python\Python39\lib\site-packages\urllib3\connectionpool.py:1043: InsecureRequestWarning: Unverified HTTPS request is being made to host 'you request domain…...
塵風- 0
- 0
- 627
-
使用Python检查提取网站死链
网站死链会影响我们的用户体验和搜索引擎对我们站点的评分(尤其是网站存在已经被做成赌博、色情网站的链接,影响很大),但是网站运营时长长了,就难免会有这样的问题,所以我们可以考虑定期的处理下,我之前分享过一些WordPress死链、外部链接处理的文章,如果你是使用WordPress,就可以直接参考下述的文章去解决: WordPress去除文章失效链接 WordPress文章外部链接清除 WordPre…...
塵風- 0
- 0
- 556
-
Python使用 pytesseract 进行图片识别
在编写爬虫的时候,如果遇见参数图片化的情况的(例如登录验证码),就需要对图片验证码进行识别,我们就可以使用pytesseract。 pytesseract简介 pytesseract是一款用于光学字符识别(OCR)的python工具,即从图片中识别出和“读取”其中嵌入的文字。 底层使用的是Google的Tesseract-OCR 引擎(Tesseract是一个开源文本识别 (OCR) 引擎(注意:…...
塵風- 0
- 0
- 2.3k
-
python os.scandir()函数
概述 在 Python 3.5版本中,新添加了 os.scandir()方法, scandir是一个目录迭代方法,返回一个DirEntry迭代器对象,它能告诉你迭代文件的路径。 os.scandir() 的运行效率要比 os.walk 高。 在 PEP 471 中,Python 官方也推荐我们使用 os.scandir() 来遍历目录。 相关文章:Python os.walk() 方法 官方介绍截…...
塵風- 0
- 0
- 1.7k
-
Python模块requests参数verify – SSL证书认证
Python模块requests参数verify - SSL证书认证 requests模块中verify关键词参数用于控制是否开启SSL证书认证,requests在请求HTTPS链接时,默认是开启SSL证书认证的,即请求中verify参数默认为True(verify=True)。 关闭SSL证书认证 如果要关闭SSL证书认证,我们可以把verify参数设置False即可,例如: # -*- cod…...
塵風- 0
- 0
- 872
-
Python3 sorted() 函数 – 对所有可迭代的对象进行排序操作
sorted() 函数描述 Python3 sorted() 函数是python 3 中的一个内置函数,sorted() 函数作用是可以对所有可迭代的对象进行排序操作。 PS:有时候我们需要对拿到的字典之类的数据进行排序,就可以直接使用这个函数,而不需要进行for循环这样的操作去处理啦,如果数据是列表的话,也可以使用sort()函数,具体可以看我之前的文章:python sort()函数详解。 s…...
塵風- 0
- 0
- 966
-
Python Counter()函数介绍 – 统计值出现的次数
Python Counter()函数介绍 Counter()函数 是collections模块(Python标准库中的一个模块)中的里面的一个类,作用是计算出字符串或者列表等中不同元素出现的个数,返回值可以理解为一个字典,所以对传回来的统计结果的操作都可以当作对字典的操作(Counter类继承dict类,所以它能使用dict类里面的方法) Note: 字符串还有一个内置的count(),只能统计字…...
塵風- 0
- 0
- 3.4k
-
Python虚拟环境使用
虚拟环境是独立的Python环境,在虚拟环境中通过安装第三方库,不会影响到本地的Python环境或者是其他虚拟环境,这样可以再不同项目对库的版本有不同需求的时候方便我们的使用。 笔记来源内容: 虚拟环境和包 — Python 3.9.13 文档 参考请注意python版本是否相同,其他版本的文档我没看过。 网上还找到了更加详细的虚拟环境相关内容,感兴趣可以自行前往查看: 最全的Python虚拟环境…...
塵風- 0
- 0
- 1.3k
-
Python for循环同时遍历两个列表
Python for循环同时遍历两个列表我们可以使用Python zip函数来实现, zip() 函数简介 zip() 函数是 Python 内置函数之一,zip() 函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成zip对象。 在Python2中,zip() 函数返回的是列表,在Python3中,则是返回上述所说的zip对象,这样可以减少内存。如果需要列…...
塵風- 0
- 0
- 415
-
百度已收录404链接自动提取软件+使用教程-免费
软件介绍 现在有非常多的网站被黑然后搜索被搜索引擎收录了色情赌博一类的垃圾信息,我们站点被黑处理完成后把这些垃圾信息链接设置为404就需要对这些已经收录的链接进行提取,然后提交到百度资源平台删除,但是对于大部分没有技术基础的小伙伴来说,都只能一个个手动去复制,这样太过于麻烦了,所有开发了这个软件分享给大家。 关于处理流程的教程,我之前也分享了相关文章,如果你有需要,也可以查看: 网站被黑,被搜索引…...
塵風- 0
- 6
- 997
-
Python xlrd 报错xlrd.biffh.XLRDError: Excel xlsx file; not supported异常解决
之前我分享了:Python Excel常用操作库+使用笔记分享,有Python基础的小伙伴想学习下Python操作Excel进行自动化办公或者是进行数据保存到Excel就可以参考学习,今天来分享下Python xlrd 报错xlrd.biffh.XLRDError: Excel xlsx file; not supported…这个异常的解决办法(我猜大部分人是因为以前学习了xlrd 然后直接co…...
塵風- 0
- 0
- 817



![Python requests 异常Max retries exceeded with url: 请求地址… (Caused by SSLError(SSLCertVerificationError(1, ‘[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1129)’)))”))}解决](https://www.linfengnet.com/wp-content/uploads/2024/01/2024010606414043.png)










