接外包,有相关需求的可以联系我:Telegram | Email

初试爬虫

该文章创建(更新)于09/11/2019,请注意文章的时效性!

文章目录[隐藏]

使用的python包

我并没有使用urllib,我刚开始用这个,一直抓取不到我网站,直接报错。按网上配置什么浏览器参数之类的还是报错。用这一个就简单了许多,而且代码也比较少。

代码

这代码仅针对于pixabay的图片下载,如果要转换的话。注意去查看你需要网站的页面等等信息,自行修改;

# 图片来源于Pixabay: https://pixabay.com/zh/
import requests as req
import math
import re
from bs4 import BeautifulSoup

origin_img_link = []

# 获取page页有关key图片信息
def get_picture_page(key,page):
    i = 1
    while(i < page):
        print('------------这是第%d页----------' %i)
        origin_rul = 'https://pixabay.com/zh/images/search/'+ key +'/?pagi=' + str(i)  #仅针对于pixabay的页面翻页形式/Get得到页数,自行修改
        r = req.get(origin_rul)
        bs = BeautifulSoup(r.content, 'html.parser') #解析网页
        hyperlink = bs.find_all(name = 'img')  # 标签是否要附加信息,如要附加。去BeautifulSoup查看文档,我目前测试过attrs={'alt' : ''}
        for h in hyperlink:
            hh = h.get('src')
            print(hh)
            origin_img_link.append(hh)
        i += 1

get_picture_page('it',5)        #修改传参

# 按正则匹配下载    
for m in origin_img_link:
    if(re.match(r'^((https|http|ftp|rtsp|mms)?://)[a-zA-z]+.[a-zA-z]+.[a-zA-z]+/photo/d{4}/d{2}/d{2}/d{2}/d{2}/',m)):
        r = req.get(m)
        s = re.sub(r'^((https|http|ftp|rtsp|mms)?://)[a-zA-z]+.[a-zA-z]+.[a-zA-z]+/photo/d{4}/d{2}/d{2}/d{2}/d{2}/','',m)  # 正则表达式把https://给替换掉
        if r.status_code == 200:
            with open(s, 'wb') as f:
                f.write(r.content)
            print(s + '下载成功!')

print('(…^&^)下载完成')            

要不赞赏一下?

微信
支付宝
PayPal
Bitcoin

版权声明 | Copyright

除非特别说明,本博客所有作品均采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可。转载请注明转自-
https://www.emperinter.info/2019/09/11/%e5%88%9d%e8%af%95%e7%88%ac%e8%99%ab/


要不聊聊?

我相信你准备留下的内容是经过思考的!【勾选防爬虫,未勾选无法留言】

*

*



YouTube | B站

微信公众号

优惠码

阿里云国际版20美元
Vultr10美元
搬瓦工 | Bandwagon应该有折扣吧?
Just My SocksJMS9272283 【注意手动复制去跳转】
域名 | namesiloemperinter(1美元)
币安 币安