博客
关于我
Python 爬取表情包并保存在数据库中(以往的爬虫改进)
阅读量:357 次
发布时间:2019-03-04

本文共 3982 字,大约阅读时间需要 13 分钟。

Python爬取表情包并存入数据库

1. 项目背景

现有的爬虫项目主要负责从斗图网爬取表情包,并将这些图片存储在本地硬盘上。然而,随着数据量的不断增加,本地存储方式逐渐显得不够高效。为了更好地管理和利用这些图片资源,我们决定对爬虫进行改进,采用MySQL数据库来存储这些图片数据。

2. 数据库存取问题分析

在本次改进中,我们需要解决以下几个关键问题:

  • 存什么?

    我们需要将爬取到的图片文件存储到数据库中。图片的来源主要有以下几种:

    • 爬虫从指定网站自动抓取的图片文件。
    • 手动收集的图片文件。
    • 由视频分析后生成的截图。
    • 手机相机拍摄的照片。

    照片的主要属性包括文件名称、文件大小和文件格式等。

  • 存放的必要性思考

    将图片存入数据库可以带来以下好处:

    • 便于管理:数据库可以帮助我们对图片进行分类、标注和查询。
    • 便于远程访问:通过数据库查询,我们可以方便地从任何地方访问图片。
    • 便于展示:可以直接在网页上通过数据库查询出展示所需的图片。
    • 数据安全:如果数据库被妥善保护,图片数据也会相应安全。
  • 数据存放形式

    在数据库中存储图片文件需要注意以下几点:

    • 文件类型:图片文件通常以二进制形式存在,因此需要用BLOB(大文本对象)类型存储。
    • 存储大小:根据图片文件的大小选择合适的BLOB类型。MySQL支持以下几种BLOB类型:
      • TINYBLOB:最大存储256KB。
      • BLOB:最大存储65KB。
      • MEDIUMBLOB:最大存储16MB。
      • LONGBLOB:最大存储4GB。
    • 选择合适的存储空间:一般来说,MEDIUMBLOB能够满足大部分图片存储需求。
  • 3. 数据库存取实现

    为了实现图片存入数据库的功能,我们需要设计一个适合存储和检索图片的数据库表结构。

    数据库表结构设计

    以下是我们设计的数据库表结构:

    CREATE TABLE IF NOT EXISTS `picture` (    `ID` int(11) NOT NULL AUTO_INCREMENT,    `PicData` MEDIUMBLOB,    PRIMARY KEY (`ID`)) ENGINE=InnoDB DEFAULT CHARSET=utf8 AUTO_INCREMENT=1;
    • ID:图片的唯一标识符,自增。
    • PicData:存储图片文件的二进制数据。
    存储图片到数据库的实现

    我们设计了一个Save_Picture类来负责将图片文件存入数据库。以下是类的实现代码:

    import MySQLdbclass Save_Picture:    def __init__(self, host, user, passwd, dbname):        self.conn = MySQLdb.connect(            host=host,            user=user,            passwd=passwd,            db=dbname        )        def setup(self):        cursor = self.conn.cursor()        cursor.execute("""            CREATE TABLE IF NOT EXISTS `picture` (                `ID` int(11) NOT NULL AUTO_INCREMENT,                `PicData` MEDIUMBLOB,                PRIMARY KEY (`ID`)            ) ENGINE=InnoDB DEFAULT CHARSET=utf8 AUTO_INCREMENT=1;        """)        cursor.close()        def save_pic(self, file_path):        with open(file_path, 'rb') as f:            pic_data = f.read()            cursor = self.conn.cursor()            cursor.execute('INSERT INTO picture (PicData) VALUES (%s)', (MySQLdb.Binary(pic_data),))            self.conn.commit()            cursor.close()
    从数据库中读取图片

    为了让图片能够被读取和显示,我们需要从数据库中取出图片数据并写入文件。以下是读取图片的实现代码:

    import MySQLdbclass Read_Picture:    def __init__(self, host, user, passwd, dbname):        self.conn = MySQLdb.connect(            host=host,            user=user,            passwd=passwd,            db=dbname        )        def read_pic(self):        cursor = self.conn.cursor()        cursor.execute('SELECT PicData FROM picture ORDER BY ID DESC LIMIT 1')        result = cursor.fetchone()        if result:            pic_data = result[0]            with open('output.jpg', 'wb') as f:                f.write(pic_data)        cursor.close()

    4. 爬虫实现

    为了实现从斗图网爬取表情包并存入数据库的功能,我们需要编写一个爬虫脚本。以下是爬虫的实现代码:

    import requestsimport reimport timedef save_to_database(host, user, passwd, dbname, url):    headers = {        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.122 Safari/537.36"    }        for page in range(0, 2):  # 假设只爬取前两页        current_url = f"{url}{page+1}"        response = requests.get(current_url, headers=headers)        response.encoding = 'utf-8'                # 突出提取图片链接        pattern = r'data-backup="(.*?)"'        pic_links = re.findall(pattern, response.text)                for link in pic_links:            # 爬取单张图片            pic_response = requests.get(link, headers=headers)            pic_data = pic_response.content                        # 连接数据库            db_conn = MySQLdb.connect(                host=host,                user=user,                passwd=passwd,                db=dbname            )            db_cursor = db_conn.cursor()                        # 插入数据库            db_cursor.execute('INSERT INTO picture (PicData) VALUES (%s)', (MySQLdb.Binary(pic_data),))            db_conn.commit()                        db_cursor.close()            db_conn.close()

    5. 注意事项

  • 数据库连接管理:在爬虫过程中,建议使用数据库连接池来管理数据库连接,以避免连接泄漏和性能问题。

  • 图片大小优化:根据爬取到的图片大小选择合适的BLOB类型。例如,对于大多数表情包,MEDIUMBLOB已经足够。

  • 异常处理:在实际应用中,需要对爬虫过程中的异常进行处理,确保数据库连接能够被正确关闭。

  • 6. 总结

    通过本次改进,我们成功地将之前依赖本地存储的爬虫项目迁移到了基于MySQL数据库的存储方式。这不仅提高了数据管理的效率,也为未来的扩展和维护提供了更好的基础。

    转载地址:http://ulkr.baihongyu.com/

    你可能感兴趣的文章
    NI笔试——大数加法
    查看>>
    NLog 自定义字段 写入 oracle
    查看>>
    NLP 基于kashgari和BERT实现中文命名实体识别(NER)
    查看>>
    NLP 项目:维基百科文章爬虫和分类【01】 - 语料库阅读器
    查看>>
    NLP学习笔记:使用 Python 进行NLTK
    查看>>
    NLP问答系统:使用 Deepset SQUAD 和 SQuAD v2 度量评估
    查看>>
    NLP:使用 SciKit Learn 的文本矢量化方法
    查看>>
    Nmap扫描教程之Nmap基础知识
    查看>>
    Nmap端口扫描工具Windows安装和命令大全(非常详细)零基础入门到精通,收藏这篇就够了
    查看>>
    NMAP网络扫描工具的安装与使用
    查看>>
    NMF(非负矩阵分解)
    查看>>
    NN&DL4.1 Deep L-layer neural network简介
    查看>>
    NN&DL4.3 Getting your matrix dimensions right
    查看>>
    NN&DL4.8 What does this have to do with the brain?
    查看>>
    No 'Access-Control-Allow-Origin' header is present on the requested resource.
    查看>>
    NO 157 去掉禅道访问地址中的zentao
    查看>>
    No Datastore Session bound to thread, and configuration does not allow creation of non-transactional
    查看>>
    No fallbackFactory instance of type class com.ruoyi---SpringCloud Alibaba_若依微服务框架改造---工作笔记005
    查看>>
    No Feign Client for loadBalancing defined. Did you forget to include spring-cloud-starter-loadbalanc
    查看>>
    No mapping found for HTTP request with URI [/...] in DispatcherServlet with name ...的解决方法
    查看>>