记一次Python批量解压文件遇中文乱码及解决过程

站长

2023年09月03日 17:13 · 阅读数 127

前言

因为工作原因，公司提高了对项目的安全扫描水平，所以最近在学习Web逆向工程。

通过付费渠道，拿到了关于 Python 爬虫的相关教材，百度网盘下载后发现文件格式像套娃一样（如下图所示），如果30+个文件都挨个点进去解压，就显得有点愚蠢，正好同时要学 Python，于是拿来练手，写一个批量解压的脚本，由此引出了标题。

记一次Python批量解压文件遇中文乱码及解决过程

省流

在调用 zipfile.ZipFile() 方法时，需要多传 metadata_encoding 参数，即：

with zipfile.ZipFile(sub_zip_path, 'r', metadata_encoding='gbk') as item:

编写脚本

这里直接贴源码了，主要是遍历文件，并使用 zipfile 库解压：

import os
import zipfile
import shutil

origin_file_path = r"G:\Nas\爬虫第11期"

# 使用 os.listdir 获取目录下的所有文件列表
path_dir = os.listdir(origin_file_path)

for finder in path_dir:
    # 拼接路径
    item_path = os.path.join(origin_file_path, finder)
    # 如果是文件夹
    if os.path.isdir(item_path):
        # 继续获取子目录下的文件列表
        sub_file_dir = os.listdir(item_path)
        # 如果不是空文件夹
        if len(sub_file_dir): 
            # 正常应该用正则判断是不是zip文件
            # 因为每个文件夹只有一个zip压缩包，固直接取sub_file_dir的下标0
            sub_zip_path = os.path.join(item_path, sub_file_dir[0])
            # 将文件解压到当前目录
            zip_to_path = os.path.join(sub_zip_path, finder)
            # 参数 r 代表自动转义【盘符】
            with zipfile.ZipFile(sub_zip_path, 'r') as item:
                # 其实直接调用extractall方法可以实现全部解压
                # item.extractall(item_path)
                # 遍历压缩文件，并解压
                for name in item.namelist():
                    item.extract(name, item_path)
                    print(f'name: {name} | {sub_zip_path}')
                item.close()
            # 若对解压结果不满意，批量删除
            # if os.path.isdir(sub_zip_path):
            #     shutil.rmtree(sub_zip_path)
            print(finder, item_path, sub_file_dir)
    else:
        print('isFile:', finder)

点击运行，然后……

记一次Python批量解压文件遇中文乱码及解决过程

完全的乱码，根本没法用。

批量删除（可选）

此时可以把批量删除的代码注释打开，清空乱码文件，即：

            # 参数 r 代表自动转义【盘符】
            # with zipfile.ZipFile(sub_zip_path, 'r') as item:
            #     # item.extractall(item_path)
            #     for name in item.namelist():
            #         item.extract(name, item_path)
            #         print(f'name: {name} | {sub_zip_path}')
            #     item.close()
            # 若对解压结果不满意，批量删除
            if os.path.isdir(sub_zip_path):
                shutil.rmtree(sub_zip_path)

shutil.rmtree() 就是删除整个文件夹（不会校验子目录的状态）的意思

寻解过程

Google 后发现大多数都是几年前的解法，而且涉及到修改库文件源码：

记一次Python批量解压文件遇中文乱码及解决过程

于是在查看源码的过程中，发现其实3.11版本已经支持了中文解码，只需要传入参数即可:

记一次Python批量解压文件遇中文乱码及解决过程

由上图可知，若不传入metadata_encoding就会默认按cp437处理。

修改后，再次运行脚本，发现打印和解压目录也正常了：

记一次Python批量解压文件遇中文乱码及解决过程

转载自:https://juejin.cn/post/7268946819905028096