likes
comments
collection
share

下载和合并 Apple WWDC 字幕文件

作者站长头像
站长
· 阅读数 38

前言

作为一名资深的 iOS 开发人员,每年 WWDC 后的官方视频内容学习总结对于保持持续学习还是比较有帮助的。为此写了一段 Python 脚本来比较高效的下载和合并 WWDC 视频的字幕文件。

分析

分析堆内存 为例: 下载和合并 Apple WWDC 字幕文件 图中的.webvtt 格式的文件就是我们需要的字幕文件。

下载和合并 Apple WWDC 字幕文件 这个 prog_index_m3u8 文件里,我们可以看到此视频有多少个 .webvtt 文件个数。接下来就是解决如何下载每一个 .webvtt 文件并合并成一个完整的字幕文本。

下载脚本

1. 脚本功能概述

这段 Python 脚本实现的功能:

  • 并行下载多个 WWDC 视频的字幕文件。
  • 合并下载的字幕文件并清理冗余信息,合并成一个完整的字幕文件。

2. 脚本内容

输入 URL 和文件数量 首先,脚本会提示用户输入基础 URL 和字幕文件的总数:

base_url = input("Enter the base URL (e.g., https://devstreaming-cdn.apple.com/videos/wwdc/2024/10173/4/xx-xx-xx-xx-xx/subtitles/eng/sequence_0.webvtt): ").strip()
count = int(input("Enter the total number of subtitle files: ").strip())

if not base_url.endswith(".webvtt"):
    raise ValueError("The entered URL is incorrect. Ensure it ends with .webvtt.")

下载单个字幕文件 下载字幕文件的函数 download_subtitle 会根据文件数量生成相应的 URL,并尝试下载文件:

# Download single subtitle file
def download_subtitle(counter):
    url = f"{base_url_prefix}_{counter}.webvtt"
    response = requests.get(url)
    if response.status_code == 200:
        file_path = f"sequence_{counter}.webvtt"
        with open(file_path, "wb") as file:
            file.write(response.content)
        print(f"Downloaded {file_path}")
        return file_path
    else:
        print(f"Failed to download sequence_{counter}.webvtt")
        return None

并行下载字幕文件 为了提高下载效率,脚本使用 ThreadPoolExecutor 并行下载字幕文件:

# Concurrent download
def download_subtitles_concurrently(count):
    with ThreadPoolExecutor(max_workers=10) as executor:
        futures = [executor.submit(download_subtitle, counter) for counter in range(count)]
        return [future.result() for future in as_completed(futures)]

合并和清理字幕文件 下载完成后,脚本会将所有字幕文件合并为一个完整的文件。但是 webvtt 格式的字幕文件里有时间轴、格式信息还有一些空行,所以在此也一并使用正则表达式清理冗余信息。 下载和合并 Apple WWDC 字幕文件

def merge_and_clean_subtitles(count):
    with open("full.webvtt", "w", encoding='utf-8') as full_file:
        for counter in range(count):
            with open(f"sequence_{counter}.webvtt", "r", encoding='utf-8') as file:
                content = file.read()
                # Remove timestamp lines, WEBVTT tags, and extra blank lines
                cleaned_content = re.sub(r'(WEBVTT|\n\d{2}:\d{2}:\d{2}.\d{3} --> \d{2}:\d{2}:\d{2}.\d{3})\n', '', content)
                # Replace multiple consecutive newlines with a single newline
                cleaned_content = re.sub(r'\n\s*\n', '\n', cleaned_content)
                full_file.write(cleaned_content)
            print(f"Merged sequence_{counter}.webvtt")

3. github 完整代码

github 完整代码

尾声

通过上述脚本,可以高效的下载和合并 WWDC 视频的字幕文件,为后续学习提供便利。希望能给大家带来便利。

转载自:https://juejin.cn/post/7383911098725253158
评论
请登录