详解各个功能及界面设置-一个开源视频翻译配音工具

站长

2024年03月24日 18:32 · 阅读数 84

本文主要介绍下“视频翻译配音软件”有哪些功能，以及界面中各个选项和按钮的涵义及设置。

该软件能实现将一种语言的视频，翻译为另一种语言的视频，处理后的新视频中的字幕和人类说话声都将是目标语言。

比如英文说话的视频，不管里面有没有字幕，处理后都将生成中文字幕，并使用中文说话。

主要功能模块有:

详解各个功能及界面设置-一个开源视频翻译配音工具

1. 标准功能模式:

详解各个功能及界面设置-一个开源视频翻译配音工具

即选择一个或多个想翻译的视频，然后软件界面中设置该视频的发音语言和想要翻译到的语言，并选择配音角色，将一键转换为目标语言字幕和配音的视频。

2. 视频识别字幕:

详解各个功能及界面设置-一个开源视频翻译配音工具

如果你只想为一个视频生成字幕文件，比如有一个英语视频，里面没字幕，或者虽然有字幕，但你还想要一个单独的英语字幕srt文件，那么可使用该功能，将根据视频里的说话声识别出文字并输出srt字幕文件。

3. 识别字幕翻译:

详解各个功能及界面设置-一个开源视频翻译配音工具

和上个功能类似，所不同的是，你可以选择将识别出的字幕翻译为其他语言，比如从英语视频中识别字幕，选择目标语言中文，处理后将输出英语字幕和中文字幕两个srt文件。

4. 视频字幕合并

详解各个功能及界面设置-一个开源视频翻译配音工具

比如已有处理好的srt格式字幕文件，想嵌入本地已有的视频中作为硬字幕或者软字幕显示，那么可以选择该功能，右侧底部导入字幕文件，然后选择嵌入形式是硬字幕还是软字幕即可。

5. 字幕创建配音

详解各个功能及界面设置-一个开源视频翻译配音工具

已经有了srt格式字幕文件，只想根据该文件生成配音，那么可选该功能，右侧底部导入字幕，选择tts类型和配音角色就可以了。

6. 音视频转文字

详解各个功能及界面设置-一个开源视频翻译配音工具

该功能和第二个按钮“视频识别字幕”功能类似，所不同的是，该功能不仅可以从视频识别，还可以从音频中识别，并且一次可以选择多个音视频文件批量识别。

7. 文字合成语音

详解各个功能及界面设置-一个开源视频翻译配音工具

该功能和“字幕创建配音”功能类似，不过该功能除了根据srt格式字幕创建配音外，还支持任意格式的文字，比如随便输入一行文字，就可以合成声音。

8. 视频音频分离

详解各个功能及界面设置-一个开源视频翻译配音工具

一般视频都是由声音和图像组成，如果你只想要一个视频里的声音，那么可以使用该功能，将抽离视频中的声音为音频文件。

同时还会创建一个无声视频，即删掉了里面任何声音的无声mp4。

9. 视频、音频、字幕三者合并

详解各个功能及界面设置-一个开源视频翻译配音工具

比如你已有处理好的字幕文件、配音文件和mp4文件，希望合成他们为一个具有声音字幕的视频，那么可以选择该功能，并且可以选择是否保留视频中原有的视频。

10. 两个音频文件混合为一个

详解各个功能及界面设置-一个开源视频翻译配音工具

此功能适合于想创建有背景声音的音频，比如你有一段主播语音，想添加一个背景音乐，就可以使用该功能将主播语音文件和背景音乐文件混合，最终生成一个音频文件，同时有主播语音和背景音乐声。

11.文本字幕翻译

详解各个功能及界面设置-一个开源视频翻译配音工具

该功能是通用文字翻译，类似百度翻译，但同时支持srt格式字幕的翻译，翻译结果将保留原字幕格式。

12. 文件格式转换

各种音频视频格式之间的转换

详解各个功能及界面设置-一个开源视频翻译配音工具

13. 背景人声分离

将音频或视频中的声音分离为2个音频文件，分别是人声音频文件、其他声音文件，基于uvr5实现

详解各个功能及界面设置-一个开源视频翻译配音工具

14. 下载油管视频

输入油管视频的播放页面，即可在此下载视频到计算机。

详解各个功能及界面设置-一个开源视频翻译配音工具

以上就是该软件的主要功能。

再介绍下软件界面中各个设置选项的涵义:

详解各个功能及界面设置-一个开源视频翻译配音工具

选择视频按钮:这个是用来从电脑里选择要处理的视频，一次可以选择多个视频。
保存到.. 按钮:用来选择将处理后的文件保存到哪里去，如果不选择，默认就和原始视频保存在一个文件夹内的_video_out内。
右上角打开按钮:用来打开目标文件夹。
翻译渠道按钮:用来选择翻译文字和字幕时使用哪个翻译，支持百度翻译 google翻译微软翻译腾讯翻译 chatgpt翻译等。
代理地址文本框:如果你使用google翻译或者chatGPT，需要在此填写代理地址才可以访问，代理格式为 http://127.0.0.1:数字端口号。
原始语言:就是视频里的人类说话语言。
目标语言:你想翻译为哪种语言。
TTS类型:使用什么配音渠道，目前支持免费的edgeTTS、openaiTTS-1、elevenlabsTTS和原声音色配音项目clone-voice。
配音角色:即发音角色，不同角色音色不同，有女声男声等。
试听按钮:在选好配音角色之后，可以点击试听按钮，感受当前角色的声音，注意可能需要几秒钟来生成和输出声音。
faster模型和openai模型:这两个模型是用来将视频里的人类说话声转为文字的，都可以选择base small medium large-v2 large-v3，从base到large-v3，效果越来越好，但所需计算机硬件条件也越来越高。具体可阅读上一篇文章。