音频处理分割?

作者站长头像
站长
· 阅读数 6

目前需要用whsiper做语音转录服务,whisper限制25M的大小,请问该如何做这个事情? 目前的需求是 Android iOS Web 都需要这个功能,目前有几种方案:

方案1

做一个音频分割服务器,然后在做一个转录服务。前端拿到语音文件之后,把语音文件传给音频分割服务器,分割服务器根据波形进行分割,分割完之后传给转录接口。

问题: 这样做的话是不是会造成语音上传多次导致时间较长的问题,因为音频要先上传到音频分割服务器 在传给 转录服务器

方案2

直接在前端进行分割,为了不丢失数据以及避免在句中分割, 准备采用比如 2min前后的空白时间进行分割这样的方案。 这样ios android web 都要做,是不是开发难度较大?

因为不太懂这个东西,请大佬们给点建议。

回复
1个回答
avatar
test
2024-06-28

最好的方法是方案1,不过应该是前端上传到音频分割服务,这个音频分割服务不仅做了分割,还应该发送音频给转录接口,一次性完成,分割服务和转录接口应该在内网中,网络传递耗时可以忽略不计。

如果你目前不是这么设计的,想办法设计成这样。

方案二,明显不行,ios 跟 android 还能想想办法,web 直接分割的难度太大了,多平台共同维护本身也是一个很大麻烦。

回复
likes
适合作为回答的
  • 经过验证的有效解决办法
  • 自己的经验指引,对解决问题有帮助
  • 遵循 Markdown 语法排版,代码语义正确
不该作为回答的
  • 询问内容细节或回复楼层
  • 与题目无关的内容
  • “赞”“顶”“同问”“看手册”“解决了没”等毫无意义的内容