阿里云Funasr语音识别大模型本地部署，效果远超OpenAI的Whisper

站长

2024年06月05日 22:45 · 阅读数 98

前言

前段时间测试一下OpenAI的语音识别模型当时发现效率很低，今天发现阿里有一个专注的语音识别大模型FunAsr

看介绍Funasr的中文识别能力应该比Whisper更强大：

Funasr的模型paraformer-zh受益于60000小时的纯人工标注的数据来训练，中文参数达到220M个，它的两个模块，一个是基于前馈顺序记忆网络（FSMN-VAD）的语音活动检测模型，另外一个是基于可控时延 Transformer（CT-Transformer），相比 OpenAI 的 Whisper 这两块能力还是比较突出的。相对比的Whisper 则用了 68w 小时的数据，Whisper 针对的是全球市场，68w小时里面有多少中文素材就很难说了，今天来实测一下阿里的Funasr。

部署

我这里没有使用官方介绍部署方法，介绍比较复杂，而是使用阿里巴巴在GitHub开源衍生的工具，开源项目链接：

github.com/alibaba-dam…

阿里云Funasr语音识别大模型本地部署，效果远超OpenAI的Whisper

首先需要下载代码：

git clone https://github.com/alibaba-damo-academy/FunClip

今天顺便记录一下如何使用python venv 搭建python 虚拟环境，这个项目没有介绍如何创建虚拟环境，但是我自己电脑有很多的Python虚拟环境

目前的目录结构：

阿里云Funasr语音识别大模型本地部署，效果远超OpenAI的Whisper

进入项目根目录，新建文件夹venv并进入这个文件夹(linux环境)

mkdir venv
cd venv

创建环境并进入该虚拟环境

python -m venv .
cd..
source venv/bin/activate

此时虚拟环境创建完毕并且已经进入了创建的这个Python虚拟环境（在命令行前面有（venv）标识），然后接着安装项目所需要的python 第三方包

pip install -r ./requirments.txt
pip install torch torchaudio
pip install -U funasr

如果你希望使用自动生成字幕的视频裁剪功能，需要安装imagemagick

apt-get -y update && apt-get -y install ffmpeg imagemagick
sed -i 's/none/read,write/g' /etc/ImageMagick-6/policy.xml

现在开始就可以启动项目了

 python  funclip/launch.py

阿里云Funasr语音识别大模型本地部署，效果远超OpenAI的Whisper

此时会下载默认的模型，体积非常大，我这里报错了，提示我需要升级gradio这个软件包，我通过相关去升级了。

pip install --upgrade gradio -i https://pypi.tuna.tsinghua.edu.cn/simple

接着再启动就可以了（遇到相关问题学会自主排查，多了就能第一时间快速处理完毕了）

阿里云Funasr语音识别大模型本地部署，效果远超OpenAI的Whisper

直接访问提示的地址就OK了

阿里云Funasr语音识别大模型本地部署，效果远超OpenAI的Whisper

实测

根据页面提示的使用方法

Step1: 上传视频或音频文件（或使用下方的用例体验），点击识别按钮

Step2: 复制识别结果中所需的文字至右上方，或者设置说话人标识，设置偏移与字幕配置（可选）

Step3: 点击裁剪按钮或裁剪并添加字幕按钮获得结果

选择一个视频，这是著名的意大利面就应该拌四十二号混凝土

阿里云Funasr语音识别大模型本地部署，效果远超OpenAI的Whisper

点击 “识别”速度非常快，50多秒的视频总共耗时2秒就把语音内容识别出来了：

阿里云Funasr语音识别大模型本地部署，效果远超OpenAI的Whisper

我不敢苟同他的观点啊，那你说我个人认为这个意大利面就应该拌四十二号混凝土。因为这个螺丝钉的长度，它很容易会直接影响到挖掘机的扭矩。你知道吧？你往里砸的时候，一瞬间它就会产生大量的高能蛋白，俗称UFO会严重影响经济的发展，甚至对这个太平洋以及充电器都会造成一定的核核核污染。你知道吧？啊，再者说根据这个勾股定理，你可以很容易的推断出人工思养的东条音机，它是可以捕获野生的三角函数的。所以说这个这个这个这个这个你不不管这个秦始皇的切面是否具有放射性啊，特朗普的n次方是否含有沉淀物，都不影响这个这个沃尔玛呃，跟这个维尔康在南极汇合啊。

SRT字幕结果也出来了

0
00:00:00,390 --> 00:00:01,910
我不敢苟同他的观点啊，
1
00:00:01,990 --> 00:00:07,5
那你说我个人认为这个意大利面就应该拌四十二号混凝土。
2
00:00:07,760 --> 00:00:09,300
因为这个螺丝钉的长度，
3
00:00:09,300 --> 00:00:12,80
它很容易会直接影响到挖掘机的扭矩。
4
00:00:12,340 --> 00:00:12,980
你知道吧？
5
00:00:13,100 --> 00:00:14,460
你往里砸的时候，
6
00:00:14,560 --> 00:00:17,800
一瞬间它就会产生大量的高能蛋白，
7
00:00:18,280 --> 00:00:21,615
俗称 UFO会严重影响经济的发展，
8
00:00:22,450 --> 00:00:26,310
甚至对这个太平洋以及充电器都会造成一定的核核核污染。
9
00:00:26,310 --> 00:00:26,850
你知道吧？
10
00:00:27,210 --> 00:00:27,450
啊，
11
00:00:28,90 --> 00:00:29,950
再者说根据这个勾股定理，
12
00:00:29,950 --> 00:00:33,590
你可以很容易的推断出人工思养的东条音机，
13
00:00:33,670 --> 00:00:36,585
它是可以捕获野生的三角函数的。
14
00:00:37,330 --> 00:00:43,930
所以说这个这个这个这个这个你不不管这个秦始皇的切面是否具有放射性啊，
15
00:00:43,930 --> 00:00:46,715
特朗普的 n次方是否含有沉淀物，
16
00:00:47,580 --> 00:00:50,630
都不影响这个这个沃尔玛呃，
17
00:00:50,630 --> 00:00:55,125
跟这个维尔康在南极汇合啊。

可以说是非常牛的，这么高难度的语音内容，没有逻辑的话，识别结果几乎没有语音错误的字，还有SRT字幕。

后面裁剪按钮或裁剪并添加字幕就没有测试了，这个根据视频转文字的速度效果非常好了。

最后

对比了一下之前的写的文章效果非常明显，后面可能会对接一些API 做一些有意思的东西，敬请期待。

阿里云Funasr语音识别大模型本地部署，效果远超OpenAI的Whisper

如果觉得内容不错，欢迎点个关注

转载自:https://juejin.cn/post/7374293974578348066