funasr的服务部署
本文最后更新于 2024年5月30日 早上
funasr是一个语音识别工具包,提供多种功能,包括语音识别(ASR)、语音端点检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别等,本文是对它地使用记录
1 本地使用
1.1 安装与测试
安装funasr包
1 |
|
测试:
1 |
|
目前我使用地版本来看,会遇到No module named 'torchaudio'
,就安装下
1 |
|
然后上面的测试命令也是默认使用modelscope
而不是huggingface
,所以还需要要安装
1 |
|
输出
1 |
|
1.2 代码调用
下列只记录我可能用到的,更详细的请参考官方说明
模型加载的相关参数
1 |
|
- model(str): 模型仓库 中的模型名称,或本地磁盘中的模型路径
- device(str): cuda:0(默认gpu0),使用 GPU 进行推理,指定。如果为cpu,则使用 CPU 进行推理
- ncpu(int): 4 (默认),设置用于 CPU 内部操作并行性的线程数
- output_dir(str): None (默认),如果设置,输出结果的输出路径
- batch_size(int): 1 (默认),解码时的批处理,样本个数
- hub(str):ms(默认),从modelscope下载模型。如果为hf,从huggingface下载模型。
- **kwargs(dict): 所有在config.yaml中参数,均可以直接在此处指定,例如,vad模型中最大切割长度 max_single_segment_time=6000 (毫秒)。
1.2.1 非实时语音识别
1 |
|
输出
1 |
|
1.2.2 标点恢复
看之后是否能用在我那个字幕提取工具上
1 |
|
输出
1 |
|
2 服务器部署
2.1 中文离线文件转写服务(CPU版本)
docker安装
1 |
|
镜像启动
1 |
|
运行后会自动进入容器
启动服务
1 |
|
官方给的测试脚本
该脚本需要的环境
1 |
|
下载脚本
1 |
|
运行脚本
1 |
|
输出
1 |
|
该脚本的其他参数:
1 |
|
裁切后的示例代码
官方提供的示例功能多,所以内容也多,我实际上也就使用单音频的离线转换,所以下列示例就可以了
1 |
|
kuonasr仓库
将上述代码添加到kuonasr仓库中,修改配置选择funasr,填写url后即可通过下列方式使用。
1 |
|
输出
1 |
|
funasr的服务部署
https://blog.kala.love/posts/cbe699d7/