前言

很久之前就想给大家介绍声音克隆开源项目GPT-SoVITS ，但是看到视频教程过于复杂了，最近又出现了一个剪辑《人民的名义》的短视频非常搞笑，挺火的，先给大家看下这个视频：

以下视频来源于每日图片大赛，

我就找到了一款最新更加强大的声音克隆项目CosyVoice。CosyVoice 是阿里通义实验室在七月初开源的一款专注于自然语音合成的语音大模型，它具备多语言、多音色和细腻的情感控制能力。这个系统支持中文、英文、日文、粤语和韩语五种语言的语音生成，并且在语音合成的效果上远超传统模型。

只需3到10秒的原始音频样本，CosyVoice便能够复刻出相似的音色，包括语调和情感等细节，实现跨语种的语音合成。

CosyVoice的另一个亮点在于它对生成语音情感和韵律的精细控制，这是通过富文本或自然语言输入实现的。这种控制机制显著提高了合成语音的情感表达能力。这使得生成的语音更加栩栩如生，充满情感色彩。

部署

首先需要找到官方项目的开源地址

https://github.com/FunAudioLLM/CosyVoice.git

首先克隆官方项目，创建一套独立的Python虚拟环境

git clone https://github.com/FunAudioLLM/CosyVoice.gitconda create -n cosyvoice python=3.8conda activate cosyvoice

此时已经激活了虚拟环境，现在下载项目依赖的第三方包

pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

需要等待很长时间安装PyTorch

接着安装pyini
Pynini是一个基于字符串的传播和转换的库,可以用于各种自然语言处理任务,如词性标注、名词短语提取和依赖句法分析。

conda install -y -c conda-forge pynini==2.1.5

根据文档要提前下载模型，这里不使用阿里的魔搭包下载，而是使用Git下载，前提是安装git lfs 插件：

# git模型下载，请确保已安装git lfsmkdir -p pretrained_modelsgit clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained_models/CosyVoice-300Mgit clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFTgit clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instructgit clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained_models/CosyVoice-ttsfrd

模型文件非常大，又需要等待较长时间才能下载完成，但完成后即可成功使用，使用以下命令启动服务：

python3 webui.py --port 50000 --model_dir pretrained_models/CosyVoice-300M

这里有个坑，我这里是局域网访问，需要把webui.py文件中

...demo.launch(server_port=args.port)...

改成

...demo.launch(server_port=args.port, server_name="0.0.0.0")...

如果是本机访问可以忽略，这时访问局域网IP加端口号50000就能访问到这个由gradio库搭建的WebUI 网页应用了

测试

这里只简单测试一下，来找一段《还珠格格》中紫薇的语音素材，让她说一段毫无逻辑的台词，台词内容：

我不敢苟同，因为我个人认为，这个意大利面就应该拌42号混凝土，因为这个螺丝钉的长度，它很容易会直接影响到挖掘机的扭矩你知道吧，你往里砸的时候，一瞬间它就会产生大量的高能蛋白，俗称ufo，会严重影响经济的发展，甚至对整个太平洋以及充电器都会造成一定的核污染，你知道啊？再者说，根据这个勾股定理，你可以很容易地推断出人工饲养的东条英机它是可以捕获野生的三角函数的，所以说这个秦始皇的切面是否具有放射性啊，特朗普的N次方是否含有沉淀物，都不影响这个沃尔玛跟维尔康在南极会合

第一步上传原素材的音频文件（可能需要处理以使效果更好），第二步输入原素材的音频文件对应的字幕，第三步输入想要的生成的语音的文案，最后一步点击生成，耐心等待

等待了30秒生成了21秒的视频，效果非常不错，生成的语音的效果跟素材非常相似，只是长段的语音文案生成时可能会丢失一部分内容（可以通过自己手动拼接处理这个问题）。给大家分享一下素材和克隆生成后的语音效果：

温馨提示： 本文最后更新于2024-10-19 21:16:38，某些文章具有时效性，若有错误或已失效，请在下方留言或联系胖猫营销网。

本站代码模板仅供学习交流使用请勿商业运营，严禁从事违法，侵权等任何非法活动，否则后果自负！

转载请注明来源、保留版权，谢谢合作！

加入QQ群微信公众号图标

微信公众号联系我们图标

联系我们请求更新图标

请求更新

本文链接：

文章作者

胖猫营销网

隐私政策

政策

用户协议

协议

赞助我们

赞助

THE END

Ai智能最新发布最新资讯语音合成

文字广告位10/月	文字广告位10/月	文字广告位10/月	文字广告位10/月	文字广告位10/月
文字广告位10/月	文字广告位10/月	文字广告位10/月	文字广告位10/月	文字广告位10/月
文字广告位10/月	文字广告位10/月	文字广告位10/月	文字广告位10/月	文字广告位10/月
文字广告位10/月	文字广告位10/月	文字广告位10/月	文字广告位10/月	文字广告位10/月
文字广告位10/月	文字广告位10/月	文字广告位10/月	文字广告位10/月	文字广告位10/月
温馨提示：请在上面搜索\| 查找更多免费资源，如需广告位请联系站长 QQ 656336268

阿里开源语音大模型CosyVoice：3秒还原声音，从部署到克隆的完整指南

前言

部署

测试

请登录后发表评论

在线用户

小黑屋被关小黑屋的账号

实时天气卡片

胖猫の工具

胖猫推荐，安全有保障

本页生成数据库 21 次查询，耗时 1.153 秒，使用 14.89MB 内存