前言
很久之前就想给大家介绍声音克隆开源项目GPT-SoVITS ,但是看到视频教程过于复杂了,最近又出现了一个剪辑《人民的名义》的短视频非常搞笑,挺火的,先给大家看下这个视频:
以下视频来源于 每日图片大赛,
我就找到了一款最新更加强大的声音克隆项目CosyVoice。CosyVoice 是阿里通义实验室在七月初开源的一款专注于自然语音合成的语音大模型,它具备多语言、多音色和细腻的情感控制能力。这个系统支持中文、英文、日文、粤语和韩语五种语言的语音生成,并且在语音合成的效果上远超传统模型。
只需3到10秒的原始音频样本,CosyVoice便能够复刻出相似的音色,包括语调和情感等细节,实现跨语种的语音合成。
CosyVoice的另一个亮点在于它对生成语音情感和韵律的精细控制,这是通过富文本或自然语言输入实现的。这种控制机制显著提高了合成语音的情感表达能力。这使得生成的语音更加栩栩如生,充满情感色彩。
部署
首先需要找到官方项目的开源地址
https://github.com/FunAudioLLM/CosyVoice.git
首先克隆官方项目,创建一套独立的Python虚拟环境
git clone https://github.com/FunAudioLLM/CosyVoice.gitconda create -n cosyvoice python=3.8conda activate cosyvoice
此时已经激活了虚拟环境,现在下载项目依赖的第三方包
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
需要等待很长时间安装PyTorch
接着安装pyini
Pynini是一个基于字符串的传播和转换的库,可以用于各种自然语言处理任务,如词性标注、名词短语提取和依赖句法分析。
conda install -y -c conda-forge pynini==2.1.5
根据文档要提前下载模型,这里不使用阿里的魔搭包下载,而是使用Git下载,前提是安装git lfs 插件:
# git模型下载,请确保已安装git lfsmkdir -p pretrained_modelsgit clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained_models/CosyVoice-300Mgit clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFTgit clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instructgit clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained_models/CosyVoice-ttsfrd
模型文件非常大,又需要等待较长时间才能下载完成,但完成后即可成功使用,使用以下命令启动服务:
python3 webui.py --port 50000 --model_dir pretrained_models/CosyVoice-300M
这里有个坑,我这里是局域网访问,需要把webui.py文件中
...demo.launch(server_port=args.port)...
改成
...demo.launch(server_port=args.port, server_name="0.0.0.0")...
如果是本机访问可以忽略,这时访问局域网IP加端口号50000就能访问到这个由gradio库搭建的WebUI 网页应用了
测试
这里只简单测试一下,来找一段《还珠格格》中紫薇的语音素材,让她说一段毫无逻辑的台词, 台词内容:
我不敢苟同,因为我个人认为,这个意大利面就应该拌42号混凝土,因为这个螺丝钉的长度,它很容易会直接影响到挖掘机的扭矩你知道吧,你往里砸的时候,一瞬间它就会产生大量的高能蛋白,俗称ufo,会严重影响经济的发展,甚至对整个太平洋以及充电器都会造成一定的核污染,你知道啊?再者说,根据这个勾股定理,你可以很容易地推断出人工饲养的东条英机它是可以捕获野生的三角函数的,所以说这个秦始皇的切面是否具有放射性啊,特朗普的N次方是否含有沉淀物,都不影响这个沃尔玛跟维尔康在南极会合
第一步上传原素材的音频文件(可能需要处理以使效果更好),第二步输入原素材的音频文件对应的字幕,第三步输入想要的生成的语音的文案,最后一步点击生成,耐心等待
等待了30秒生成了21秒的视频,效果非常不错,生成的语音的效果跟素材非常相似,只是长段的语音文案生成时可能会丢失一部分内容(可以通过自己手动拼接处理这个问题)。给大家分享一下素材和克隆生成后的语音效果:
暂无评论内容