只需步,无限制作自己的专属数字人

开通VIP,畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

搞一张照片,搞一段语音,合成照片和语音,同时让照片中的人物动起来,特别是头、眼睛和嘴。

语音合成的方法很多,也比较成熟了,大家可以选择自己方便的,直接录音也可以,只要能生成一个语音文件就行了。

如下图所示 :输入你的文字,选择播音员,填写验证码,点击转换按钮。

生成速度挺快的,然后在左边这里可以试听和下载。

这里介绍的方法需要使用比较真实的照片,如果太二次元了,视频人脸的效果会比较差。大家可以使用自己真实的照片,也可以使用Stable Diffusion生成一张,也可以使用图生图稍微改造下自己的照片,总之要尽量真实一些。

另外这张照片尽量正面一些,侧脸生成的视频可能会出现头和身体拼接不太好的情况,所以如果有证件照是最好的。

我这里演示生成一张真实照片,看AI生成的美女都有些厌倦了,今天我们生成个帅哥。

(1)生成工具使用 Stable Diffusion WebUI,模型选择 realisticVisionV20,这个模型生成的图片看起来比较真实。

提示词:best quality,  front photo of a young man, chinese, portrait,black t-shirt, short hair,  (looking at viewer), Sense of technology, in an office, computers, screen, books, upper body,

反向提示词:easy_negative, (worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, skin spots, acnes, skin blemishes, age spot, (ugly:1.331), (duplicate:1.331), (morbid:1.21), (mutilated:1.21), (tranny:1.331), mutated hands, (poorly drawn hands:1.5), blurry, (bad anatomy:1.21), (bad proportions:1.331), extra limbs, (disfigured:1.331), (missing arms:1.331), (extra legs:1.331), (fused fingers:1.61051), (too many fingers:1.61051), (unclear eyes:1.331), lowers, bad hands, missing fingers, extra digit,bad hands, missing fingers, (((extra arms and legs))),

(2)采样器这里选择DPM++ 2M SDE Karras,选择别的也没问题,只要生成一张人物照片就可以了。

采样步数根据采样器选择,这里是40,建议20-40,以实际出图效果为准。

尺寸这里选择竖版,放到手机里会比较合适。

(3)这里我选择一张自认为看起来还不错的图片,把这张图下载下来备用。

这是最关键的一步,这里还是使用Stable Diffusion WebUI,不过只是使用其中的一个插件,这个插件的名字就是SadTalker。

这里默认大家都安装好Stable Diffusion WebUI了,如果还没安装过的朋友,建议去AutoDL上租一个服务器体验下,方便不贵,选择A5000规格的就差不多了,安装教程网上应该挺多的,这里就不啰嗦了,还不会的可以联系我。

关于SadTalker插件的安装方法我这里介绍两种。

适合访问Github或者外网比较顺畅的用户,因为需要自动下载很多东西。

在SD WebUI中通过扩展插件页面安装,如下图所示:

这个插件需要下载的文件很多,有的文件还比较大,请耐心等待。如果不确定是不是出问题了,可以看看控制台输出的内容,有没有错误。

安装完了,不要忘了重启Stable Diffusion,要整个重启,不要只重启WebUI。

适合访问外网不太方便的用户,把这个插件需要的文件通过别的方式提前下载好,比如迅雷下载,只要上传到指定的目录就行了。

主程序:

放到 stable-diffusion-webui/extensions/SadTalker

视频模型:

放到 stable-diffusion-webui/extensions/SadTalker/checkpoints

修脸模型:

放到 stable-diffusion-webui/extensions/SadTalker/gfpgan/weights 和 stable-diffusion-webui/models/GFPGAN

为了方便使用这种方式部署,我也把相关的文件做了一个打包,大家不用一个一个下载。关注公众号:萤火遛AI,发消息:数字人,即可获得下载地址。

(1)首先把文件下载到本地或者你的云环境,这里以AutoDL为例,我把它放到 /root 目录中。

(2)然后解压文件到 stable diffusion webui的扩展目录,并拷贝几个文件到SD模型目录:

看到下边的结果,就基本上差不多了。

扩展目录下边有这个文件夹:

SD models 目录下有这几个文件:

部署完毕,不要忘了重启。

在SD WebUI的Tab菜单中找到SadTalker,按照下边的顺序进行设置。

1、上传人物照片。

2、上传语音文件。

3、选择视频人物的姿势:实际就是人说话时头部的动作,个人感觉有点摇头晃脑,可以使用不同的数字看看。

4、分辨率:512的视频分辨率比256大。

5、图片处理方法:corp是从图片截取头部做视频,resize适合大头照或者证件照,full就是全身照做视频,extcorp和extfull没做细致研究,大家自己对比下。

6、Still Model:让头部不要动作太大,以致偏离身体,负面效果是头不怎么动了。

7、GFPGAN:修脸,说话时嘴和眼的动作可能让脸有些变形,选上他让脸部好看一些。

我这里生成的视频(视频太占地,截个图算了):

(1) 启动的时候报错:SadTlker will not support download...

这个错误就是模型下载不下来,告诉我们要去手动下载。

这里有两个方法:

执行下边的命令触发下载,注意 cd 之后的路径替换成你自己的SadTalker安装路径:

(2) 合成视频时报错:No module named 'xxx'

使用 pip install xxx 就可以了,注意如果使用了python虚拟环境,需要先激活它,比如这里要先执行source xxx。

(3)合成视频时报错:No such file or directory: '/tmp/gradio/xxx',创建目录就可以了:

以上就是本文的主要内容了,使用这种方法就可以无限制作自己的AI专属数字人,想要什么样的风格都可以,想做多少个都可以,有兴趣的快去试试吧。当然要遵纪守法,不要搞出事情来。

如果你有任何问题,欢迎与我交流,V/X:yinghuojun007。

THE END
0.AIGC一篇文章,帮你了解什么是虚拟数字人?知道了什么是数字人,接下来就要搞清楚数字人到底是怎么说话、互动的,是背后有真人在操控,还是完全通过技术生成。 面对新兴的数字人,相信很多读者都存在类似的疑问。 数字人的诞生发展和AI人工智能可以说是密不可分,想了解数字人的运作原理,首先要知道数字人的通用系统框架。 jvzquC41dnuh0lxfp0tfv8vsa5?29;57;1gsvrhng1jfvjnnu1748>922:6
1.什么是AI虚拟数字人,数字人有什么用?ai数字人中国元宇宙科技有限公司(香港)什么是AI虚拟数字人?去年以来,原宇宙热度居高不下,作为原宇宙场景入口和连接纽带的AI虚拟数字人也备受瞩目。 当虚拟数字人已经从简单的纸片人进化到更加精细化、更加智能化的形象时,科技、互联网、传媒、传统制造业等行业都相继出现虚拟数字人,掀起了一股AI虚拟数字人的热潮。有报告预测jvzquC41dnuh0lxfp0tfv8|gkzooa?<;297698ftvkimg8igvcomu8652:<7;=7
2.全球首款开源数字人模型duix.ai,全面解读!最近一直在研究AI大模型在业务场景中的应用,刚好发现一款非常有意思的开源数字人模型——duix.ai. image.png 它是硅基智能打造的数字人智能交互平台。而duix-ai就是基于DUIX开源的全球首个2D真人级、AIGC实时渲染数字人模型,该项目不仅提供了直观的效果展示,还支持用户进行二次开发. jvzquC41dnuh0lxfp0tfv8PncwyMku~1ctzjeuj1fgzbkux1366:8B872
3.2021年虚拟数字人大盘点:柳夜熙、AYAYI、华智冰都是谁?从技术层面来看,龚俊数字人处在行业领先水平。在外表呈现上,百度引入了4D扫描技术捕捉真人说话以及日常表情的面部细微变化,做到对龚俊真人的超写实还原。语音交互上,百度App语音搜索的识别准确率已经达到98%,还能识别中英文混杂、生僻字、方言等各种语音对话。依托TTS技术,龚俊数字人借由AI合成的声音无限接近于原声,为用户jvzq<84hkpgoen3ukpg/exr0ep5tvxhm1jzl8724332467:1fud/rp{coxn|:<:52=60|mvon
4.科技前沿:揭秘数字虚拟形象——AI数字人技术是什么,如何应用于一、数字人是什么意思 数字人指的是通过人工智能技术结合计算机图形学、语音识别、自然语言解决等多种技术,创造出的具有逼真外观和智能表现的虚拟人类形象。这些数字人不仅在外观上与真人无异,还能通过算法实现与人类相似的情感表达和语言交流,为客户提供更为自然、真实的互动体验。 jvzquC41yy}/{jsiiw4ux8|gdiuw1jnvqpm03@=:584ivvq