在本文中,我将继续记录如何使用Stable Diffusion进行画图。
我将以贴合画图实际运用的方式记录学习笔记。
通过一件件实际画图事项例子,对Stable Diffusion进行讲解学习,避免大家觉得单讲操作枯燥。
大家可对照目录,跳转查看自己关心的内容。
目录
用到的内容:高分辨率修复 (Hires. fix)、Tiled Diffusion、Tiled VAE
在进行画图时,图片的尺寸一般设置为512*512、512*768、768*512。
如果设置过大,比如1920*1080,画图时硬件跟不上则容易跑崩了。
生成的图像不清晰,放大是模糊的。
要生成高清大图,可以使用 高分辨率修复+Tiled Diffusion+Tiled VAE。
首先,如果你没有Tiled Diffusion、Tiled VAE这两个扩展的话,要进行安装。
有的话就不用安装了。
在扩展里搜索安装 TiledDiffusion with Tiled VAE 即可。
安装完之后在画图界面会出现这两个选项,将其启用。
这里不再重复介绍。
在这个模块中,首先建议不要勾选覆盖图像尺寸、将 ControlNet 张量移至 CPU (如果适用)这两个选项。
其次潜空间分块重叠设置为潜空间分块宽度的一半。
例如潜空间分块宽度为96,潜空间分块重叠设置为48。
例如潜空间分块宽度为64,潜空间分块重叠设置为32。
(96*8=768、64*8=512)
其他参数可以使用默认。
在这个模块中,首先建议勾选将VAE移动到GPU (如果允许)。
其次如果自身画图吃力,可以将解码器分块大小调整至64。
其他参数可以使用默认。
安装扩展、调整完上述模块内容后,即可开始画高清大图了。
如上图所示,选择模型,输入提示词。
如上图所示,选好采样方法、迭代步数、高清分辨率修复放大算法等参数。
如上图所示,调整好Tiled Diffusion、Tiled VAE模块参数。
点击右上角生成按钮开始生成图片。
生成的图片如上图所示。
用到的内容:图生图、Tiled Diffusion、Tiled VAE
假设我有一张图,分辨率是640*400,图片如下。
现在我要将图片放大4倍,分辨率为2560*1600,作为电脑桌面壁纸。
首先选择上方图生图。
然后在下方图生图将要放大的图片导入进去。
在这个模块中,首先不要勾选覆盖图像尺寸、将 ControlNet 张量移至 CPU (如果适用)这两个选项。
最后建议勾选启用噪声反转,反转步数开到30。
其他参数可以使用默认。
在这个模块中,首先建议勾选将VAE移动到GPU (如果允许)。
其次如果自身画图吃力,可以将解码器分块大小调整至64。
其他参数可以使用默认。
上述操作完成后,点击右上边的生成按钮坐等出图,生成的图如下。
查看图片分辨率为2560*1600,满足我的要求。
用到的内容:WD 1.4标签器、图生图、ControlNet Lineart 或ControlNet Tile
假设我有张图片,图片如下。
现在我要将这张图片转为二次元图片。
首先点击WD 1.4标签器这个扩展,在右上方。
然后将图片放进去,点击反推,推出图片的提示词。
点击发送到图生图。然后对提示词进行调整,将不对的提示词删除。
之后调整参数,注意图片尺寸要和导入的原图一样。
接下来可以只使用ControlNet Lineart,也可只使用ControlNet Tile,或者两个都同时使用。
这些操作都是可以的。
例如使用ControlNet Lineart线稿模式。
例如使用ControlNet Tile模式。
注意控制权重不要特别低,也不要特别高,个人觉得0.5合适。
例如ControlNet Lineart和ControlNet Tile都使用。
大家自行选择使用,反正哪个感觉生成的图片效果好就用哪个。
最后,点击右上边的生成按钮坐等出图,生成的图如下。
二次元转真人的操作和这个是一样的。
然后进行二次元转真人。
使用的是ControlNet Lineart。
用到的内容:图生图局部重绘、ControlNet局部重绘
首先在最上方选择图生图。
然后下面选择局部重绘。
将要修改的图片放入。例如现在我修改的图片如下。
假设我要将图片女生短裤改为裙子,在局部重绘中涂抹短裤区域。
之后选择重绘区域仅蒙版区域,图片尺寸和原图一样。
之后就基本操作完了,点击右上边的生成按钮坐等出图,生成的图如下。
如果想要改变图中比如上衣,或者戴个项链等,操作与此相同。
暂时只想到这些实际画图事项例子,如果后续有遇到或者想到,就在此文添加编写。
Stable Diffusion web UI允许用户通过浏览器图形界面来操作Stable Diffusion。
我们可以将Stable Diffusion web UI部署在本地电脑上,随时随地进行AI绘画。
该文档上给出了在Windows和Linux操作系统上的安装方法,按照方法进行安装部署。
本文介绍另一种安装方式,来自B站的UP主秋葉aaaki的绘世整合包。
这种整合包打包了 Python、Git、CUDA 等环境,同时提供了国内镜像地址,能流畅的安装扩展功能。我们只需下载解压整合包就可直接启动运行,更适合新手。
从上述所给的夸克网盘下载,解压之后双击运行程序直接启动运行绘世界面。
如果双击运行程序启动不起来,可以将运行程序名字改成英文,例如我改成了AAA,之后再双击运行程序启动绘世界面即可。
启动运行绘世界面之后先别急着点击一键启动,先进行部分参数设置。
在生成引擎中选择你的GPU,而不是CPU,例如我的GPU是N卡4060。
选择默认的选项:尝试使用xFormers(推荐)。
将开启VAE模型半精度优化、数值溢出检查(nan-check)这两个选项关闭,降低出现错误图片或黑图的概率。
关闭使用共享内存和模型哈希计算。
进行监听设置可使远程访问电脑使用。
开启启用API可于PS等软件进行联动使用。
可开启启动完毕后自动打开浏览器选项。
如果启动时报错,可以使用疑难解答中的开始扫描,自动修复一些错误。
上述设置完毕之后,点击一键启动,即跳转浏览器来到了Stable Diffusion web UI界面,就可以操作AI绘画了。
当我们来到浏览器Stable Diffusion web UI界面之后,我们在界面上操作开始AI绘画。
Stable Diffusion web UI界面左上角为Stable Diffusion模型和外挂VAE模型。
主模型控制了AI绘图生成图片的风格、色彩和类型等等。选择不同的模型,生成不同的图片。
模型可以在启动器绘世界面模型管理中下载。
也可以点击启动器绘世界面小工具中的模型站网站链接跳转之后挑选自己喜欢的模型下载。
下载好的模型放在 AI画图运行程序所在文件夹中的modelsStable-diffusion 目录下,在生成图片中即可选用这个模型即可。
VAE模型是在主模型的基础,主要影响图片色彩的生成,有点类似于滤镜。
同时,在模型网站如果发现自己喜欢的VAE模型后,将其下载下来,放在 AI画图运行程序所在文件夹中的modelsVAE 目录下,在生成图片中即可选用这个模型即可。
CLIP 终止层数可以理解为数值越高,AI绘图对提示词内容的理解自由度越高。
一般数值建议设置为1或2。
这个区域包含了Stable Diffusion web UI中的默认功能和扩展功能。
如果选择文生图,下面出现正面提示词和反向提示词两个框。
想要出现在生成图片的东西,用提示词描述,用提示词告诉AI你想生成什么图片。
写提示词时每个词、短句用逗号隔开。
写提示词时尽量写短句而不是短词。
写提示词时重要的提示词写在前面。
提示词默认权重是1,低于1为减弱,高于1为加强。例如:(sunlight:1.1)、((simple background))。
最后,正向提示词有个通用的模板可套在你的提示词上:
masterpiece,high quality,highres,offical art,beautiful and aesthetic,
就是不想要出现在生成图片的东西,用反向提示词描述。
你自己如果有哪些东西要不出现在生成图片之中,在就反向词中写上。
除此之外,如果你自己没什么额外的要求,反向词有个通用的模板:
nsfw,sketches, (worst quality:2),(low quality:2),(normal quality:2),((monochrome)),((grayscale)), facing away,looking away, text,error,extra digit,fewer digits,cropped,jpeg artifacts,signature,watermark,username,blurry, skin spots,acnes,skin blemishes,bad anatomy,fat,bad feet,cropped,poorly drawn hands,poorly drawn face,mutation,deformed, tilted head,bad anatomy,bad hands,extra fingers,fewer digits,extra limbs,extra arms,extra legs,malformed limbs,fused fingers, too many fingers,long neck,cross-eyed,mutated hands,bad body,bad proportions,gross proportions,text,error,missing fingers, missing arms,missing legs,extra digit,extra arms,extra leg,extra foot,missing fingers,mole:1.3
这个区域用于设置Stable Diffusion web UI生成图片的参数。
不同的采样方法有着不同的采样算法,配合模型在生成图片效果、是否收敛和速度上会有所区别。
推荐使用Euler a、Euler和DPM++ 2M这三个。其中选用DPM++ 2M时调度类型要选Karras。
迭代步数可以理解为去噪多少次,可选的数值范围为1至150,迭代步数数值越低,图片生成的效果越差。
如果采样方法选择了Euler a、Euler和DPM++ 2M这三个,建议迭代步数选择30至40步。
通过放大算法将当前生成图像放大,之后进行内容修复重新绘制。
高分辨率修复一般用于对人脸进行修复和添加环境细节。
放大算法:如果你是画二次元,推荐使用R-ESRGAN 4x + anime6B,如果你是画三次元、写实风格,推荐使用R-ESRGAN 4x。4x-UltraSharp在动漫和写实风格都表现出色,推荐使用,但要去模型网站上下载。
高分迭代步数:设置为0则表示与迭代步数保持一致,设置为15则是保底如效果好无需再设置高。
重绘幅度:设置0.1—0.4为基本保持画面结构,细节调整逐步增加;设置0.4—0.8为画面大修,但还会参照之前的构图;设置0.8以上就重绘的和原图没关联了。
放大倍数:要放大几倍就设置几倍,视情况而定。一般推荐放大2倍。
进行细节修复和模型融合。
模型:选择需要融合的模型。
切换时机:选择模型融合的时机,按百分比进度来调,越靠后融合越像融合的模型。
尺寸控制图片大小,设置想要的宽度和高度。
一开始不要直接生成大图,不要宽度和高度设置的很高。
Stable Diffusion web UI默认的宽度和高度是512*512,推荐设置的宽度和高度为512*768、768*512。
对于设置批次、单批数量,生成图片数量=生成批次*每批数量。若要生成多张图片,推荐调高生成批次即可。
提示词引导系数理解为数值设置的越高生成图片越受提示词影响。
提示词引导系数推荐设置在5—9之间,如果发现生成图片崩了就要调小提示词引导系数。
随机种子理解为在提示词和其它参数设置一样的情况下,随机数种子决定了生成图片的结果。
随机种子设置为-1是随机值。生成的图片确定之后,可锁住随机种子,然后调整参数微调画面。
这个是用来选择Embedding模型的。
又名textual inversion。
Embedding模型可以在启动器绘世界面模型管理中下载,也可在模型网站里下载。
下载之后放在 AI画图运行程序所在文件夹中的embeddings 目录下,在生成图片中即可选用这个模型即可。
Embedding模型用在反向词的用法较多。每次写一大堆反向词毕竟也麻烦,有人专门做了个负面词模型,在写反向词的时候选用上。
例如我使用easynegative这个模型,在反向词中有easynegative。
这个是用来选择Hypernetwork模型的。
但Hypernetwork模型基本上不用了,如果要用的话也是一样,可以在启动器绘世界面模型管理中下载,也可在模型网站里下载。
下载之后放在 AI画图运行程序所在文件夹中的modelsHypernetwork 目录下,在生成图片中即可选用这个模型即可。
这个是用来选择Lora模型的。
Lora模型是图像生成微调模型,可在原有大模型基础上进行调整。
Embedding模型可以在启动器绘世界面模型管理中下载,也可在模型网站里下载。
下载之后放在 AI画图运行程序所在文件夹中的modelsLora 目录下,在生成图片中即可选用这个模型即可。
Lora模型权重可正可负。
在橘色生成按钮处可以鼠标右键选择无限生成或停止无限生成,方便挂机自动生成图片。
点击蓝色下斜的箭头可自动读取上一张图片参数。
点击第三个垃圾桶图标按钮可清空提示词内容。
点击第四个白板图标可保存当前绘画为预设样式。
同时,下面这个横条可选择自己保存的预设样式,便于生成。
脚本里最有用的是Prompt matrix和X/Y/Z plot。
Prompt matrix能用于比较写的提示词。
X/Y/Z plot能用于各种维度的测试,对模型、设置参数进行比较。
极虎漫剪是用于对小说进行AI配图视频创作。如果你写好了一段小说文字,可以使用极虎漫剪进行AI配图,并配上听书语音,就做成了一个小说推文视频。
安装完之后先要启动Stable Diffusion web UI,之后再启动极虎漫剪,确保Stable Diffusion web UI在启动中才可以使用极虎漫剪。