作者:Sherlock Xu
来源:bentoml
编译:活水智能
在我之前的文章中,我讨论了大型语言模型(LLMs),介绍了过去一年中一些最先进的开源文本生成模型。
然而,LLMs只是当今快速发展的人工智能世界中的重要参与者之一。同样具有变革性和创新性的是为视觉创作设计的模型,如文本到图像、图像到图像、以及图像到视频的模型。
它们为创意表达和视觉沟通开辟了新的机会,使我们能够生成美观的视觉效果、更改背景、填补缺失部分、复制构图,甚至将简单的涂鸦转化为专业图像。
在这一领域最常被提及的名字之一是 Stable Diffusion,它包括了一系列开源的视觉生成模型,如Stable Diffusion 1.4、2.0和XL,这些模型大多由Stability AI开发。
然而,在由AI驱动的图像生成的广阔宇宙中,它们仅仅是其中的一部分,当你开始选择适合服务和部署的正确模型时,事情可能会变得非常复杂。
在Hugging Face上进行快速搜索,仅文本到图像的模型就超过了18,000个。
在这篇博客文章中,我们将提供一份特色的开源模型列表,这些模型因其生成创意视觉效果的能力而脱颖而出。
就像之前的博客文章一样,我们还将回答一些常见问题,以帮助你在这个令人兴奋但复杂的领域中导航,提供将这些模型用于生产的见解。
稳定扩散模型(Stable Diffusion,简称SD)自2022年推出以来,迅速成为生成性AI领域的家喻户晓的名字。它能够从文本和图像提示中生成逼真的图片。
你可能经常听人们将“扩散模型(diffusion models)”与Stable Diffusion一起提及,这是支持稳定扩散的基础AI技术。
简单来说,扩散模型通过从随机噪声的模式开始,逐渐将其塑造成一个连贯的图像的过程来生成图像,这个过程可逆地添加和移除噪声。
这个过程计算密集,但在稳定扩散中通过潜在空间技术得到了优化。
潜在空间就像是模型可以创建的所有可能图像的一个紧凑、简化的地图。模型不是处理图像的每一个微小细节(这需要大量的计算能力),而是使用这张地图更高效地找到并创建新图像。这有点像在填充所有细节之前先勾勒出图片的主要思想。
除了静态图像,稳定扩散还能产生视频和动画,使其成为各种创意任务的综合工具。
为什么你应该使用 Stable Diffusion
多种变体。 稳定扩散提供了多种流行的基础模型,如稳定扩散1.4、1.5、2.0和2.1、稳定扩散XL、稳定扩散XL Turbo和稳定视频扩散。根据评估,SDXL基础模型的表现显著优于之前的版本。
尽管如此,我认为并不是100%容易说哪个模型生成的图像比其他模型更好,因为结果可能受到多种因素的影响,如提示、推理步骤和LoRA权重。
**一些模型甚至有更多的LoRA可用,这是选择合适模型时的一个重要因素。
对于初学者,我建议你从SD 1.5或SDXL 1.0开始。它们用户友好且功能丰富,非常适合探索而不需要深入技术细节。
可定制和微调。 稳定扩散基础模型可以通过至少五张图片进行微调,以生成特定风格或特定主题的视觉效果,增强生成图像的相关性和独特性。
我最喜欢的之一是SDXL-Lightning,它基于稳定扩散XL构建;它以仅需几步(1、2、4和8步)就能生成高质量图像的闪电般速度而闻名。
可控性。 稳定扩散为你提供了对图像生成过程的广泛控制。例如,你可以调整模型在扩散过程中采取的步骤数量,设置图像大小,指定种子以实现可重复性,并调整引导比例以影响对输入提示的遵循程度。
未来潜力大。 与动画和视频AI系统的集成有巨大的潜力,承诺提供更广泛的创意可能性。
需要注意的点
细节失真。 稳定扩散有时可能无法准确渲染复杂的细节,特别是面部、手和腿。这些错误可能不会立即被注意到。为了改善生成的图像,你可以尝试添加负面提示或使用特定的微调版本。
图像中生成文本困难。 稳定扩散在理解和创建图像中的文本方面存在困难,这对于图像生成模型来说并不少见。
法律问题。 使用AI生成的艺术可能会带来长期的法律挑战,特别是如果训练数据没有经过彻底审查以排除版权问题。这不仅仅是稳定扩散特有的问题,我稍后会在常见问题解答中更多地讨论这个问题。
相似性风险。 鉴于稳定扩散的训练数据,当艺术家和创作者使用相似的关键词或提示时,存在生成相似或重复结果的可能性。
注意 :Stable Diffusion 3 上个月刚刚发布,但目前仅供预览。
由Stability AI和 DeepFloyd 研究实验室开发的DeepFloyd IF是一个文本到图像生成模型,以其生成具有卓越逼真度和细腻语言理解能力的图像而著称。
DeepFloyd IF的架构特别值得注意的是其在像素空间中扩散的方法。具体来说,它包含一个文本编码器和三个级联的像素扩散模块。
每个模块在过程中扮演独特的角色:第一阶段负责创建一个基础的64x64像素图像;第二阶段和第三阶段逐步升级到1024x1024像素。
这与像稳定扩散这样的潜在扩散模型不同。这种像素级处理允许DeepFloyd IF 直接操纵图像以生成或增强视觉效果,无需转换成压缩的潜在表示形式及其反向操作。
为什么你应该使用DeepFloyd IF
文本理解能力强。 DeepFloyd IF集成了大型语言模型T5-XXL-1.1,用于深入理解文本提示,使其能够创建与输入描述紧密匹配的图像。
文本渲染。 DeepFloyd IF在渲染文本方面展示了比稳定扩散系列和其他文本到图像模型更好的连贯性进展。
虽然它有其缺陷,但DeepFloyd IF 在文本渲染方面的图像生成模型演进中标志着重要的一步。
高逼真度。 DeepFloyd IF取得了令人印象深刻的零次FID分数(6.66),这意味着它能够创建高质量、逼真的图像。FID分数用于评估文本到图像模型生成的图像质量,分数越低通常意味着质量越好。
需要注意的点
内容敏感性。 DeepFloyd IF是在LAION-5B数据集的一个子集上训练的,该数据集以其广泛的内容而闻名,包括成人、暴力和性主题。
已经采取措施减少模型接触此类内容,但你仍应保持谨慎并在必要时审查输出。
偏见和对西方文化的偏见。 模型在LAION-2B(en)上的训练引入了对白人和西方文化的偏见,通常将它们视为默认。这种偏见影响了模型输出中的多样性和文化代表性。
硬件要求高。 你需要至少24GB vRAM的GPU来运行其所有变体,这使得它对硬件要求很高。**
ControlNet可用于增强像稳定扩散这样的扩散模型的能力,允许对图像生成进行更精确的控制。
它通过将神经网络块分为“锁定”和“可训练”的副本来运作,其中可训练副本学习你设置的特定条件,而锁定的副本保持原始模型的完整性。
这种结构允许你使用小型数据集训练模型而不影响其性能,使其非常适合个人或小规模设备使用。
为什你应该使用ControlNet
增强的图像生成控制。 ControlNet 通过允许额外的条件,如边缘检测或深度图,来引导最终图像输出,引入了更高程度的控制。当你想要克隆图像构图、指定特定人物姿势或生成相似图像时,ControlNet 是一个不错的选择。
高效且灵活。 模型架构确保了最小的额外GPU内存需求,即使是资源有限的设备也适用。
需要注意的点: ControlNet 依赖稳定扩散才能运作。这种依赖可能会影响在不偏好稳定扩散作为图像生成工具的环境中的使用。此外,上述提到的稳定扩散的限制也可能影响生成的图像,如失真和法律问题。
文本到图像AI模型在动画行业运用潜力巨大。
艺术家可以通过提供简单的描述快速生成概念艺术,从而快速探索视觉风格和主题。
在这一领域,Animagine XL是引领创新的重要参与者之一。它代表了一系列开源动漫文本到图像生成模型。
基于Stable Diffusion XL构建的最新发布版本Animagine XL 3.1采用了提示的标签排序,这意味着提示的顺序将显著影响输出。
为确保生成结果符合你的意图,你可能需要遵循特定模板(模板:https://huggingface.co/cagliostrolab/animagine- xl-3.1#tag-ordering),因为模型就是这样训练的。
为什么你应该使用Animagine XL
生成动漫风格图像。 专为动漫风格图像创建设计,它在这个类型上提供了优越的质量。如果你正在寻找创建此类图像的模型,动画想象XL可以成为首选。
扩展的知识库。 Animagine XL整合了大量动漫角色,增强了模型对更广泛动漫风格和主题的熟悉度。
需要注意的点
专注细分市场。 Animagine XL 主要设计用于动漫风格图像,这可能限制了它在更广泛的图像生成需求中的应用。
掌握学习曲线。 为了获得最佳结果,掌握标签排序和提示解释,可能需要熟悉动漫类型和风格。
稳定视频扩散模型(Stable Video Diffusion,简称SVD)是Stability AI推出的视频生成模型,旨在从静态图像提供高质量视频。
如上所述,该模型是Stability AI AI工具套件的一部分,代表了他们首次进入开源视频模型开发。
Stable Video Diffusion 能够以3到30帧每秒之间的可自定义帧率生成14帧和25帧视频。
根据评估,与GEN-2和PikaLabs相比,SVD在视频质量方面获得了更多人类投票者的支持。
事实上,Stability AI仍在努力提高其安全性和质量。Stability AI强调,“这个模型在当前阶段不适用于现实世界或商业应用,它仅供研究使用”。尽管如此,它是这个行业中少数几个开源视频生成模型之一。
如果你只是想尝试使用它,请注意
短视频长度。 该模型只能生成短视频序列,最长大约4秒,限制了更长叙事或详细探索的范围。
运动限制。 一些生成的视频可能缺乏动态运动,导致静态场景或非常缓慢的摄像机移动,这可能不符合某些用例的期望。
失真。 稳定视频扩散可能无法准确生成面部和人物,经常导致细节不足或不正确的表现,为以人类为主题的内容带来挑战。
现在让我们回答一些关于开源图像生成模型的常见问题。像“为什么我应该选择开源模型而不是商业模型?”和“在生产中部署模型时我应该考虑什么?”
这样的问题我之前讨论过,所以我在这里不再列出。
LoRA,或低秩适应,是一种用于微调机器学习模型(包括像Stable Diffusion这样的生成模型)的高级技术。
它通过使用少量可训练参数来微调这些模型以执行特定任务或适应新数据。由于它显著减少了需要训练的参数数量,因此不需要大量的计算资源。
使用LoRA,你可以通过定制生成内容的特定主题和风格来增强稳定扩散模型。如果你不想自己创建LoRA权重,请查看Civitai上的LoRA资源(https://civitai.com/search/models?sortBy=models_v9)。
使用图像生成模型创建高质量图像涉及创造力、精确性和技术理解的结合。
提高成果的一些关键策略包括:
1. 详细且具体。**在你的提示中使用详细且具体的描述。你对场景、主题、情绪、光照和风格的描述越具体,模型生成你想要的图像就越准确。 例如,不要只说“一只猫”,而是输入像“一只在午后阳光下窗边薄纱窗帘旁悠闲的杂色长毛猫”这样的描述。
2. 分层提示。**将复杂场景分解为分层提示。首先描述设置,然后是主要主题,接着是情感或特定动作等细节。这将帮助你引导模型理解你的提示。
3. 参考艺术家或作品。**包含艺术家的名字或特定艺术作品可以帮助引导生成图像的风格。然而,要注意版权考虑,并将此方法用于启发而非复制。
简短的答案是:是的。
版权问题是使用图像生成模型时需要考虑的重要方面,不仅包括开源模型,还包括商业模型。已经有针对流行图像生成模型背后的公司的诉讼案件。
许多模型是在包含版权图像的大型数据集上训练的。这引发了关于将这些图像作为训练过程一部分使用的合法性问题。
另一个问题是,确定AI生成图像的版权归属可能很复杂。如果你计划商业使用这些图像,考虑谁拥有版权——输入提示的用户、AI模型的创建者,还是两者都不是,这一点很重要。
那么,你能做什么呢?
在这个阶段,我能给使用这些模型及其创建的图像的人的最好建议是保持了解。围绕AI生成图像的法律环境仍在发展中。
关注与AI和版权法相关的持续法律讨论和裁决。了解你的权利和AI生成图像的法律地位对于合法和道德地使用这些工具至关重要。
在生产环境中部署大型语言模型和图像生成模型需要考虑类似的因素,如可扩展性和可观察性,但它们也有各自独特的挑战和需求。
资源需求: 图像生成模型,尤其是高分辨率视频或图像模型,通常需要比大模型更多的计算能力和内存,因为它们需要处理和生成复杂的视觉数据。大模型虽然也是资源密集型的,但通常具有更可预测的计算和内存使用模式。
延迟和吞吐量: 图像生成任务可能因涉及创建详细视觉内容的处理而具有更高的延迟。优化延迟和吞吐量可能需要对图像模型采取与大模型不同的策略,如调整模型大小或使用专门的硬件加速器(GPU)。
数据敏感性和隐私: 在生产环境中部署这两种类型的模型都需要明智地处理数据和隐私措施。然而,图像生成模型可能需要额外的考虑,因为它们可能生成包含版权元素的图像。
用户体验: 对于图像生成模型,我建议你为用户提供创建有效提示的指导,这可以提高生成图像的质量。你可能需要考虑模型的响应时间和输出特性来设计用户界面。
就像大模型一样,选择合适的图像生成模型需要我们理解它们的优势和局限性。
每个模型都带来其独特的能力,支持不同的现实世界用例。目前,我认为图像生成模型面临的最大挑战是伦理和版权问题。
当我们拥抱它们增强我们创造过程的潜力时,同样重要的是负责任地使用这些工具,并尊重版权法、隐私权和伦理指南。
如果你正在寻找一种在生产环境中部署扩散模型的方法,请随时尝试这些教程:https://docs.bentoml.com/en/latest/use- cases/diffusion- models/index.html?_gl=14yfc61_gcl_au*NzQ5NTUxMTE5LjE3MTMxODM1Mjk.
声明:本文为活水智能编译,未经许可禁止转载。