Stability AI 推出新的 Stable Cascade 开源 AI 图像生成器
Stability AI 今天以 Stable Cascade 的形式推出了其最新的开源 AI 图像生成器。新的 AI 艺术作品创建器代表了创建逼真图像和文本能力的重大飞跃,超过了以前的模型,例如 Stable Diffusion 及其更大的对应物 Stable Diffusion XL。Stable Cascade 的与众不同之处不仅在于它的性能,还在于它的效率,这在快节奏的 AI 领域至关重要。
Würstchen 建筑
Stable Cascade 令人印象深刻的功能背后的秘密在于其 Würstchen 架构。这种设计选择有效地缩小了潜在空间的大小,潜在空间是模型中数据抽象表示的技术术语。通过这样做,Stable Cascade 可以更快地运行,减少生成图像所需的时间,并降低与训练 AI 相关的成本。尽管有这些效率,但产生的图像质量仍然很高。事实上,该模型拥有 42 的压缩系数,比 Stable Diffusion 的 8 倍有了显着的飞跃,这证明了其增强的速度和效率。
A期、B期和C期
稳定级联由三个模型组成:阶段 A、阶段 B 和阶段 C,代表生成图像的级联,因此得名“稳定级联”。A级和B级用于压缩图像,类似于VAE在稳定扩散中的工作。但是,如前所述,使用此设置可以实现更高的图像压缩。此外,阶段 C 负责在给定文本提示的情况下生成小的 24 x 24 潜伏物。下图直观地显示了这一点。请注意,A阶段是VAE,B阶段和C阶段都是扩散模型。
稳定的级联开源AI图像生成器
Stable Cascade 最令人兴奋的方面之一是它的开源性质。GitHub 上免费提供了此 AI 图像生成器的代码,以及用于训练和使用模型的有用脚本。这种开放性邀请了开发人员和人工智能爱好者社区为模型的开发做出贡献,从而有可能带来更多的进步。但是,需要注意的是,那些希望将 Stable Cascade 用于商业目的的人将需要了解许可要求。
对于此版本,Stability AI 为阶段 C 提供了两个检查点,两个用于阶段 B,一个用于阶段 A.Stage C 带有 10 亿和 36 亿参数版本,但它的开发和团队强烈建议使用 36 亿版本,因为大部分工作都投入到微调中。
B阶段的两个版本分别为7亿个和15亿个参数。两者都取得了很好的效果,但 15 亿人擅长重建小而精细的细节。因此,如果您使用每个变体的较大变体,您将获得最佳结果。最后,阶段 A 包含 2000 万个参数,并且由于其体积小而被固定。
Stable Cascade 不仅仅停留在其核心技术上;它提供了一套可用于微调其性能的扩展。其中包括控制网络、IP 适配器和 LCM 等。这些工具使用户能够根据自己的特定需求定制模型,无论是调整生成图像的样式还是将模型与其他软件集成。
与市场上的其他 AI 模型(例如 DallE 3 和 Mid Journey)相比,Stable Cascade 脱颖而出。其独特的特性和功能组合使其成为 AI 图像生成领域的有力竞争者。这不仅与技术本身有关,还与它的可访问性有关。Stability AI 通过各种平台(包括 HuggingFace 库和 Pinokio 应用程序)提供了 Stable Cascade,这意味着从业余爱好者到专业人士的广泛用户都可以探索和利用该模型的高级功能。
商业可用性
展望未来,Stability AI 计划为 Stable Cascade 提供商业使用许可。此举将为企业和创意专业人士开辟新的机会,将该模型的功能用于他们的项目。但在此之前,该公司致力于进行彻底的测试和改进,以确保该工具符合商业应用所需的高标准。
社区在 Stable Cascade 开发中的作用怎么强调都不为过。用户不仅仅是这项技术的被动接受者;他们积极参与创建自定义内容和探索模型的可能性。这种协作环境对于创新至关重要,因为它允许分享可以突破人工智能所能实现的界限的想法和技术。Stability AI 对 Stable Cascade 的成就几乎没有更多解释:
“此外,Stable Cascade 在视觉和评估方面都取得了令人印象深刻的结果。根据我们的评估,在几乎所有比较中,Stable Cascade 在快速对齐和美学质量方面都表现最佳。上图显示了使用部分提示(链接)和美学提示混合进行的人工评估的结果。具体来说,将 Stable Cascade(30 个推理步骤)与 Playground v2(50 个推理步骤)、SDXL(50 个推理步骤)、SDXL Turbo(1 个推理步骤)和 Würstchen v2(30 个推理步骤)进行了比较。
Stability AI 的 Stable Cascade 是 AI 图像生成领域的一个显着补充。凭借其高效的架构、开源可访问性和广泛的自定义选项,它为那些希望创建逼真的图像和文本的人提供了一个强大的工具。随着社区的不断发展并为模型的发展做出贡献,Stable Cascade 的潜在用途似乎是无限的。围绕这个新的人工智能图像生成器的兴奋清楚地表明,人工智能领域不仅在增长,而且在蓬勃发展,创新不断带来惊喜和启发。