Stability AI 日前推出了 Stable Diffusion XL Turbo(SDXL Turbo),为此前 SDXL 模型的改进版本,号称采用了“对抗性扩散蒸馏技术(Adversarial Diffusion Distillation)”,将图片生成迭代步骤从原先的 50 步减少至 1 步,据称“仅仅进行一次迭代步骤就能生成高品质图像”。
据悉,Stable Diffusion XL Turbo 模型的最大特点,就是上述“一次迭代生成图像”,号称可以进行“即时文字转图像输出”,并能够保证图片的质量。
而其中的“对抗性扩散蒸馏技术”是以现有的大型图像扩散模型,作为“教师网络”来指导模型的生成过程,结合了“蒸馏技术”和“对抗训练”,其中“蒸馏技术”即“蒸馏模型知识,精炼模型输出”,将大型模型的知识浓缩到更小的模型中,而对抗性训练则可以改进模型,以更好地模仿教师模型输出。
此前的模型蒸馏技术难以兼顾效率和品质,这是因为快速采样通常会削弱输出品质,因此本次 Stable Diffusion XL Turbo 模型在通过“对抗性扩散蒸馏技术”在高效生成高品质图像方面,是一个重要的进步。
官方将 Stable Diffusion XL Turbo 与多个不同的模型变体进行比较,包括 StyleGAN-T++、OpenMUSE、IF-XL、SDXL 和 LCM-XL,并进行了两项实验,第一个实验要求模型评估人员随机查看两项模型的输出,并选择出其中最符合提示词的输出图像,第二项实验则与第一项实验执行大致相同,模型评估要求选择模型中输出者图像品质最佳的一方。