Stability AI改进自家着名的文字转图像模型释出SDXL Turbo(Stable Diffusion XL Turbo),藉由应用创新的对抗性扩散蒸馏技术(Adversarial Diffusion Distillation,ADD),将需要的迭代步骤从50步减少到仅剩1步,单步骤就能生成高品质图像。目前Stability AI将模型权重和程式码公开在Hugging Face,供个人和非商业用途使用。
SDXL Turbo模型最大特点,就是能够单步合成影像输出,并在即时文字转影像输出上保持高采样传真度。而之所以SDXL Turbo能够有别於过去的模型,主要原因在於使用了一种称为对抗性扩散蒸馏技术,官方论文提到,这个方法能够只经过1到4步骤高效采样,达到高品质输出图像。
对抗性扩散蒸馏技术以现有的大型图像扩散模型,作为教师讯号,并结合对抗性损失,确保即便在低步骤采样中,也能维持高图像传真度。简单来说,对抗性扩散蒸馏技术结合了蒸馏技术和对抗训练,蒸馏技术可以精炼模型输出,将大型模型知识浓缩到更小的模型中,而对抗性训练则可以改进模型,以更好地模仿教师模型输出。
过去的蒸馏技术很难达到高效率又高品质,因为快速采样通常会降低输出品质,因此对抗性扩散蒸馏技术在高效生成高品质图像方面,是一个重要的进步。
官方评估SDXL Turbo的效能,将其与多个不同的模型变体进行,包括StyleGAN-T++、OpenMUSE、IF-XL、SDXL和LCM-XL。在这项评估中,人类评估者参与两种实验,第一个实验是随机查看两个模型的输出,并选择出最符合提示词的输出图像,第二项实验则与第一项实验执行方法相同,但人类评估者需选择图像品质较佳者。
实验结果显示,SDXL Turbo在运算需求大幅降低的同时,仍可以保持良好的图像品质,单步SDXL Turbo胜过4步配置的LCM-XL,并且4步配置SDXL Turbo就可击败50步配置的SDXL。SDXL Turbo的推理速度非常快,在A100 GPU上,计算512*512解析度的图像,只需要207毫秒。