DreamBooth

DreamBooth是一个深度学习模型，用于微调现有的文生图模型，由Google Research和波士顿大学的研究人员于2022年开发。最初利用谷歌开发的的Imagen文生图模型开发，DreamBooth可以应用到其他文生图模型，在使用指定主题的三到五张图像进行演算、训练后，可以让模型产生更精细和个性化的输出图像。^[1]^[2]^[3]

技术

预先训练的文生图扩散模型，虽然通常能够提供多种不同的图像输出，但缺乏生成不太知名的主题图像所需的特异性，并且在不同情况和背景下呈现已知主题的能力有限。^[1] 运行DreamBooth来微调模型的过程首先需要输入一小套描绘某一种特定主题的图像，一般三到五张图像就足够了，这些图像与包含主题所属类别名称的提示词（英语）配对，加上一个独特的标识符（例如：a photograph of a [Nissan R34 GTR] car，用car作为类别）；同时，一个“特定类别的先验保存损失”（class-specific prior preservation loss）来让模型在已经训练好的类别上产生不同的主题实例。^[1] 从一组输入图像中提取的一对低分辨率和高分辨率的图像被用来微调超分辨率组件，从而保留主题的微小细节。^[1]

用法

DreamBooth可以用来对Stable Diffusion等模型进行微调，通过这种用例它能够缓解Stable Diffusion无法生成特定个人图像的常见缺陷。^[4] 然而，这样的用例是相当耗费VRAM的，因此对业馀用户来说是成本高昂的。^[4] 有人对使用DreamBooth来训练模仿与人类艺术家的特定艺术风格的道德问题表示关切。^[5]

参考文献

^ ^1.0 ^1.1 ^1.2 ^1.3 Ruiz, Nataniel; Li, Yuanzhen; Jampani, Varun; Pritch, Yael; Rubinstein, Michael; Aberman, Kfir. DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation. arXiv (Google Research, Boston University). 2022-08-25 [2022-11-04]. doi:10.48550/arXiv.2208.12242. （原始内容存档 (PDF)于2022-09-29）（英语）.
^ 山下裕毅. 愛犬の合成画像を生成できるAI　文章で指示するだけでコスプレ　米Googleが開発. ITmedia Inc. 2022-09-01 [2022-11-04]. （原始内容存档于2022-08-31）（日语）. 米Google Researchと米ボストン大学の研究チームが开発した...数枚の被写体画像とテキスト入力を使って、与えられた被写体が溶け込んだ新たな合成画像を作成する被写体駆动型Text-to-Imageモデルだ。[...由谷歌研究院和波士顿大学的一个研究小组开发，是一个主题驱动的文生图模型，它采用一个主题的几张图像和提示词来创建新生成的具有该主题的图像。]
^ Brendan Murphy. AI image generation is advancing at astronomical speeds. Can we still tell if a picture is fake?. The Conversation. 2022-10-13 [2022-11-04]. （原始内容存档于2022-10-30）（英语）. Recently, Google has released Dream Booth, an alternative, more sophisticated method for injecting specific people, objects or even art styles into text-to-image AI systems.[最近，谷歌发布了DreamBooth，这是一种另类的、更复杂的方法，可以将特定的人、物体甚至艺术风格注入文生图的人工智能系统中。]
^ ^4.0 ^4.1 清水亮. まさに「世界変革」──この2カ月で画像生成AIに何が起きたのか？. Yahoo! News Japan. 2022-10-26 [2022-11-04]. （原始内容存档于2022-10-26）（日语）. Stable Diffusionは、一般に个人の写真や特定の人物を出すのが苦手だが、自分のペットや友人の写真をわずかな枚数から学习させる“Dreambooth”という技术が开発され、これも话题を呼んだ。ただし、Dreamboothでは、巨大なGPUメモリが必要になり、个人ユーザーが趣味の范囲で买えるGPUでは事実上実行不可能なのがネックとされていた。[Stable Diffusion在生成个人照片通常是有缺陷的，但“DreamBooth”的开发允许从少量以宠物或朋友的照片中进行训练，引起了相当大的轰动。然而，缺点是DreamBooth需要大量的GPU内存，使得它在个人用户在业馀价格范围内能够负担得起的GPU上运行实际上是不可行的。]
^ Andy Baio. Invasive Diffusion: How one unwilling illustrator found herself turned into an AI model. Waxy. 2022-11-01 [2022-11-04]. （原始内容存档于2022-11-01）（英语）.

外部链接

DreamBooth的官方GitHub IO （页面存档备份，存于互联网档案馆）
Stable Diffusion的DreamBooth实现（页面存档备份，存于互联网档案馆）

[ruiz-et-al-1] 1.0 ^1.1 ^1.2 ^1.3 Ruiz, Nataniel; Li, Yuanzhen; Jampani, Varun; Pritch, Yael; Rubinstein, Michael; Aberman, Kfir. DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation. arXiv (Google Research, Boston University). 2022-08-25 [2022-11-04]. doi:10.48550/arXiv.2208.12242. （原始内容存档 (PDF)于2022-09-29）（英语）.

[2] 山下裕毅. 愛犬の合成画像を生成できるAI　文章で指示するだけでコスプレ　米Googleが開発. ITmedia Inc. 2022-09-01 [2022-11-04]. （原始内容存档于2022-08-31）（日语）. 米Google Researchと米ボストン大学の研究チームが开発した...数枚の被写体画像とテキスト入力を使って、与えられた被写体が溶け込んだ新たな合成画像を作成する被写体駆动型Text-to-Imageモデルだ。[...由谷歌研究院和波士顿大学的一个研究小组开发，是一个主题驱动的文生图模型，它采用一个主题的几张图像和提示词来创建新生成的具有该主题的图像。]

[3] Brendan Murphy. AI image generation is advancing at astronomical speeds. Can we still tell if a picture is fake?. The Conversation. 2022-10-13 [2022-11-04]. （原始内容存档于2022-10-30）（英语）. Recently, Google has released Dream Booth, an alternative, more sophisticated method for injecting specific people, objects or even art styles into text-to-image AI systems.[最近，谷歌发布了DreamBooth，这是一种另类的、更复杂的方法，可以将特定的人、物体甚至艺术风格注入文生图的人工智能系统中。]

[yahoojpn-4] 4.0 ^4.1 清水亮. まさに「世界変革」──この2カ月で画像生成AIに何が起きたのか？. Yahoo! News Japan. 2022-10-26 [2022-11-04]. （原始内容存档于2022-10-26）（日语）. Stable Diffusionは、一般に个人の写真や特定の人物を出すのが苦手だが、自分のペットや友人の写真をわずかな枚数から学习させる“Dreambooth”という技术が开発され、これも话题を呼んだ。ただし、Dreamboothでは、巨大なGPUメモリが必要になり、个人ユーザーが趣味の范囲で买えるGPUでは事実上実行不可能なのがネックとされていた。[Stable Diffusion在生成个人照片通常是有缺陷的，但“DreamBooth”的开发允许从少量以宠物或朋友的照片中进行训练，引起了相当大的轰动。然而，缺点是DreamBooth需要大量的GPU内存，使得它在个人用户在业馀价格范围内能够负担得起的GPU上运行实际上是不可行的。]

[5] Andy Baio. Invasive Diffusion: How one unwilling illustrator found herself turned into an AI model. Waxy. 2022-11-01 [2022-11-04]. （原始内容存档于2022-11-01）（英语）.

[1]

[2]

[3]

[4]

[5]