Insert Anything：开源图片编辑框架，可以换脸、换服装等功能-AI万花筒

规模与内容：该框架基于一个包含 12 万个提示-图像对的 AnyInsertion 数据集，涵盖了人物、物体和服装插入等多种任务。

多控制模式：数据集支持两种控制模式，即掩码提示（58K 对）和文本提示（101K 对），为模型提供了丰富的训练样本。

多模态注意力机制：Insert Anything 利用 DiT 的多模态注意力机制，支持掩码和文本引导的编辑。该机制通过图像分支和文本分支分别处理视觉输入和文本描述，然后通过多模态注意力融合这些信息。

图像分支：处理参考图像、源图像和掩码，提取视觉特征并与噪声拼接。

文本分支：编码文本描述以提供语义引导。

双联画与三联画提示策略：

掩码提示双联画：左侧为参考图像，右侧为带有掩码的目标图像。

文本提示三联画：左侧为参考图像，中间为源图像，右侧为文本生成的结果。

功能：该机制将参考图像视为上下文信息，通过隐式交互确保插入元素与目标场景的视觉一致性，同时保留其独特特征。

Insert Anything：开源图片编辑框架，可以换脸、换服装等功能