AI 直接把你脑中的创意画出来的时刻

AI 直接把你脑中的创意画出来的时刻，已经到来了。

近几年，图像生成领域取得了巨大的进步，尤其是文本到图像生成方面取得了重大突破：只要我们用文本描述自己的想法，AI 就能生成新奇又逼真的图像。

但其实我们可以更进一步 —— 将头脑中的想法转化为文本这一步可以省去，直接通过脑活动（如 EEG（脑电图）记录）来控制图像的生成创作。

这种「思维到图像」的生成方式有着广阔的应用前景。例如，它能极大提高艺术创作的效率，并帮助人们捕捉稍纵即逝的灵感；它也有可能将人们夜晚的梦境进行可视化；它甚至可能用于心理治疗，帮助自闭症儿童和语言障碍患者。

最近，来自清华大学深圳国际研究生院、腾讯 AI Lab 和鹏城实验室的研究者们联合发表了一篇「思维到图像」的研究论文，利用预训练的文本到图像模型（比如 Stable Diffusion）强大的生成能力，直接从脑电图信号生成了高质量的图像。

近期一些相关研究（例如 MinD-Vis）尝试基于 fMRI（功能性磁共振成像信号）来重建视觉信息。他们已经证明了利用脑活动重建高质量结果的可行性。然而，这些方法与理想中使用脑信号进行快捷、高效的创作还差得太远，这主要有两点原因：

首先，fMRI 设备不便携，并且需要专业人员操作，因此捕捉 fMRI 信号很困难；

其次，fMRI 数据采集的成本较高，这在实际的艺术创作中会很大程度地阻碍该方法的使用。

相比之下，EEG 是一种无创、低成本的脑电活动记录方法，并且现在市面上已经有获得 EEG 信号的便携商用产品。

但实现「思维到图像」的生成还面临两个主要挑战：

1）EEG 信号通过非侵入式的方法来捕捉，因此它本质上是有噪声的。此外，EEG 数据有限，个体差异不容忽视。那么，如何从如此多的约束条件下的脑电信号中获得有效且稳健的语义表征呢？

2）由于使用了 CLIP 并在大量文本 - 图像对上进行训练，Stable Diffusion 中的文本和图像空间对齐良好。然而，EEG 信号具有其自身的特点，其空间与文本和图像大不相同。如何在有限且带有噪声的 EEG - 图像对上对齐 EEG、文本和图像空间？

为了解决第一个挑战，该研究提出，使用大量的 EEG 数据来训练 EEG 表征，而不是仅用罕见的 EEG 图像对。该研究采用掩码信号建模的方法，根据上下文线索预测缺失的 token。

图片新闻