如何评价文生图模型的效果是生成类模型面临的共性问题之一。通常,生成类模型的评价分为机器评价和人工评价两种。机器评价方法如Bleu等,人工评价如ChatGPT中的人工评价等。然而,机器评价结果不完全符合人工评价结果,因此高机器评价并不一定代表生成效果好。 文生图的模型评价也面临同样的问题,现在用于文生图模型评价的机器评价指标比如FID值等指标的评价结果跟真实的图片生成效果并不是一致,因此机器评价的结果并不能够很好的评价不同的文生图模型效果。但是,由于机器评价的便利性和客观性等原因,还是有很多评价基准在采用机器评价指标。比如ArtBench,一个提供了很多不同艺术风格标注数据的数据集,也是用FID指标等机器评价方法来评价不同模型的效果。 从ArtBench的评测结果中可以看到基于GAN模型生成的图片可以获得最高的FID值,说明GAN生成跟训练数据同分布图片的能力还是更强。但同时这种更强的生成能力也是一种限制,限制了GAN模型的泛化能力,使得GAN只偏向于生成更像训练数据中的样本。在2021年NeurIPS上刊载的OpenAI团队的文章Diffusion Models Beat GANs on Image Synthesis[4],指出了有引导的Diffusion 模型可以在各种机器评价指标上比GANs的效果更好。 但就像前面提到的一样,机器评价指标好就真的会生成更高质量的图片吗?由此可以看出,人工评价可能是更加合适文生图模型的评价方式。但是人工评价没有统一的标准,成本比较高。文章Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark[5]提出了一套人工评价的标准。让人从三种prompts的难度以及三种不同的task维度来对比不同的文生图模型的图片生成效果(见表1),比如SD和DALL-E 2。难度的定义用论文中的原文表述是:“In that case, the task may be easy: generating 1-3 objects, medium-generating 4-10 objects, and hard-generating more than ten objects.” 表1 不同的文生图模型的人工评测结果 论文也给出了人工评价的结果,在数量(counting)和人脸(faces)两个类别的任务上,DALL·E2占优势,而在形状(shapes)这个类型的任务上,SD占优势。从篇文章给出的结果来看,现在的文生图模型中的第一梯队水平模型,在数量和形状方面,还是明显弱于人脸的生成任务的。因此,我们可以从这篇文章中总结出现在文生图模型存在的语言理解的问题,特别是数量和形状在理解能力上偏弱。 文本理解能力可以通过更大更强的语言模型来解决,比如Google提出的Imagen[6]使用了更大的文本模型T5(Text-To-Text Transfer Transformer[7]),并在解码和超分模型中都引入文本的信息来生成具有更丰富细节的图片。为了评价文生图模型的效果,Imagen团队也同时提出了一个文生图的评价基准DrawBench。该基准主要从两个维度来评价文生图的效果:image-text alignment和sample fidelity。其实验指出,用T5作为文本编码器的Imagen模型在这两个维度上都有提升。但是,从上述实验的结果可以得出,在Image框架下将文本编码器从CLIP的文本塔换成T5,会有一定的alignment提升,但是不是特别明显。所以更大的语言模型会带来一定的alignment的提升,但是提升没有预期的高。 整体来看,文生图模型的评价是AIGC继续发展的基石,急需评价体系的建立。
数据的重要性不言而喻,大量高质量的文图数据是文生图发展的血液,没有数据再好的算法也发挥不了作用。数据集不是开源一堆url提供下载就完了,其中包括了水印识别、NSFW(Not Suitable For Work)图片识别、文图匹配过滤等多种预处理操作,甚至包括说明文字的生成、改写和优化等操作。这个方向国外的LAION团队做的非常的扎实,国内也有一些公司开源了数据集。下表2列出,仅供参考。 表2:国内外开源文图数据集 综上,文图数据现在是英文的数据在数量和质量上都比中文和其他语言高了一截,希望未来有十亿级别的高质量中文数据集出现。 结语 文生图模型是当前人工智能领域最具潜力和前景的研究方向之一。未来,随着计算能力的提高和技术的进一步发展,文生图模型的应用前景将会更加广泛和深远。然而,针对其应用过程中存在的一些问题,如模型评价缺乏一致性、控制生成过程效率低下、定制个性化模型困难以及高质量文图数据集缺乏等,需要我们进一步研究探索解决方案。 随着文生图模型的不断发展和完善,我们可以预见到未来人机交互方式的改变。在智能化时代的到来中,文生图模型的应用将会极大地改变人们与计算机交互的方式,让计算机更加“懂人”,进一步提升人机交互的效率和质量,也有望成为人工智能走向真正“人性化”的关键一步。总之,文生图模型作为一项研究热点,具有极其广泛的应用前景,未来也将在技术创新和产业应用中扮演越来越重要的角色。 参考链接 [1] Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International conference on machine learning.PMLR, 202 [2] Ramesh, Aditya, et al. "Zero-shot text-to-image generation." International Conference on Machine Learning. PMLR, 2021. [3] Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022. [4] Dhariwal, Prafulla, and Alexander Nichol. "Diffusion models beat gans on image synthesis." Advances in Neural Information Processing Systems 34 (2021): 8780-8794. [5] Petsiuk, Vitali, et al. "Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark." arXiv preprint arXiv:2211.12112 (2022). [6] Saharia, Chitwan, et al. "Photorealistic text-to-image diffusion models with deep language understanding." Advances in Neural Information Processing Systems 35 (2022): 36479-36494. [7] Raffel, Colin, et al. "Exploring the limits of transfer learning with a unified text-to-text transformer." The Journal of Machine Learning Research 21.1 (2020): 5485-5551. [8] Balaji, Yogesh, et al. "ediffi: Text-to-image diffusion models with an ensemble of expert denoisers." arXiv preprint arXiv:2211.01324 (2022). [9] Hertz, Amir, et al. "Prompt-to-prompt image editing with cross attention control." arXiv preprint arXiv:2208.01626 (2022). [10] Brooks, Tim, Aleksander Holynski, and Alexei A. Efros. "Instructpix2pix: Learning to follow image editing instructions." arXiv preprint arXiv:2211.09800 (2022). [11] Ruiz, Nataniel, et al. "Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation." arXiv preprint arXiv:2208.12242 (2022). [12] Gal, Rinon, et al. "An image is worth one word: Personalizing text-to-image generation using textual inversion." arXiv preprint arXiv:2208.01618 (2022). [13] Gallego, Victor. "Personalizing Text-to-Image Generation via Aesthetic Gradients." arXiv preprint arXiv:2209.12330 (2022). 作者介绍 刘广,北京邮电大学智能科学与技术博士,北京智源人工智能研究院NLP和多模态研究中心算法研究员。FlagAI核心贡献者,主要研究方向是预训练大模型和多模态文图生成等方向。在人工智能领域顶级学术会议和国际学术期刊上发表论文数篇,发明专利申请十余项。