三花快讯 · 2024, 4月11日

VQAScore :进一步提升生成式 AI 模型

研究者们提出了一个新的评估指标——VQAScore。

研究者们提出了一个新的评估指标——VQAScore。这一指标在不需要人类反馈或依赖专有模型(如ChatGPT和GPT4-Vision)的情况下,展现出了超越以往的性能。此外,他们还开发了一个内部的VQA模型,该模型在将文本转换为图像、视频或3D内容的评估中,实现了最先进的VQAScore,为CLIPScore提供了一个强有力的竞争选择。 进一步地,研究者们还引入了一个名为GenAI-Bench的文本到视觉的基准测试。这个基准测试采用了现实世界中的组合性提示,用以评估生成模型和自动化评估指标,其水平超过了现有的基准测试。这些新工具和基准测试的开发,旨在提升生成式 AI 模型评估的效率和准确性,推动该领域的进一步发展。

商业转载请联系三花微信公众号获得授权,非商业转载请注明本文出处及文章链接,您可以自由地在任何媒体以任何形式复制和分发作品,也可以修改和创作,但是分发衍生作品时必须采用相同的许可协议。

本文采用 CC BY-NC-SA 4.0 - 非商业性使用 - 相同方式共享 4.0 国际 进行许可。