RULER：评估 LLM 上下文长度 | 三花 AI | 免费 AI 应用 | 1000+ AI 导航合集

英伟达开源了 RULER 用于评估长文本语境下的语言模型性能。

它通过多样化的任务类型和可配置的序列长度与任务复杂度，全面考察模型的长文本理解能力。

研究发现，尽管模型在简短文本上表现出色，但在长文本和复杂任务中性能显著下降。

RULER 基准测试旨在推动长文本语言模型的深入研究和改进。

论文：https://arxiv.org/abs/2404.06654

商业转载请联系三花微信公众号获得授权，非商业转载请注明本文出处及文章链接，您可以自由地在任何媒体以任何形式复制和分发作品，也可以修改和创作，但是分发衍生作品时必须采用相同的许可协议。

福布斯公布第 6 届 TOP 50 AI 公司

随着 ChatGPT 等应用的火爆，企业纷纷投入 AI 行业，福布斯发布的 AI 50榜单表彰了领先的私营AI公司。

SC4D ：视频转4D

SC4D 一种新型的视频到 4D 生成技术，能够从单视角视频中创建动态的3D对象，并将这些对象的运动根据文本描述转移到其他实体上。