SS-Bench:社交故事生成和评估基准
从文本提示中生成视频故事是一项复杂的任务,需要高质量的视觉效果,视频需要根据文本提示的顺序进行逼真的呈现,而且在整个帧中保持一致。为了填补数据集中常见的仅包含单个标题的视频数据集的不足,我们在三个现有数据集上收集全面的人工注释,并引入了 StoryBench:一个新的、具有挑战性的多任务基准,可可靠地评估即将推出的文本到视频模型。我们的基准包括三个逐渐增加难度的视频生成任务:动作执行,即从条件视频开始生成下一个动作;故事延续,即从条件视频开始执行一系列动作;以及故事生成,即仅从文本提示生成视频。我们评估了一些小而强大的文本到视频基线,并展示了根据现有视频标题算法生成的类似故事的数据进行训练的好处。最后,我们为人工评估视频故事建立了指南,并重申了对于视频生成而言更好的自动度量指标的需求。StoryBench 旨在鼓励未来在这个令人兴奋的新领域中的研究。
Aug, 2023
我们提出了一种社交机器人,可以与自闭症谱系障碍(ASD)的儿童进行口头交流,以教授利用大型语言模型(LLM)生成的文本进行透视能力培养。该社交机器人 NAO 充当了一个刺激器(描述一种社交情境并提问)、提示器(提供三个选项供选择)和强化器(当回答正确时表扬)。我们比较了两种方法:GPT-2 + BART 和 GPT-2 + GPT-2,其中第一个 GPT-2 在两个流程中用于无监督社交情境生成。我们使用 SOCIALIQA 数据集对所有 LLM 流程进行了微调。我们发现 GPT-2 + BART 流程在生成问题和选项时具有更好的 BERTscore,通过组合它们的各自损失函数进行评估,这个发现也得到了人工评估的验证。最后,我们使用 T-SNE 图可视化了无监督生成的社交情境,并由人类专家评估了整个流程对 ASD 儿童的适应性。
Feb, 2024
介绍了社交任务沙盒模拟(STSS)基准测试,该测试以多代理人模拟中目标完成情况作为行动级别客观评估语言代理,同时提供经济有效的初步评估和与现有基准测试相一致的语言层面基准测试,发现 STSS 基准测试对于最先进的语言代理具有挑战性,并能有效区分不同的语言代理,因此可用于评估语言模型和代理架构。
Apr, 2024
介绍了一种名为 SocKET 的新理论驱动基准来测试大型语言模型在社交语言理解方面的性能,结果表明当前模型表现中等,但是存在不同类型和类别任务之间的任务转移潜力,同时使用零样本评估方法揭示了预训练模型已经具备了对社交语言理解的某些固有能力,这个基准提供了系统性的方式来分析模型在语言的重要维度上的性能,为构建更加符合社交意识的大型语言模型提供了指导。
May, 2023
在本文中,我们提出了一种评估大型语言模型(LLM)理解结构化文本能力的数据生成方法,并建立了一个包含 8 种不同结构化语言和 29 个特定任务的基准测试集。结果表明,最好的 LLM 在 StructBench-Hard 上的准确率为 65.0%,而人类的准确率高达 95.7%。此外,虽然使用 StructBench 进行微调可以增强现有 LLM 对所有结构化语言的理解,但并不一定提高所有任务类型的性能。
Jun, 2024
通过对 93 个羞辱现象的分类和构建 QA 数据集来测试社会偏见扩大化对生成性语言模型的影响,发现这些模型生成的输出在很大程度上增加了对受羞辱群体的社会偏见,并且模板设计的选择和问题提示方式都会影响生成的社会偏见输出。
Dec, 2023
该论文介绍了一个由 STORIUM 构建的故事生成数据集和评估平台的细节,提供了具有细粒度自然语言注释和作者生成的 6K 个长度较长(125M 个标记)的故事,旨在帮助人们更好地了解故事生成,并通过整合到 STORIUM 进行评估,来提高模型的生成性能和可靠性。
Oct, 2020
该研究提出了 NewsBench,这是一个新颖的基准框架,用于评估大型语言模型(LLMs)在中文新闻写作能力(JWP)和安全性遵循(SA)方面的能力,填补了新闻伦理和人工智能利用风险之间的差距。通过对 11 个 LLM 的综合分析,发现 GPT-4 和 ERNIE Bot 表现最佳,但在创造性写作任务中存在相对不足的新闻道德遵从性。这些发现强调了在 AI 生成的新闻内容中增强伦理指导的必要性,是将 AI 能力与新闻标准和安全考虑相一致的一步。
Feb, 2024
通过故事讲述和大型语言模型的整合,我们开发出适用于社区环境下引人入胜且可信的社交机器人。我们引入了故事讲述社交机器人以及故事工程的概念,将虚构游戏角色转变为 “真实” 的社交实体,在玩家社群中与人们相互交互。通过使用 GPT-3 驱动我们的 SSC 原型 “David” 和 “Catherine”,并在 Discord 上的在线游戏社区 “DE (Alias)” 评估它们的表现,我们运用问卷(N=15)和访谈(N=8)对社区成员进行混合方法分析,结果显示故事讲述在社区环境中显著提升了社交机器人的吸引力和可信度。
Sep, 2023
利用大型语言模型(LLMs)生成的合成观察数据,用于改善机器学习模型对于自闭症谱系障碍(ASD)诊断的准确性。通过评估 ChatGPT 和 GPT-Premium 生成的 4,200 个合成观察数据,并使用预训练于生物医学文献的 BERT 分类器比较模型之间的性能差异,发现数据增加了召回率 13%,但降低了精确度 16%。未来的研究将分析不同合成数据特征对机器学习结果的影响。
May, 2024