- 高温下的创造力与连贯性的平衡:最小 P 采样
提出了一种动态截断采样方法 min-$p$,通过在生成文本时根据候选词的概率来建立最小基础百分比阈值来平衡自洽性和创造力,实验表明 min-$p$ 在高温度下提高了生成文本的一致性和质量,同时与 top-$p$ 和其他采样方法相比,还能产生 - DECOR:利用新型基准改进 L2 英文写作的连贯性检测、推理和重写
使用 DECOR 作为一个新颖的基准,第一个特别设计用于改善 L2 英语写作的一致性评估数据集,该数据集包括原始不连贯句子及其专家重新写作版本对。
- SIFo 基准测试:探索大型语言模型的顺序指令跟随能力
评估大型语言模型(LLMs)遵循多个指令的能力面临诸多挑战,为解决这些问题,我们引入了一个基准测试,通过顺序指令跟踪任务评估模型的遵循多个指令的能力。
- GMP-AR:面向时间层次预测的粒度消息传递和自适应调解
时间序列预测在不同的时间粒度上广泛用于实际应用中,本文提出了一种新的粒度消息传递机制(GMP)来利用时间层次结构信息提高预测性能,并引入自适应协调策略(AR)来保持一致性,同时考虑实际约束条件。实验证明,我们的框架(GMP-AR)在时间层次 - ACL隐含话语关系识别的多标签分类
在我们的工作中,我们通过探索各种多标签分类框架来处理隐含语篇关系识别,并显示多标签分类方法不会降低单标签预测的性能。此外,我们对结果和数据进行了全面的分析。我们的工作有助于推动对语篇关系的理解和应用,并为未来研究奠定基础。
- 评估生成模型中的世界模型
大型语言模型潜在学习世界模型的研究及其评估方法和度量标准的提出,揭示了现有生成模型在评估世界模型的经典诊断上表现良好,但度量标准揭示了其世界模型的内在不连贯性和脆弱性,并提出新的评估方法以实现更接近真实逻辑的生成模型。
- Vidu: 一种高一致性、动态且技术娴熟的文本到视频生成器,采用扩散模型
Vidu 是一种高性能的文本到视频生成器,采用 U-ViT 作为骨干模型,可以单次生成长达 16 秒的 1080p 视频。Vidu 具有较强的连贯性和动态性,能够生成逼真和富有想象力的视频,同时,在某些专业摄影技术方面具备与 Sora 相媲 - COLING简单变得更难:LLMs 在简化语料库上表现出一致的行为吗?
简化文本以提高阅读能力,保留原始内容和意义。通过比较预训练分类器在原始和简化输入上的预测,研究发现所有语言和模型之间存在令人担忧的不一致性,简化输入很容易被利用来进行零迭代、与模型无关的对抗攻击,成功率可达 50%。
- 通过混合和改善历史实现不断演进的记忆
为了构建人类化的聊天机器人,构建一个长期记忆是至关重要的。本文提出了一个新颖的记忆方案 CREEM,通过混合过去的记忆并引入精炼过程来改善聊天机器人回应的整体效果和一致性,确保一个更加明智和动态发展的长期记忆。
- 大型语言模型中的不一致概率判断
使用概率恒等式和重复判断来评估自回归大型语言模型的概率判断的连贯性,结果显示这些模型产生的判断通常是不连贯的,并显示出与概率理论规则相悖的人类式系统偏差;此外,当被提示对同一事件进行判断时,自回归大型语言模型产生的概率判断的均值 - 方差关 - ACL文档级神经机器翻译的重要性感知数据增强
提出了一种基于重要性感知数据增强算法的文档级神经机器翻译方法,通过估计隐藏状态和训练梯度的法线来增加训练数据,并在常用文档级神经机器翻译基准数据集上获得了显著优于强基线模型和其他数据增强方法的结果,包括句子级和文档级 BLEU。
- 记录生活:实现你的 Vlog 梦想
我们提出了 Vlogger,一个通用的人工智能系统,用于生成用户描述的分钟级视频博客。通过智能地利用大型语言模型作为导演,我们将视频生成任务分解为四个关键阶段,通过顶级规划和底层拍摄的合作,以模拟人类生成 vlogs。此外,我们引入了一种新 - CoAScore:链式方面激励的自然语言生成评估
通过引入 CoAScore 评估系统,基于大型语言模型,该系统利用多个方面的知识以提高自然语言生成的评估质量,并显著优于现有的无监督评估指标。
- EMNLPDiffuVST: 用全局历史引导的去噪模型叙述虚构场景
最近图像与视频生成方法的进步,特别是基于人工智能的图像合成,已经导致了大量抽象和多样化的视觉场景的产生。因此,视觉叙事(Visual Storytelling,VST)成为一个更具挑战性的任务,并且在真实世界以外越来越受欢迎。本文提出了一种 - 通过聚类影响嵌入发现错误
我们提出了一种识别测试例组的方法 —— 切片发现。我们将一致性定义为切片发现方法应该满足的一个关键属性,即同一切片内的错误预测应该有相同的原因。然后我们使用影响函数来推导一种新的切片发现方法 InfEmbed,它通过返回示例受相似训练数据影 - EMNLP通过建模主题和分类依赖进行一致的实体消岐
通过引入无监督变分自编码器和外部类别内存,本文提出了一种新的实体消岐方法,名为 CoherentED,以提高实体预测的一致性。该模型在流行的实体消岐基准测试中取得了最新的成果,并在具有挑战性的长文本场景中表现出卓越的性能。
- CoheSentia:生成文本中增量与整体一致性评估的新型基准
自然语言处理中自动生成文本的一致性评估和分析的新基准,旨在发展更可靠的一致性评估方法。
- EMNLP模型联盟:对创意写作中语言生成模型的全面评估
评估了几种最近的语言模型在英语创意写作上的表现,结果显示商业化的最新语言模型在多个方面与人类作家相媲美,但创造力方面人类仍占优势,幽默方面则分为能媲美人类和无法胜任的两类,对研究结果的意义和限制进行了讨论,并提出了未来研究的方向。
- 评估 ChatGPT 对 ELL 作家的连贯性和凝聚力的反馈
ChatGPT 在无具体任务训练的情况下,对于英语学习者的文章连贯性和衔接性未提供有效反馈。
- 通过微调语言模型实现以旋律为条件的歌词生成,并配合 ChatGPT 进行评估
我们利用基于字符级的语言模型来从符号化旋律生成音节级歌词,通过对一个字符级预训练模型进行微调,将语言知识整合到音节级 Transformer 生成器的束搜索中。通过基于 ChatGPT 的评估,我们展示了生成歌词时的增强一致性和正确性。