基于语境的场景想象技术用于常识推理生成

ICLRDec, 2021

基于语境的场景想象技术用于常识推理生成

Contextualized Scene Imagination for Generative Commonsense Reasoning

PeiFeng Wang, Jonathan Zamora, Junfeng Liu, Filip Ilievski, Muhao Chen...

TL;DR本文提出了一种 Imagine-and-Verbalize（I＆V）方法，该方法学习想象一个具有输入概念之间关系的关系场景知识图，并利用该图作为约束生成一个合理的场景描述，实验证明了该方法在改善语言模型上的效果，在从更少的任务示例中学习以及生成对人类注释员有通识常识的 SKG 方面增强了语言模型。

Abstract

Humans use natural language to compose common concepts from their environment into plausible, day-to-day scene descriptions. However, such generative commonsense reasoning (GCSR) skills are lacking in state-of-the-art text generation methods. Descriptive sentences about arbitrary concepts generated by neural →

generative commonsense reasoning text generation relational scene knowledge graph concept relations imagine-and-verbalize

发现论文，激发创造

2023 全球人工智能技术创新竞赛第一赛道冠军解决方案

本研究通过在预训练和微调阶段采用不同的策略，结合知识库和相似提示来构建诊断报告，取得了在全球人工智能技术创新大赛医学影像诊断报告生成赛道中的第一名成绩。

Jul, 2024

生成文本中句法模板的检测与测量

我们提供了在模型中表征模板化文本的句法特征分析，并发现模型生成的文本中大多数（76％）模板可以在预训练数据中找到（相比之下，人工编写的文本中仅有 35％），并且在 RLHF 等微调过程中不会被覆盖，这使得我们能够在没有预训练数据的情况下分析模型中的句法模板。我们还发现，句法模板作为特征可以区分模型、任务和领域，并且对于定性评估常见的模型构建非常有用。最后，我们演示了使用模板作为分析 LLMs 训练数据风格记忆的有用工具。

Jun, 2024

大型语言模型中的包容性：科学摘要中的个性特征和性别偏见

评估三种主要的大型语言模型（Claude 3 Opus、Mistral AI Large 和 Gemini 1.5 Flash）在科学摘要文本生成任务中的表现，发现尽管这些模型的生成文本通常与人类创作的内容非常相似，但在风格上存在显著的性别偏见，这研究强调了开发能够维持多样写作风格以促进学术交流包容性的重要性。

Jun, 2024

利用同形异义字规避 AI 生成的内容检测器

本研究通过分析同形异义字如何转移文本的记号化和标记的对数似然值，对比了现有大语言模型检测器在五个不同数据集上与同形异义字攻击的有效性，发现同形异义字攻击可以有效躲避现有的大语言模型检测器，讨论了这些发现的影响以及可能的防御方法。

Jun, 2024

CUDRT：人类与大型语言模型生成文本的检测基准

本文构建了一个综合的中英文双语标杆来评估主流的 AI 生成文本检测器，并将 LLM 文本生成划分为创建、更新、删除、重写和翻译五个不同的操作，为各种场景提供优化 AI 生成文本检测器的关键洞察和改进方向。

Jun, 2024

通过 PDFA 学习分析受限 LLM

定义了一种与在文本生成过程中通过某种方式约束语言模型输出时产生的零下一个符号概率相适应的同余。我们开发了一种算法，以高效地学习与此同余相关的商集，并在分析 LLM 的统计特性的案例研究中对其进行评估。

Jun, 2024

马尔可夫约束作为大型语言模型代理

NgramMarkov 是一种基于约束编程的文本生成方法，通过使用大型语言模型中的 n-gram 序列和概率限制文本生成，实验结果表明该方法能够显著减少产生的候选句子数量、改善计算时间，并能使用更大的文本语料库和更小的 n-gram。

Jun, 2024

改进基于逻辑回归的检测器中不使用黑盒 LLMs 的逻辑回归

大规模语言模型在文本生成方面产生了重大影响，难以区分机器和人类生成的文本的界限提出了新的挑战，而且阻碍了黑盒 LLMs 的准确检测方法。为了解决这些限制，提出了一种创新的框架 Distribution-Aligned LLMs Detection (DALD)，在没有源 LLMs 的准确日志的情况下，通过对公开可访问的高级模型（如 ChatGPT、GPT-4 和 Claude-3）的样本进行细化调优，实现了与未知源模型分布的同步，从而提高了检测能力和对快速模型迭代的韧性。

Jun, 2024

基于 LLM 的排行榜生成中的有效上下文选择：一项实证研究

通过选择适当的上下文，提高大规模语言模型在生成人工智能研究排行榜方面的效率，并解决了介绍的方法在适应新发展方面超过传统自然语言推理方法的问题。实验证明了有效的上下文选择在提高语言模型精确性和减少错觉方面的重要性，并为可靠高效生成人工智能排行榜提供了新途径。

Jun, 2024

评估利用 LLMs 进行文本生成中属性强度的平滑控制

大语言模型（LLM）的平滑控制在文本生成中具有重要意义，本论文提出了评估生成文本属性强度范围、校准度和一致性以及其与预期语境的相关性的度量指标，通过引入 Elo 评级系统和 GPT4 的评估方法来量化属性强度和上下文相关性，并研究了两种无需训练的实现语言模型平滑控制的方法：使用语义转换器进行提示和修改内部模型表示。

Jun, 2024