基于语境的场景想象技术用于常识推理生成
本研究通过在预训练和微调阶段采用不同的策略,结合知识库和相似提示来构建诊断报告,取得了在全球人工智能技术创新大赛医学影像诊断报告生成赛道中的第一名成绩。
Jul, 2024
我们提供了在模型中表征模板化文本的句法特征分析,并发现模型生成的文本中大多数(76%)模板可以在预训练数据中找到(相比之下,人工编写的文本中仅有 35%),并且在 RLHF 等微调过程中不会被覆盖,这使得我们能够在没有预训练数据的情况下分析模型中的句法模板。我们还发现,句法模板作为特征可以区分模型、任务和领域,并且对于定性评估常见的模型构建非常有用。最后,我们演示了使用模板作为分析 LLMs 训练数据风格记忆的有用工具。
Jun, 2024
评估三种主要的大型语言模型(Claude 3 Opus、Mistral AI Large 和 Gemini 1.5 Flash)在科学摘要文本生成任务中的表现,发现尽管这些模型的生成文本通常与人类创作的内容非常相似,但在风格上存在显著的性别偏见,这研究强调了开发能够维持多样写作风格以促进学术交流包容性的重要性。
Jun, 2024
本研究通过分析同形异义字如何转移文本的记号化和标记的对数似然值,对比了现有大语言模型检测器在五个不同数据集上与同形异义字攻击的有效性,发现同形异义字攻击可以有效躲避现有的大语言模型检测器, 讨论了这些发现的影响以及可能的防御方法。
Jun, 2024
本文构建了一个综合的中英文双语标杆来评估主流的 AI 生成文本检测器,并将 LLM 文本生成划分为创建、更新、删除、重写和翻译五个不同的操作,为各种场景提供优化 AI 生成文本检测器的关键洞察和改进方向。
Jun, 2024
定义了一种与在文本生成过程中通过某种方式约束语言模型输出时产生的零下一个符号概率相适应的同余。我们开发了一种算法,以高效地学习与此同余相关的商集,并在分析 LLM 的统计特性的案例研究中对其进行评估。
Jun, 2024
NgramMarkov 是一种基于约束编程的文本生成方法,通过使用大型语言模型中的 n-gram 序列和概率限制文本生成,实验结果表明该方法能够显著减少产生的候选句子数量、改善计算时间,并能使用更大的文本语料库和更小的 n-gram。
Jun, 2024
大规模语言模型在文本生成方面产生了重大影响,难以区分机器和人类生成的文本的界限提出了新的挑战,而且阻碍了黑盒 LLMs 的准确检测方法。为了解决这些限制,提出了一种创新的框架 Distribution-Aligned LLMs Detection (DALD),在没有源 LLMs 的准确日志的情况下,通过对公开可访问的高级模型(如 ChatGPT、GPT-4 和 Claude-3)的样本进行细化调优,实现了与未知源模型分布的同步,从而提高了检测能力和对快速模型迭代的韧性。
Jun, 2024
通过选择适当的上下文,提高大规模语言模型在生成人工智能研究排行榜方面的效率,并解决了介绍的方法在适应新发展方面超过传统自然语言推理方法的问题。实验证明了有效的上下文选择在提高语言模型精确性和减少错觉方面的重要性,并为可靠高效生成人工智能排行榜提供了新途径。
Jun, 2024
大语言模型(LLM)的平滑控制在文本生成中具有重要意义,本论文提出了评估生成文本属性强度范围、校准度和一致性以及其与预期语境的相关性的度量指标,通过引入 Elo 评级系统和 GPT4 的评估方法来量化属性强度和上下文相关性,并研究了两种无需训练的实现语言模型平滑控制的方法:使用语义转换器进行提示和修改内部模型表示。
Jun, 2024