- 计算古文字学综述
计算古文字学是指借助计算方法从石碑铭文中提取文字、音译、解释和归属的过程。传统的古文字学方法耗时且易损伤石碑铭文,在提取文字时。此外,解释和归属是主观的,可能因不同古文字学家而异。然而,使用现代计算方法不仅可以用于提取文字,还能以稳健的方式 - 语言模型洞察:上下文问答中的归因方法
基于大语言模型的隐藏状态,我们提出了一种新的环境下问答的归因方法,绕过重复训练模型和检索模型开销,提供精细的归因并保持结果质量,在识别出 LLM 生成的文字时表现出与 GPT-4 相当甚至更好的性能,且适用于各种 LLM 架构。
- 生成式人工智能时代的合成图像验证:暂有何窍门与何需进一步完善
该研究综述了关于合成图像的检测和归因方法,突出了它们的优点和局限性,同时指出并讨论了该领域的热门话题,概述了未来研究的有希望的方向。
- CoTAR: 用多级细粒度的链式思维归因推理
通过引入面向归因的思维链推理方法来提高归因准确性,并与微调相结合,改进了生成模型的反应和归因准确性,显示了小型大语言模型在某些情况下超越 GPT-4 的潜力。
- 基于水印的 AI 生成内容的检测和归因
通过严格的概率分析,我们第一次对基于水印的面向用户感知的 AI 生成内容的检测和归属性能进行了系统研究,并开发了有效的算法来选择用户的水印以提高归属性能。我们的理论和实证结果表明,基于水印的检测和归属性能具有水印方法的准确性和 (非) 稳健 - 在 RGB 及更多领域的文本到图像扩散模型中检测图像归属
对现代文本到图像 (T2I) 扩散模型进行了研究,这些模型可以生成非常逼真和具有创造力的图像。我们提供了广泛的分析,关于哪些推理阶段的超参数和图像修改是可辨认的。我们进一步调查了图像归属所依赖的视觉痕迹,通过扰乱高频细节和使用图像风格和结构 - WebCiteS: 中国网页搜索结果的带引文的查询聚焦摘要
通过开发详细的度量标准并使自动评估器将句子分解为子主张以进行细粒度验证,我们为获取在正确引用来源方面面临挑战的大型语言模型提出了解决方案,强调了进一步改进的必要性。
- 基于再生的无需训练的文本图像生成模型伪造图像的归因
通过反转图像的文本提示并将重构的提示放入不同的候选模型中来重新生成候选伪图片,通过计算并排序测试图片与候选图片的相似性,我们可以确定图片的来源模型,从而使模型的所有者对其模型的任何滥用负有责任。
- ACL研究基于知识的对话中的内容规划以导航权衡
通过分析规划内容对于满足特定性和归属性这两个目标之间的权衡,我们在知识驱动的对话生成中设计了一个名为 PLEDGE 的框架,并发现规划机制会对自动评估产生积极影响,但在人类判断方面表现较差,需要进一步研究与校准自动评估指标的关系。
- 使用知识图谱评估复杂问题回答和归因的大型语言模型基准
使用知识图谱为问题 - 答案对自动生成不同类别的归因,并引入细分类型(支持性、不足、矛盾和不相关)来衡量归因,评估现有评估方法在细致归因设置下的表现较差,使用人工注释验证的 CAQA 基准为选择和开发 LLM 归因评估器提供了有前景的工具。
- AAAIMFABA:一种更忠实和加速的基于边界的深度神经网络归因方法
通过提出的 MFABA 算法,该研究论文证明了其在解释深度神经网络方面的卓越效果,并通过大规模实验表明其比其他算法快 101.5142 倍。
- MMFAKEPCD:通过来源归因检测伪造的点云
为了防止生成模型产生的合成(伪造)点云被恶意使用,我们首次提出检测点云真实性并将其归属于其来源的研究,通过引入 FAKEPCD,一个将(伪造)点云归属于其生成模型(或真实世界集合)的归属框架。FAKEPCD 的主要思想是训练一个归属模型,该 - 大型语言模型中的协同和贡献性属性的统一
大型语言模型的输出的可验证性取决于其解释性,本文提出了一个统一框架以解释语言模型输出,讨论了各种类型的归因并给出了真实应用案例和评估标准。
- 语言模型的幻想增强朗读
利用幻觉增强吟诵(HAR)的对抗控制生成数据集方法,改进了大语言模型的归属度,提高了开放式问题回答的性能。
- 朝可验证的生成方式迈进:知识感知语言模型归因的基准
大型语言模型(LLMs)在可靠性方面通常存在不可靠的幻觉。在本文中,我们定义了一项名为知识感知语言模型归因(KaLMA)的新任务,它改进了传统归因语言模型的三个核心问题。
- ExpertQA: 专家策划的问题及答案
验证与归因对于领域特定的语言模型在高风险领域中提供准确信息至关重要,本研究通过领域专家的参与,对领域特定的语言模型生成的回答进行事实性和归因方面的评估研究,并构建了包含 32 个领域,2177 个问题以及验证答案和归因的高质量长型问答数据集 - 跨语言问答的归因评估与建模
为了提高跨语言问答系统的可靠性,本研究对该系统的描述性和归属性进行了研究,并测试了多种检测方法来提高归属度。通过使用自然语言推理模型和 PaLM2 对少量的归属数据进行微调,可以准确地检测到归属和提高跨语言问答系统的归属度。
- 大型语言模型自动评估归因
本文探讨了大型语言模型在自动评估引用时的两种方法:引导 LLM 和微调更小的 LM。我们手动策划了一组测试样例以涵盖 12 个领域并评估了其自动评估的结果,旨在为这一重要问题的未来研究打下基础。
- 评估检索增强型大语言模型的归属和流畅度平衡
研究探讨了在知识密集型对话设置中,提示检索证据的 LLMs 的流畅度与归属之间的关系,并提出了改善 LLMs 总体质量的方法。实验结果显示,更大的模型在流畅度和属性方面表现更好,并且使用 top-k 检索可以提高属性,但有损于流畅度。研究提 - 属性问答:针对属性化大语言模型的评估和建模
本文研究基于属性的 LLM 发展,在开发 Attributed LLMs 的第一步骤中提出可重复的 Attributed QA 评估框架并评估多种结构。实验结果探讨了如何度量归属(attribution)以及现有方法在归属方面的表现如何,并