- 每句话都实现基础:通过交替引用 - 索取生成提升检索增强 LML 模型
本文介绍了一种名为 ReClaim (Refer & Claim) 的细粒度 ATG 方法,该方法与传统的粗粒度属性不同,允许模型在长篇问答任务中为每个回答句子添加句级细粒度引用,通过逐步生成引用和答案来提高大语言模型在知识密集型任务中生成 - ACL通过事实一致性模型学习生成带有引文的答案
提出了一种利用事实一致性模型进行弱监督微调的方法,通过在生成的文本中添加引用并使用经过过滤的引文数据进行监督微调,以提高生成的内容的可验证性,并在 ALCE few-shot 引文基准上展示了超过上下文学习、纯监督微调和最先进方法的平均提高 - 可验证的设计:将语言模型与预训练数据中的引文对齐
我们提出了 Quote-Tuning 方法,通过在预训练数据中引用可靠来源的一字不差的陈述,将模型与 Quote 对齐,明显提高了 LLM 生成引文的准确性,同时保持了回应质量,为提高 LLM 的可靠性和核实性打开了新的途径。
- 利用 ChatGPT 进行科学文章引文的情感分析:识别潜在偏见与利益冲突
利用大型语言模型,特别是 ChatGPT,进行对科学文献中引用的情感分析是一项创新的方法,可以提供关于引用作品影响和接受程度的洞见。通过利用先进的自然语言处理技术,ChatGPT 可以辨别引文的微妙积极或消极性,进而为引用作品的接受程度和影 - 自然语言处理中是否存在引用年龄偏见?
在这项研究中,通过分析在 2013 至 2022 年期间提交到流行的预印本服务器 Arxiv 的大约 300,000 篇涉及 15 个不同科学领域的论文的参考文献,我们发现所有人工智能子领域(尤其是 cs.AI,cs.CL,cs.CV,cs - 提高基于大规模语言模型的有效适应性以改善语境理解
这篇论文关注通过一种名为 AGREE 的新框架,综合地改善大型语言模型在真实世界中的应用,以解决其生成的 “幻觉” 答案不符事实的问题。通过在生成的自身立足回答中考虑所生成的支持信息,设计了一种迭代的测试时间调整能力来有效实现该框架,并通过 - 当大型语言模型遇见引用:一项调查
本文综述了大语言模型(LLMs)与引文分析之间的相互关系,包括引文分类、基于引文的摘要和引文推荐等任务,以及通过引文预测、网络结构信息和文献间关系等手段来改进 LLMs 的文本表示,并提出了进一步研究 LLMs 和引文分析相结合的潜在方向。
- 让大型语言模型能够生成带有引文的文本
这项研究介绍了 ALCE,一个自动化 LLMs 引用评估的评测基准,通过自动度量三个维度 - 流畅度、正确性和引用质量,强调了更好的检索器、长文本 LLMs 等方向的改善空间。
- 分析 AI 出版世界中性别差异
本研究通过对 AI Scholar 数据集的分析,发现 AI 领域存在性别差异,包括论文引用、合著者中性别同质性和女性第一作者论文具有更长的文本长度、更多积极情感词和更容易引起读者注意的标题。这些发现有助于促进 AI 领域的性别平等和多样性 - ChatGPT 依赖于 Google Scholar 的引用计数引用最有影响力的文章和期刊。结果,人工智能可能放大环境科学中的马太效应
研究 GPT 在环境科学领域使用的信息来源,发现 GPT 倾向引用高引用次数,年代久远,以 Nature 为主的期刊,并且似乎只使用 Google Scholar 作为其引用数据来源。结果表明,Google Scholar 引用在预测 GP - 使用人工智能提高维基百科的可验证性
使用神经网络为基础的系统 Side 帮助鉴定并更换可能无法验证主张的 Wikipedia 引用,结果表明人类对 Side 建议的更好的引用的选择有 70% 的偏好率。这为辅助事实核查并提高信息可靠性提供了潜在的新途径。
- ICLR引述市场是否奖励可重复性的研究工作?
研究了引用和行为的文献计量学领域,通过提出一种分层贝叶斯模型,从时间上考虑引用率而不是一段时间的总引用数,得出性质不同的学科在可重复性工作之间存在或不存在相关性的结论;发现提供代码并完整引用前人的研究将有助于增加文章引用量。
- 自然语言处理研究中的性别差距:作者和引用的不平等
研究了 NLP 领域自 1965 年至 2019 年间的女性第一作者占比以及她们论文的引用,发现只有 29%的女性是第一作者,并且女性第一作者的论文引用较男性第一作者更少。作者还探讨了自动人口统计分析中涉及的伦理道德问题。
- 推断期刊对引用的因果效应
比较预印本和已发表论文的引用情况,推断高影响期刊对引用量的因果效应。发现高影响期刊不仅选择引用量更高的文章,同时还提高文章的引用率。研究表明,即使不考虑影响因子,期刊在研究评估中的影响仍然存在,对研究评估实践的改变具有重要影响。
- 引文需求:对维基百科可验证性的分类和算法评估
本文旨在对 Wikipedia 的文献引用结构进行实证研究,通过构建分类法对内联引文的必要性理由进行分类,并设计算法模型以确定声明是否需要引用,并根据分类法预测引文原因。
- 基于深度神经网络学习技术的引用次数预测
本研究提出了使用神经网络预测论文未来引用次数的新方法,该方法有效地提高了年度和总引用次数的预测准确性。
- ACL基于内容的引用推荐
该研究提出了一种基于内容的方法来推荐论文草稿中的引用,通过将请求文档嵌入到向量空间中,再使用其最近邻作为候选项,并使用区分观察和未观察到的引用的判别模型对候选项进行重新排序,无需元数据,得到了相对于标准数据集的显著提升。
- ACL学术语料库中主题、引用和主题权威的联合建模
Latent Topical-Authority Indexing is proposed as a way to jointly model the topics, citations, and topical authority in - KDD百年科学:科学合作、引用和创新的全球化
研究了 1900 年至 2015 年间的科学发展历程,发现合作研究已成为创新的主要来源,广泛参考文献,全球化的合作和引用关系大幅上升,美国,英国和德国科学累积的引用数量下降,这些发现有助于更好地探索科学发展的未来。
- 一种用于科学领域行为分析的引文分类方法
该研究通过分析近 2,000 份自然语言处理领域内的引用来研究作者引用的方式和读者跟随引用的方式,发现作者的引用方式受到话语结构和出版场所的影响,聚焦于前后文而非方法。还证明了如何引用相关工作能够预测一篇论文的引用次数,并且引用角色的变化表