建立负责任且可靠的大型语言模型的关键
本文综述了大语言模型(LLMs)与引文分析之间的相互关系,包括引文分类、基于引文的摘要和引文推荐等任务,以及通过引文预测、网络结构信息和文献间关系等手段来改进 LLMs 的文本表示,并提出了进一步研究 LLMs 和引文分析相结合的潜在方向。
Sep, 2023
本文全面调查了与大型语言模型(LLMs)相关的伦理挑战,从长期存在的问题,如侵犯版权、系统性偏见和数据隐私,到新兴问题,如真实性和社会规范。我们批判性地分析了现有研究,旨在理解、审查和减轻这些伦理风险。我们的调查强调了将伦理标准和社会价值融入 LLMs 的开发中,从而引导负责任和道德对齐的语言模型的发展。
Jun, 2024
大型语言模型 (LLMs) 能够在不同学科领域发挥作用和限制,加强科学研究,例如通过总结大量出版物加速文献回顾,通过自动语法纠正提升代码开发,和优化科学写作过程。然而,LLMs 面临挑战,如依赖庞大且有时偏颇的数据集,以及出于使用而引发的潜在伦理困境。我们对 LLMs 在不同领域的影响进行重要讨论,从自然科学中帮助模拟复杂生物序列,到社会科学中解析大规模的定性数据。最后,我们提供一种细致的观点,认为 LLMs 既是科学进步的福音,也是其边界。
Nov, 2023
这项研究介绍了 ALCE,一个自动化 LLMs 引用评估的评测基准,通过自动度量三个维度 - 流畅度、正确性和引用质量,强调了更好的检索器、长文本 LLMs 等方向的改善空间。
May, 2023
利用大型语言模型(LLM)的知识构建了一个新的生成检索框架,以提高相关性和直接回答搜索问题的能力,验证生成结果的可靠性和贡献来源的可信度,实现了在 LLM 时代的 “PageRank”。该框架包括生成器、验证器和优化器三个核心模块,分别关注生成可信任的在线来源、验证来源可靠性以及优化不可靠的来源。通过广泛的实验和评估,证明了我们方法在相关性、负责性和可信性上对多种最先进方法的优越性。
Oct, 2023
本研究使用自动化工作流程,对 ChatGPT、LLaMA 和 OPT 等主流 LLM 进行了数百万次查询,得出了 LLM 在稳健性、一致性和可信度方面存在的问题,提出了一种新的关联数据集索引来评估使用 LLM 进行学术评估的可行性。
May, 2023
介绍了 TrustLLM,这是一个关于 LLM(大型语言模型)信任度的综合研究,包括不同维度的信任度原则、建立的基准、评估和分析主流 LLM 的信任度,以及对开放挑战和未来方向的讨论。
Jan, 2024
在大型语言模型与透明度的讨论中,我们必须考虑不同利益相关者在不同情境下的需求,并构建在人们处理、交互和使用信息方面所了解的经验基础上的透明度方法,这是一篇关于应对 LLM 这个新时代带来的人工智能透明度挑战的文章.
Jun, 2023
通过文献综述和第一手实验,本文研究了大型语言模型(LLMs)的潜力。尽管 LLMs 具有成本效益和高效性等优点,但也存在着诸如提示调优、偏见和主观性等挑战。该研究通过利用 LLMs 进行定性分析的实验提供了新的见解,强调了成功和限制。此外,本文还讨论了缓解挑战的策略,如优化提示技术和利用人类专业知识。我们的工作旨在将 LLMs 有机地融入人机交互数据工作,并积极促进其负责任的应用,以此回应关于 LLMs 在研究中负责任应用的持续对话。
Apr, 2024
本研究探讨了人工智能领域中大型语言模型(LLMs)的伦理问题。它讨论了 LLMs 和其他人工智能系统所面临的常见伦理挑战,如隐私和公平,以及 LLMs 特有的伦理挑战,如幻觉、可验证的问责和解码审查复杂性。该研究强调了解决这些复杂性的必要性,以确保问责制、减少偏见并增强 LLMs 在塑造信息传播方面所扮演的重要角色的透明度。它提出了缓解策略和 LLM 伦理的未来发展方向,主张跨学科合作。该研究建议针对特定领域制定伦理框架,并根据不同环境调整动态审计系统。这一路线图旨在引导负责任地开发和整合 LLMs,设想一个以伦理考虑为基础的人工智能进步的未来社会。
May, 2024