- 探究政治偏见对大型语言模型在立场分类中的影响
该研究通过分析三个数据集、七个大型语言模型和四种不同的提示方案,发现大型语言模型具有政治倾向分类任务性能上的显著差异,并且这种差异主要出现在数据集层次上,模型和提示方案在不同的倾向分类数据集上表现出了统计上相似的性能。此外,研究还观察到当目 - GermanPartiesQA:商用大型语言模型在政治偏见和奉迎方面的基准测试
评估和比较了六个 LLMs(语言模型)在德国政党立场上的一致性,并通过实验评估了奉承行为;研究发现在所有的 LLMs 中存在左倾绿色倾向,而对于 LLMs 的输出变化,结果显示更适合描述为根据给定上下文的个性化,而非奉承行为。
- MathViz-E: 领域专用工具使用代理研究案例
我们在数学教育领域展示了如何利用 LLMs 控制软件系统进行多步骤推理、规划和工具使用,并针对该领域的问题进行了专项数据集的创建、输出评估和自动化改进的工作。
- 在连接的自动驾驶车辆上测试大型语言模型的驾驶理论知识和技能
应用远程或边缘大型语言模型(LLMs)支持自动驾驶的新方法,使用行驶理论测试评估多种 LLMs 模型(包括 OpenAI GPT、Baidu Ernie 和 Ali QWen),实验结果显示 GPT-4 具有改进领域知识和 CAV 驾驶辅助 - 使用修辞分析 LLMs 的语义变化特征
LLMs 能够捕捉和分析语义变化,为改进计算语言学应用提供了有价值的洞见。
- 论人工智能心灵的多学科理论框架
通过比较 LLMs 和生物系统之间的差异,本研究介绍了一个名为心理自动化的跨学科框架,旨在更好地理解 LLMs 的高级功能,特别关注 LLMs 获取、学习、记忆和使用信息以产生输出的过程。通过比较 LLMs 和人类认知过程,心理自动化有望为 - 基于辨别指导的知识图谱补全的生成式大型语言模型微调
本文提出一种名为 DIFT 的微调框架,旨在释放 LLMs 的知识图完成能力并避免接地错误。通过使用轻量级模型获取候选实体并使用区分指令微调 LLM,DIFT 能够从给定的候选实体中选择正确的实体,以提高性能并减少指令数据。在基准数据集上进 - ACLCHIME: 基于 LLM 的科学研究分层组织以支持文献综述
本研究使用 LLMs 探索生成科学研究的层次化组织结构,以辅助文献综述。作者通过人机联动过程纠正了 LLM 生成的层次结构中的错误,并训练了一个校正模型以提高研究分配的准确性,结果呈现出良好的性能。
- RazorAttention:检索引导的高效 KV 缓存压缩
本文提出了一种新颖的压缩技术 RazorAttention,用于 Key-Value 缓存,通过对注意力头进行分别缓存策略,以及使用 “补偿记号” 进一步恢复丢弃的信息,实现 KV 缓存大小减少超过 70% 且性能基本无影响,同时与 Fla - 注意力不是全部所需 —— 用于大型语言模型的推理
通过在推理时间删除多余的 MLP 和 attention 层,我们研究了对 Llama-v2 模型性能的影响,并发现仅删除少数注意力层略微降低性能,但与删除整个层相比,会带来更好的加速效果。
- ACL大型语言模型中的细粒度机器翻译性别控制
在机器翻译中,我们提出了一种用于处理性别歧义问题的控制型翻译方法,通过细粒度实体级别的性别信息指导模型实现正确的性别变化,以取得在多个维度上达到最先进性能的结果,并发现多个实体性别控制时的性别干扰现象,并提出了利用 LLMs 作为性别变化评 - Trading Devil Final: 股市和贝叶斯优化的后门攻击
基于大规模语言模型的学习漏洞,本文开发了一种基于声学数据污染的后门攻击 MarketBackFinal 2.0,主要针对使用现代股市模型且依赖 LLMs 的语音转换器的潜在漏洞。
- TraveLLM:面对网络中断,能否规划我的新公共交通路线?
该研究论文研发了一个原型 TraveLLM,利用大型语言模型(LLMs)规划公共交通路线,在面对中断时将多模态用户特定查询和约束融入到公共交通路线推荐中,同时比较了各种 LLMs 在生成准确路线方面的性能,尤其是 GPT-4,发现 LLMs - 评估 LLM 寻求用户支持的能力:基于文本转 SQL 生成的案例研究
本研究探索了 LLMs 主动寻求用户支持的能力,以文本到 SQL 生成为案例研究,提出了衡量性能改进与用户负担平衡的度量标准,并研究了 LLMs 能否判断何时请求帮助,并调查了它们在不同信息可用性水平下的表现。我们的实验发现,在没有外部反馈 - 逐步推理解决网格谜题:LLMs 的错误在哪里?
通过研究格子谜题,评估模型的推理能力,开发了一个评估数据集和错误分类法,利用 LLM 框架进行大规模主观评估和客观评测,揭示了现有提示方法对模型推理能力的提升效果有限,并为未来研究提出了挑战。
- 领域特定的语言模型预训练:医学领域的对比研究
专门领域的预训练和混合领域的预训练是比一般预训练更高效的专用语言模型方法,本文将研究与医学领域相关的专门领域预训练,并比较专用语言模型与通用语言模型的基准结果。
- ChatQA 2:在长篇文本和 RAG 能力中弥合专有 LLMs 的差距
在这项研究中,我们介绍了 ChatQA 2,这是一个基于 Llama3 的模型,旨在弥合开放访问的 LLMs 和领先的专有模型(例如 GPT-4-Turbo)在长上下文理解和检索增强生成(RAG)能力方面的差距。
- 模型规模对数据到文本生成中精调语言模型性能的影响:最新研究
通过对模型大小的研究,我们调查了精调 LLM 在数据到文本任务中的性能。通过广泛的比较分析,我们阐明了在五个广泛使用的 D2T 数据集和五个不同 LLM 系列的十二个大小不同的 LLMs 上扩展模型大小的优势和局限性。我们的调查发现,增加 - LeKUBE: 法律知识更新基准
近期大规模语言模型(LLMs)的发展极大地影响了人工智能在多个领域的应用,包括法律智能研究。通过对广泛的法律文本进行训练,法律 LLMs 能够有效地捕捉重要的法律知识 / 概念,并为法律咨询等下游法律应用提供重要支持。然而,法律法规和解释的 - 基于错误学习的土著语言翻译
通过大型语言模型,本文提出了改进极低资源的土著语翻译的技术,采用了有限数量的平行翻译示例的数据存储,GPT-3.5 等 LLMs 的内在能力以及词级翻译词典。我们利用 LLMs 和上下文学习技术作为极低资源语言的通用翻译器,基于 LLMs