调查了大型语言模型(LLMs)在生成多样化观点和理由方面的能力,提出了一种基于标准提示技术来衡量透视多样性的方法,并发现利用句子嵌入和距离度量来衡量语义多样性是不够的。研究结果表明,LLMs 能够根据任务主观性的程度产生多样的观点。
Nov, 2023
用大型语言模型进行多样性重新排序是一个有前途的方法,它能为推荐系统带来多样性而不需要特殊的知识工程。
Jan, 2024
通过智能分组减轻 LLM 输入长度的限制,采用类似锦标赛的积分系统确保鲁棒的排序,我们引入了一种名为 TourRank 的新型文件排名方法,实验证明 TourRank 在合理的成本下实现了最先进的性能。
Jun, 2024
这篇论文通过引入具有对齐的列表排名目标的语言模型框架(ALRO)来解决基于 LLMs 的推荐系统中排名任务的问题,并使用适应语言生成任务的 soft lambda loss 和解决位置偏差的置换敏感学习机制,实验证明 ALRO 优于现有的基于嵌入的推荐方法和基于 LLMs 的推荐基准。
Mar, 2024
大语言模型的评估和排名是一个重要的问题,本研究提出了一种新的方法,在没有任何参考数据的情况下,通过考虑三元组模型相互评估来排名这些模型,实验证明该方法可靠地恢复接近真实的排名,为实际使用提供了可行的低资源机制。
Feb, 2024
通过比较点对和逐点评估方法,研究发现逐点评估方法对不必要的偏好具有更强的鲁棒性,而逐点评估器在判断错误时仍能准确识别低质量输出的缺点,这表明大型语言模型在点对评估设置中更受其偏见的影响;为了缓解这个问题,该研究提出了一种将逐点推理方法整合到点对评估中的混合方法,实验结果表明我们的方法在对抗样本中提高了点对评估器的鲁棒性,并在正常样本上保持了准确性。
通过以人、过程和技术为视角,功能性和安全性为支柱,使用我们的统一评估框架,对 23 个最先进的 LLM 基准进行了研究,发现了显著的限制,并强调了在人工智能进步的背景下,标准化方法、监管确定性和伦理指南的迫切需求,以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。
通过设计和实际测试,我们发现 LLMs 在自然语言生成(NLG)评估中存在混淆不同评估标准的问题,这降低了它们的可靠性。为了进一步验证,我们首先总结了一个清晰的层次分类系统,包括 11 个常见方面的相关标准,然后设计了 18 种针对不同 LLMs 评估行为的攻击方法,并进行人工标注验证,揭示了 LLMs 固有的混淆问题以及其他值得关注的现象,从而为基于 LLMs 的评估提出了进一步的研究和改进的必要性。
评估低资源语言对大型语言模型(LLMs)性能的 Language Ranker 研究发现:不同语言上的 LLMs 性能排名大致相同,不同规模的 LLMs 具有相同的性能排序,LlaMa2 在不同语言中的性能与预训练语料库的比例具有强相关性。
Apr, 2024
使用语言模型比较并排序排名的矛盾问题,我们提出了一种使用 LLM-RankFusion 的方法,它有效地减少了排序的不一致性,提高了排名质量。
May, 2024