- LLM 人格特质测试套件:LLM 是否具有独特且一致的人格特质?
通过 TRAIT 工具,基于 Big Five Inventory (BFI) 和 Short Dark Triad (SD-3) 问卷以及 ATOMIC10X 知识图谱,对大型语言模型进行个性评估,发现 LLMs 具有独特而一致的个性,受 - ACL大型语言模型中的置信度和概率一致性调查
通过使用各种数据集和提示技术,本研究探索了大型语言模型(LLMs)内部信心与其对外表达的一致性,其中 OpenAI 的 GPT-4 表现出最强的信心 - 概率对齐性,并有助于评估 LLMs 的风险和提高对模型可信度的认识。
- 大型语言模型的符号能力研究
研究证实,大型语言模型在处理基于符号的任务时面临符号复杂度上升的挑战,强调了需要专门的训练、内存和架构调整以提高它们在符号推理任务中的熟练度。
- ACLCoMM: 合作多智能体、多推理路径的复杂问题解决
通过提出协作多代理、多推理路径的提示框架(CoMM),我们旨在推动大型语言模型(LLMs)的推理能力的上限,特别是解决复杂科学问题。
- 利用 LLMs 加速系统评价筛选过程的承诺与挑战
系统性综述(SR)是软件工程(SE)中一种常见的研究方法。本研究旨在调查大型语言模型(LLMs)是否能通过简化摘要来加速标题 - 摘要筛选,并自动化标题 - 摘要筛选。研究结果表明,使用 LLMs 进行文本简化在筛选过程中并未显著提高人类的 - IsoBench: 基于同构表示的多模态基础模型对比
当前的基础模型在以文本或图像和文本输入作为提示时都展现出令人印象深刻的能力。然而,它们的能力是否因输入模态的不同而改变呢?本研究提出了一种名为 IsoBench 的基准数据集,其中包含了来自数学、科学、算法和游戏四个主要领域的问题。每个示例 - 探索 LLM 生成的虚假新闻的欺骗力:对现实世界检测挑战的研究
最近大规模语言模型(LLMs)的进展使得虚假新闻的制造成为可能,本研究旨在确定提示技术是否能够有效缩小 LLM 生成的虚假新闻的欺骗性差距,通过提出一种名为条件变分自编码类提示(VLPrompt)的强大虚假新闻攻击方法,该方法无需额外的数据 - 加强法律文件检索:采用大型语言模型的多阶段方法
将提示技术作为检索系统中的最后阶段,通过 BM25 预排名和基于 BERT 的再排名的支持,最大限度地提高提示的潜力,从而显着提高了检索准确性。
- COLING文本分类的语言模型:局部学习是否足够?
在这篇论文中,我们通过对 16 个文本分类数据集进行大规模评估研究,比较了零样本和少样本的大型语言模型与微调较小语言模型在文本分类方面的表现。结果表明,更小且更高效的语言模型的微调仍然能胜过大型语言模型的少样本方法,在文本分类方面有改进的空 - 大型语言模型在漏洞检测方面的能力综合研究
大型语言模型在漏洞检测方面的推理能力较差,常出现错误定位漏洞代码和错误识别漏洞类型的情况。
- MasonTigers 参加 SemEval-2024 任务 9: 用思维链集合解决谜题
我们的研究采用大型语言模型 (LLMs) 和几种提示技术解决自然语言理解测试中提供的谜题数据集。通过零瞄和少瞄提示,相较于开源模型,我们的专有模型表现出合理的结果。通过分步提示的迭代提示方法,我们进一步改进了结果。通过使用一系列分步提示,我 - 通过个性化 ChatGPT 辅助提升阿拉伯语医疗支持
本论文讨论了在线医学诊断相对传统医生就诊日益普及的情况,强调了现有工具的局限性,并强调了 ChatGPT 的优势,该工具可以提供实时个性化的免费医学诊断。该研究总结了一个评估 ChatGPT 在阿拉伯医学诊断中性能的研究,该研究涉及编制一组 - 关于 ChatGPT 在情感计算中的提示敏感性
通过敏感度分析和评估不同提示或生成参数对 foundation models 的性能敏感程度,探索 affective computing 领域中的 prompting 技术,以及对情感分析、毒性检测和讽刺检测等任务的性能影响。
- GSM-Plus: 评估 LLMs 作为数学问题求解器鲁棒性的综合基准
通过对大型语言模型进行广泛的问题变体测试,我们评估了它们的数学推理能力的鲁棒性。结果表明,虽然这些模型在数学推理能力上表现出不同水平,但它们的性能远非稳健。
- 巨型语言模型的推理解释解释能力如何?
大规模语言模型的性能可以通过 Prompt Engineering 和 Chain-of-Thought 等提高,本研究从多个方面全面评估了可解释性并引入了一种名为 Self-Entailment-Alignment Chain-of-th - 大型语言模型的实证提示技术划分:实践指南
采用系统性方法对大型语言模型的提示技术进行分类,通过举例说明实际应用,为从业人员提供一个结构化的理解和分类提示技术的框架,以便更有效地利用大型语言模型的各种应用领域。
- 无需提示的逻辑链推理
大规模语言模型的推理能力可通过修改解码过程有效地引出连续推理路径,而不需要手动设计提示技术,这种具备内在推理能力的解码方法优于传统贪婪解码方式。
- 激发隐式言论关系注释
对于 ChatGPT 而言,在隐性话语关系分类任务中,使用标准的多项选择问题提示尚不令人满意,且远远不及最先进的有监督方法。本研究通过尝试多种证实的提示技术来提高 ChatGPT 对话语关系的识别能力,但实验结果表明,即使使用复杂的提示工程 - ACL大规模语言模型的红队攻防:解决数学任务中的幻觉问题
评估不同提示技术对解答质量的影响,通过红组合作将 LLMs 在基础计算和代数任务上进行测试。结果发现,尽管结构化推理和提供解题示例可以减缓解答质量的恶化,但 gpt-3.5-turbo 和 gpt-4 模型在基础计算和推理任务上表现不佳,即 - MM任务导向 LLM 系统设计中的可能性暴政:一个范围调查
这项调研重点关注任务导向的 LLM 系统的设计空间,通过思考实验对不同的 LLM 系统配置性能进行探索,并对 LLM 增强、提示技术和不确定性估计等设计参数进行讨论,提出了七个猜想以指导未来的研究努力。