探索大型语言模型在计算论证中的潜力
介绍了一种计算论证语义引擎(MQArgEng)和初步研究,评估引入计算论证语义对大型语言模型性能的影响。实验结果表明 MQArgEng 在大部分考察的主题类别中提供了适度的性能提升,呈现出潜力并值得进一步研究。
May, 2024
通过引入辩证推理方法,使用大语言模型(LLMs)构建论证框架,从而使 LLMs 的决策能够被自然地解释和争辩,通过在声称验证的决策任务中的实验,我们证明了辩论性 LLMs 的有效性,结果竞争力强于同类技术。
May, 2024
对有争议问题的论述的计算处理在自然语言处理领域进行了广泛研究,其中论证质量评估是一个关键且具有挑战性的任务。本文提出了利用大型语言模型,通过系统指导其熟悉论证理论和场景以及解决相关问题的方式,以实现更可靠的论证质量评估,同时讨论了由此而产生的现实机遇和道德问题。
Mar, 2024
评估当代大型语言模型(LLM)进行论证推理的能力,发现大语言模型在论证挖掘(AM)和论证对提取(APE)任务中表现出了能够匹配或超过最新技术的能力,但它们的论证推理性能非常依赖于输入和输出表示形式。
Sep, 2023
大型语言模型(LLMs)的能力不断增长,但也引发了对其潜在滥用创建个性化、令人信服的错误信息和宣传的担忧。为了了解 LLMs 的说服能力,我们在 Durmus&Cardie(2018)的数据集上进行了研究,提出了衡量 LLMs 能力的任务,包括区分强弱论点、根据信念和人口特征预测立场、以及根据个人特征确定论点的吸引力。我们发现 LLMs 在这些任务中能与人类持平,并且合并不同 LLMs 的预测可以显著提高性能,甚至超过人类表现。本文发布的数据和代码为持续评估和监测快速发展的 LLMs 的潜在影响和能力做出了关键而持续的贡献。
Mar, 2024
评估大语言模型在教育中的功效,特别是在口语学习领域,引入新的多选题数据集评估模型在理解和应用口语知识方面的表现,研究不同提示技术对模型性能的影响,发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解,但在解决现实世界问题的推理方面存在限制,并初步探讨了对话交流的发现。
Aug, 2023
本研究探讨了利用大型语言模型 (Large Language Models,LLMs) 作为计算社会科学 (Computational Social Science,CSS) 工具的可行性。结果表明,LLMs 可以作为零 - shot 数据注释工具或是用于启动具有挑战性的生成任务,并可以极大地提高社会科学分析的效率和降低成本。
Apr, 2023
近期自然语言处理(NLP)在法律领域的应用面临诸多挑战,包括极长的序列长度、专业词汇仅律师才能理解以及数据不平衡。大型语言模型(LLMs)的出现为 NLP 在法律领域提供了新的机会。本研究旨在量化普通 LLMs 与领域特定模型在法律领域的表现,通过比较三个通用 LLMs(ChatGPT-20b,LLaMA-2-70b 和 Falcon-180b)在 LexGLUE 合同条款分类基准测试集上的零样本性能。尽管 LLMs 未经专门训练法律数据,但我们观察到它们在大多数情况下仍能正确分类主题。然而,我们发现它们的微 F1 / 宏 F1 性能比在法律领域微调的较小模型要低 19.2/26.8%,这凸显了需要更强大的法律领域 LLMs。
Nov, 2023
大型语言模型(LLM)与人类一样具有说服力,但我们对其原因知之甚少。本文研究了 LLM 的说服策略,并将其与人类生成的论点进行比较。通过对 1251 名实验参与者的数据集分析,我们使用认知努力度(词汇和语法复杂性)以及道德情感语言(情感和道德分析)衡量 LLM 生成和人类生成的论点的说服策略。研究表明,LLM 生成的论点需要更多的认知努力,其语法和词汇结构比人类对应论点更为复杂。此外,LLM 表现出更强烈的倾向来运用道德语言,与人类相比,更频繁地使用积极和消极的道德基础。与先前的研究相反,没有发现 LLM 生成的情感内容与人类有显著差异。这些发现有助于关于人工智能和说服力的讨论,突显了 LLM 通过传播策略对信息的真实性产生同时增强和破坏的双重潜力。
Apr, 2024
在自然语言处理领域中,本研究通过对四个知名的大型语言模型(Llama-2,Falcon,Mistral 和 Zephyr)进行全面的零样本评估,与最先进的微调模型进行性能比较,评估了大型语言模型在电信领域内的知识和理解能力,并发现零样本的大型语言模型能够在这一领域内达到与当前最先进微调模型相当的性能水平,突显了大型语言模型作为理解这一领域不足的各个方面的有价值资源的潜力。
Feb, 2024