对有争议问题的论述的计算处理在自然语言处理领域进行了广泛研究,其中论证质量评估是一个关键且具有挑战性的任务。本文提出了利用大型语言模型,通过系统指导其熟悉论证理论和场景以及解决相关问题的方式,以实现更可靠的论证质量评估,同时讨论了由此而产生的现实机遇和道德问题。
Mar, 2024
本文介绍了 ArguGPT 数据集,分析了由大型语言模型生成的英文论述文章的语言学特征,以及用于检测 AIGC 的现有和新型检测器的性能,其中使用的 RoBERTa 检测器在 essay 和 sentence 级别均可达到 90% 以上的准确率。
Apr, 2023
本文通过介绍一种新的合成问答数据集 PrOntoQA,旨在通过对 LLMs 的系统探索,该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析,表明 LLMs 能够进行正确的逻辑推理,但在方案规划方面存在困难。
Oct, 2022
该研究证明,通过使用既有的预训练模型中的隐含知识以及显式的自然语言陈述,神经网络可以可靠地执行系统性推理任务,这为开放领域的系统不断与用户交互、持续改进的路径铺平了道路。
Jun, 2020
介绍了一种计算论证语义引擎(MQArgEng)和初步研究,评估引入计算论证语义对大型语言模型性能的影响。实验结果表明 MQArgEng 在大部分考察的主题类别中提供了适度的性能提升,呈现出潜力并值得进一步研究。
May, 2024
本文提出了一种新的预训练语言模型框架,通过增强其对文本的比较推理能力来提高 NLP 任务的性能,该框架通过收集结构化和非结构化数据设计了三个新的预训练任务,并在比较问答、问句生成和摘要等下游任务中进行了评估,结果显示,我们的预训练框架显著提高了语言模型的比较推理能力,特别是在低资源条件下。此外,本工作还发布了第一个针对文本比较推理的综合基准。
May, 2023
本文介绍了如何利用 RuBERT fine-tuning 技术以及经过语言标注的经济新闻语料库来优化 ruGPT-3 模型,从而提高俄文下生成文字的准确率。
Jun, 2022
这项研究评估了大型语言模型在计算论证领域的表现,针对论证挖掘和论证生成等任务进行了零样本和少样本设定下的评估,并提出了 14 个公开数据集的标准化格式,以及一种新的针对反述生成的基准数据集,展示了大型语言模型在论证领域的良好性能,并指出评估计算论证的局限性和未来研究方向的建议。
Nov, 2023
通过 CoT 提示方法来评估四个语言模型对第三年医学生反思性文章的打分,结果显示 Llama-7b 表现最差,均方误差最高,而 ChatGPT 表现出色,科恩卡帕分数达到 0.53。此外,所选模型均优先考虑用户隐私,允许用户删除自己进行的会话。
Sep, 2023
通过 MAGE 框架,本研究旨在探索 LLM ChatGPT4 应用的能力,为教育工作者提供一个方法,以在其学科背景中系统地评估其评估的脆弱性,并提供特定和针对性的问题脆弱性指示,以评估关键思维技能的基础。
Jun, 2024