通过对现有文献进行广泛分析,我们发现在自然语言处理的人工评估方法中存在一些缺陷,这促使我们开发了一种层次化评估框架,该框架具有更全面地表示自然语言处理系统性能的显著优点,并应用于评估机器阅读理解系统及其与人工智能共生模型中的输入和输出的质量之间的关联。
Oct, 2023
介绍了人与自然语言处理模型 (NLP) 的交互式 (HITL) 的短暂但激动人心的历史,总结了近期以任务、目标、人机交互和反馈学习方法为重点的各种 HITL NLP 框架,并讨论了将来在 NLP 开发中整合人类反馈的方向。
Mar, 2021
综述了机器学习和符号方法在自然语言处理中的缺点和优势以及其通过混合方法的桥梁作用,讨论了混合方法在需要自然语言理解、生成和推理的广泛领域的最新研究,同时探讨了现有资源和面临的挑战,并提出了未来方向的路线图。
Jan, 2024
该论文对 iNLP 的定义、分类、评估方法、应用和未来研究方向进行了综合性调查,旨在为研究人员提供广泛的视野和工具,以促进与人类、知识库、模型和环境的交互、交流和合作。
May, 2023
量化分析了 NLP 和其他 23 个学科领域(相互)之间的影响程度,结果显示 NLP 的学科交叉合作程度下降,自 1980 年的 0.58 降至 2022 年的 0.31(历史最低),同时 NLP 的学术引用越来越内向,主要引用计算机科学领域的论文,而对语言学、数学和心理学等领域的引用较少,这些研究结果凸显了 NLP 需要紧急反思与其他学科领域的合作交流。
本论文介绍了一种估算全球语言技术的实用性的框架,并量化了 NLP 研究现状中存在的差异性,探讨了其相关的社会和学术因素,并为基于证据的政策制定提出了定制的建议,旨在促进更全球和公平的语言技术。
Oct, 2021
本文综述了自然语言处理在编程方面的研究,并从推理模型到最新竞争级模型全面调查了现有的相关工作,具有技术类别的完整性,方便查找和比较未来的工作。
Dec, 2022
该论文探讨了自然语言处理中假设评估的问题,提出使用贝叶斯方法评估假设,并提供了针对该领域的最佳实践和指南。
Nov, 2019
本文探讨了人类中心的大型语言模型评估,并提出了心理模型,用例使用价值和认知参与三个研究重点,旨在加速人类中心式大型语言模型评估的进展。
Mar, 2023
在这篇论文中,作者认为生成模型和大型语言模型(LLM)的发展给模型评估带来了新的挑战与责任,因此呼吁研究人员应开发基于真实世界的社会需求的评估方法,并兼顾现实与成本的平衡,以缩小模型使用中的社会技术差距,同时为大型语言模型的评估提供开放性问题和机会。
Jun, 2023