如何提高自然语言处理中同行评议的质量?
我们引介了 AgentReview,这是第一个基于大型语言模型(LLM)的同行评审模拟框架,可以有效地解开多个潜在因素的影响并解决隐私问题。研究揭示了诸多重要发现,包括考虑到社会学理论,如社会影响理论、利他主义疲劳和权威偏见,由于审稿人的偏好而导致了显著的 37.1%决策差异。我们相信,这项研究能为改善同行评审机制的设计提供有价值的见解。
Jun, 2024
提出了一种自动系统,将调查论文审查任务概念化为一个分类问题,采用机器学习模型测定与指定主题相关的论文的相关性,并且通过使用 BERT 等高级语言模型,取得了优于传统机器学习方法的初步结果。
Jun, 2024
历史语言中的 NLP 社区所面临的主要挑战之一是其封闭语料库中有限的资源。本研究描述了我们参与 SIGTYP 2024 共享任务约束子任务的提交,重点关注 13 种历史语言的词性标注、形态标注和词形还原。我们采用了 Sun 等人(2023 年)的分层分词方法,并结合 DeBERTa-V3 架构的优势,使我们的模型能够有效地从训练数据的每个字符中学习。我们还展示了字符级 T5 模型在词形还原任务中的有效性。我们的模型通过有限的数据从头开始预训练,并在约束子任务中获得了第一名,几乎达到了无约束任务的冠军水平。我们的代码可在此 https URL 找到。
May, 2024
科学文章数量快速增长,对其进行质量控制对科学家和大众利益至关重要。由于同行评审往往困难、耗时且容易出错,自然语言处理(NLP)在改进同行评审方面具有巨大潜力。我们的论文旨在为未来的 NLP 同行评审努力奠定基础,讨论了同行评审的一般过程,以 AI 会议的审稿为例,详细阐述了从文稿提交到定稿的每个步骤,讨论了 NLP 协助的挑战和机遇,提出了 NLP 同行评审面临的大型挑战,包括数据获取、运营和实验、伦理问题,并创建了一个聚合与同行评审相关的主要数据集的伴侣仓库。最后,我们呼吁科学界、NLP 和 AI 研究人员、政策制定者和资助机构共同努力推动 NLP 同行评审的研究,希望我们的工作能够在 AI 时代为机器辅助的科学质量控制设定议程,不仅仅限于 NLP 社区。
May, 2024
用户行为对推荐算法产生影响,用户可以采取策略来塑造其未来的推荐结果。该研究实验证明用户策略化行为普遍存在,推荐平台需要考虑算法对用户行为的影响。
May, 2024
ICLR 会议提供了一个包含来自 2017 年至 2024 年所有 24,000 个 ICLR 提交摘要的数据集,研究发现基于词袋表示的模型在 $k$NN 分类准确性方面优于大多数句子转换模型,而顶级语言模型仅略胜于 TF-IDF。此结果对 NLP 社区提出了挑战,并通过该数据集研究了近七年来机器学习领域的变化,发现性别平衡有所改善,并通过摘要文本的二维嵌入描述了 2017 年到 2024 年的研究主题变化,并确定了具有最多 ICLR 提交数量的作者中的创新者和专家。
Apr, 2024
通过差分隐私作为奖励,我们通过引入协作机器学习训练模型,对多个参与方的数据进行价值评估和奖励,并保护隐私风险。实证结果表明,我们的方法在合成和真实数据集上具有有效性和实用性。
Apr, 2024
基于三层框架的科学情感总结方式,本研究提出了评估生成的元评价的质量的评估指标,并在广泛实验证明通过将此框架作为 LLMs 的提示生成元评价的假设在实证中是可行的。
Feb, 2024
通过回顾,回忆读者对于先前文本中重要元素的记忆,以更好地理解正在进行的情节,可以帮助书籍阅读。本研究提出了史上第一个基于手工制作的评估数据集,用于回顾片段识别任务的基准。实验结果表明,该任务对于 PLMs、LLMs 和提出的方法来说都具有挑战性,因为它要求对片段之间的情节相关性有深入的理解。
Feb, 2024
通过使用不同类型的有限信息,我们测量了不同投票方法对权为筹委会选举中的操纵程度,发现某些投票方法,如 Borda 方法,在有限信息下可以被神经网络高度操纵,而其他投票方法,如 Instant Runoff 方法,尽管能被具有完全信息的理想操纵者操纵,但实际上不容易被操纵。
Jan, 2024