如何提高自然语言处理中同行评议的质量？

EMNLPOct, 2020

如何提高自然语言处理中同行评议的质量？

What Can We Do to Improve Peer Review in NLP?

Anna Rogers, Isabelle Augenstein

TL;DR本文指出同行评审越来越不可信，其原因之一是评审人员没有明确的任务导致非可比较性评估，为此需要寻找建立激励和机制来增加 NLP 社区一致性实施的办法。

Abstract

peer review is our best tool for judging the quality of conference submissions, but it is becoming increasingly spurious. We argue that a part of the problem is that the reviewers and area chairs face a poorly de

peer review conference submissions nlp community reviewers incentives

发现论文，激发创造

AgentReview：使用 LLM 代理探索同行评审动态

我们引介了 AgentReview，这是第一个基于大型语言模型（LLM）的同行评审模拟框架，可以有效地解开多个潜在因素的影响并解决隐私问题。研究揭示了诸多重要发现，包括考虑到社会学理论，如社会影响理论、利他主义疲劳和权威偏见，由于审稿人的偏好而导致了显著的 37.1％决策差异。我们相信，这项研究能为改善同行评审机制的设计提供有价值的见解。

Jun, 2024

RelevAI-Reviewer：一项关于调查论文相关性的人工智能评审基准测试

提出了一种自动系统，将调查论文审查任务概念化为一个分类问题，采用机器学习模型测定与指定主题相关的论文的相关性，并且通过使用 BERT 等高级语言模型，取得了优于传统机器学习方法的初步结果。

Jun, 2024

海德堡 - 波士顿 @ SIGTYP 2024 共享任务：使用字符感知分层变形器增强低资源语言分析

历史语言中的 NLP 社区所面临的主要挑战之一是其封闭语料库中有限的资源。本研究描述了我们参与 SIGTYP 2024 共享任务约束子任务的提交，重点关注 13 种历史语言的词性标注、形态标注和词形还原。我们采用了 Sun 等人（2023 年）的分层分词方法，并结合 DeBERTa-V3 架构的优势，使我们的模型能够有效地从训练数据的每个字符中学习。我们还展示了字符级 T5 模型在词形还原任务中的有效性。我们的模型通过有限的数据从头开始预训练，并在约束子任务中获得了第一名，几乎达到了无约束任务的冠军水平。我们的代码可在此 https URL 找到。

May, 2024

自然语言处理对同行评审有何用处？

科学文章数量快速增长，对其进行质量控制对科学家和大众利益至关重要。由于同行评审往往困难、耗时且容易出错，自然语言处理（NLP）在改进同行评审方面具有巨大潜力。我们的论文旨在为未来的 NLP 同行评审努力奠定基础，讨论了同行评审的一般过程，以 AI 会议的审稿为例，详细阐述了从文稿提交到定稿的每个步骤，讨论了 NLP 协助的挑战和机遇，提出了 NLP 同行评审面临的大型挑战，包括数据获取、运营和实验、伦理问题，并创建了一个聚合与同行评审相关的主要数据集的伴侣仓库。最后，我们呼吁科学界、NLP 和 AI 研究人员、政策制定者和资助机构共同努力推动 NLP 同行评审的研究，希望我们的工作能够在 AI 时代为机器辅助的科学质量控制设定议程，不仅仅限于 NLP 社区。

May, 2024

推荐中的策略化测量：用户调整行为以塑造未来内容

用户行为对推荐算法产生影响，用户可以采取策略来塑造其未来的推荐结果。该研究实验证明用户策略化行为普遍存在，推荐平台需要考虑算法对用户行为的影响。

May, 2024

学习表示的学习表示

ICLR 会议提供了一个包含来自 2017 年至 2024 年所有 24,000 个 ICLR 提交摘要的数据集，研究发现基于词袋表示的模型在 $k$NN 分类准确性方面优于大多数句子转换模型，而顶级语言模型仅略胜于 TF-IDF。此结果对 NLP 社区提出了挑战，并通过该数据集研究了近七年来机器学习领域的变化，发现性别平衡有所改善，并通过摘要文本的二维嵌入描述了 2017 年到 2024 年的研究主题变化，并确定了具有最多 ICLR 提交数量的作者中的创新者和专家。

Apr, 2024

私有协同机器学习中的激励机制

通过差分隐私作为奖励，我们通过引入协作机器学习训练模型，对多个参与方的数据进行价值评估和奖励，并保护隐私风险。实证结果表明，我们的方法在合成和真实数据集上具有有效性和实用性。

Apr, 2024

探索科学情绪摘要的多文档信息整合

基于三层框架的科学情感总结方式，本研究提出了评估生成的元评价的质量的评估指标，并在广泛实验证明通过将此框架作为 LLMs 的提示生成元评价的假设在实证中是可行的。

Feb, 2024

故事回顾片段识别

通过回顾，回忆读者对于先前文本中重要元素的记忆，以更好地理解正在进行的情节，可以帮助书籍阅读。本研究提出了史上第一个基于手工制作的评估数据集，用于回顾片段识别任务的基准。实验结果表明，该任务对于 PLMs、LLMs 和提出的方法来说都具有挑战性，因为它要求对片段之间的情节相关性有深入的理解。

Feb, 2024

有限信息下的操作学习

通过使用不同类型的有限信息，我们测量了不同投票方法对权为筹委会选举中的操纵程度，发现某些投票方法，如 Borda 方法，在有限信息下可以被神经网络高度操纵，而其他投票方法，如 Instant Runoff 方法，尽管能被具有完全信息的理想操纵者操纵，但实际上不容易被操纵。

Jan, 2024