- 任何文本的分段:一种用于鲁棒、高效和适应性句子分割的通用方法
利用新模型解决分隔文本中缺失标点符号的问题,并实现在不同领域的高效表现,以及在实际情况中文字格式不良的具有普适性的分词方法。
- 从洞察到行动:可解释性和分析研究对自然语言处理的影响
IA 研究是 NLP 领域的一个不断发展的子领域,主要目标是深入理解 NLP 系统和方法的行为和内部工作。通过数量化分析,本文发现 IA 工作在 NLP 领域具有广泛的引用和影响力,研究表明 NLP 研究人员依赖和借鉴 IA 工作的发现和术 - ACL误称性别修复者:一个基于社区参与的干预方法
通过对美国的性别多样化个体进行调查,本文是第一篇针对误用称谓所缺乏的干预研究进行调查,并根据调查结果提出了误用称谓干预任务和评估数据集 MisgenderMender,该数据集包括社交媒体内容和关于非二元性别公众人物的文本,通过检测和纠正误 - ACLTAMS:基于翻译的形态分割
标准词素分析是将单词分析为其组成形态素的标准(即底层)形式的过程。本文提出了一种利用先前经过训练的高资源单语言模型获得的翻译的字符级序列到序列模型来改善标准分词任务的方法,取得了在无资源情况下超越基准的效果,但在训练数据更多的情况下结果不稳 - ACL预测概率的解释:模型置信度还是人工标签变异性?
研究纸的主要议题和研究领域是 NLP 系统的不确定性评估,并讨论了预测分布对于模型信心和人类标签变化的指示的两种不同观点,推荐工具和展示了关于预测和人类标签不确定性的解耦表示的令人兴奋的方向。
- 可靠推理过程指导下的数值推理增强
通过分解答案公式以确保支持答案的可靠推理过程,Encore 方法在所有五个实验数据集上平均提高了 1.8%,证明了该方法的有效性。
- OrderBkd: 文字背门攻击的重新定位
借助特定词语在句子中的重新定位作为触发器,设计和应用基于词性标注的规则来选择这些词汇,在保持高攻击成功率的同时,优于现有攻击的困惑度和与清洁样本的语义相似性。
- 机器翻译中同性伴侣关系的偏见评估
机器翻译中存在偏见的数据和算法可能导致系统输出中的不可接受的错误。我们研究了 MT 系统中同性关系的偏见程度,并使用来自几种名词性别语言(例如西班牙语)的生成模板句子进行调查。我们发现,三种流行的 MT 服务在准确翻译涉及同性名词关系的句子 - 自然语言处理和大型语言模型的公平认证
发展公平认证以确保自然语言处理系统的算法公正性和对少数群体的非歧视性。
- 使用多语言转换器集成的文本亲密度分析
本文介绍了作者在 SemEval 共享任务 9 中对给定文本的亲密度水平进行预测的研究工作,采用多语言模型的集成和语言特定的单语模型,并评估了其他数据增强方法,最后呈现了一些有价值的研究结果。
- 识别转写和混合编码的孟加拉语冒犯性语言
在这篇研究中,我们探讨了社交媒体上的冒犯性内容识别问题,特别关注多语社会中常见的音译和混合语言现象对自然语言处理系统的挑战。我们引入了一份包含 5000 条手动注释评论的音译孟加拉冒犯性语言数据集(TB-OLID),并在该数据集上对机器学习 - EMNLP有效解决问题是实现自然语言处理翻译的关键:以 UMLS 词汇插入为案例研究
研究了大型语言模型在实际应用中的效果,以 UMLS 词汇插入为例,提出了新的问题形式,构建了数据集和强基准模型,并提出了一种规则增强的生物医学语言模型,以提高插入效率和质量。这表明问题的形式对于实现应用化的 NLP 解决方案的成功至关重要。
- MOKA:道德事件抽取的道德知识扩充
利用道德事件数据集和基于道德知识增强的 MOKA 框架,研究新闻报道中道德事件的选择性报道和不同意识形态倾向,揭示了新闻媒体运用道德语言创造记忆深刻的故事,并与读者价值观相契合的内在动力。
- EMNLPTempTabQA:面向半结构化表格的时间问题回答
通过引入半结构化表中的时间问题回答任务,并使用 TempTabQA 数据集评估现有模型的时间推理能力,我们观察到即使是表现最好的 LLMs 在 F1 得分上也比人类表现差 13.5 个百分点以上,因此我们的数据集有潜力成为改进 NLP 模型 - IruMozhi:自动分类泰米尔双语现象
释放了一个人工注释的文学和口语泰米尔语的平行文本数据集(IruMozhi),用于训练分类器以识别文本所属的语言版本,以评估口语泰米尔语的预训练数据的可用性,并促进未来对不同版本的工作。
- 跨语言多语种神经机器翻译中的鲁棒性是否可转移?
研究通过对抗训练和数据增强来提高多语言神经机器翻译模型的稳健性,并探究在多语言翻译中稳健性的可传递性。在多个实验中,我们使用字符级、词级和多级噪声来攻击多语言神经机器翻译模型的特定翻译方向,并评估其他翻译方向的稳健性。我们的研究结果表明,稳 - 探索 LLM 代理的协作机制:社会心理学视角
NLP 系统在多智能体社会中能够模拟人类协作智能吗?本文通过实验和理论结合,研究了当代 NLP 系统之间的协作机制,发现使用不同的社交行为,从积极辩论到内省反思,LLM 代理能够高效完成任务,并表现出类似人类的社交行为,这为 LLM 的协作 - 利用生成的 LLM 的反事实文本来解释黑盒 NLP 模型
解释自然语言处理系统预测的因果解释对于确保安全性和建立信任至关重要,本文提出了两种针对模型无关性的倒因果估算方法,分别基于生成和匹配,并通过实验证明了生成模型和匹配模型在模型解释方面的出色性能。
- 探究 LLM 中更微妙的偏见:生成模型中的年龄歧视、美貌、机构和国籍偏见
通过使用模板生成的数据集,本文研究了 LLMs 在年龄和美貌等维度上的偏见,以及 LLMs 对特定社会群体的情感偏向。同时,我们报告了多个先进的 LLMs 找到的相关性,这个数据集可以用来评估更广泛的偏见,并且模板技术可用于在最小的人工注释 - 当哪些话语标记影响计算语义理解?
机器自然语言处理系统对话连词的理解和处理能力的评估表明,不同类型的连词在计算处理复杂性上并不总是与人类处理中的预期顺序一致,并且系统对连词的准确理解对最终的 NLP 系统性能有重要影响。