- 评估社交媒体数据和屏蔽语言模型中短期时间波动的社交偏见
分析表明,尽管社会偏见存在于所有 MLMs 中,但大多数类型的社会偏见在时间上相对稳定(有几个例外)。进一步分析影响 MLMs 社会偏见的机制,我们发现在训练语料库中,某些人口群体(如男性)一直相对于其他人口群体(如女性)更受偏好。
- BERTs 是生成上下文学习者
本文探讨了掩码语言模型的上下文学习能力,挑战了常见观点,即这种能力在它们中并没有 ' 出现 '。我们提出了一种令人尴尬地简单的推理技术,使得 DeBERTa 能够作为一个生成模型进行操作,无需额外训练。我们的研究结果表明,DeBERTa 能 - 通过语句调整在编码模型上实现自然零样本提示
使用 Statement-Tuning 技术,通过对有限的陈述进行建模,训练一个编码器模型来确定标签,实现跨任务泛化,并展示相比于最先进的大型语言模型状态,Statement Tuning 具有竞争性能且参数更少,研究还探索了几个设计选择对 - 基于法语的临床命名实体识别性能评估
这篇论文是关于对医学法语遮蔽语言模型在临床命名实体识别任务上的评估研究,发现 CamemBERT-bio 在性能上表现优于 DrBERT,而 FlauBERT 则具有竞争力,FrALBERT 的碳排放量最低。这是首个基准评估了法语医学遮蔽语 - 具有遮蔽语言模型的概率声学束搜索
利用掩码语言模型进行束搜索(beam search)困难的部分在于序列的联合概率分布不能轻易获取,这限制了其在蛋白质工程和古代文本修复等许多领域的应用。本研究提出了一种概率上具有合理性的束搜索方法,通过理论和实证研究表明,在特定条件下的文本 - 三种语言下的少样本临床实体识别:掩码语言模型优于 LLM 提示
对于临床实体识别任务,大型语言模型的少样本能力在低资源环境下取得高性能,但在临床领域,轻量级的监督标注模型结合掩蔽语言模型的表现更好,并且二者的 CO2 排放量相对较低。
- ACLUnMASKed: 通过语言学知识的职业市场提示量化遮蔽语言模型中的性别偏见
该研究通过评估六个主要的语言模型(BERT,RoBERTa,DistilBERT,BERT-multilingual,XLM-RoBERTa 和 DistilBERT-multilingual)并采用包含鼓励模型生成英语主题代词和要求模型返 - 评估掩码语言模型中的社会偏见的鲁棒评估度量
我们通过将伪对数似然(PLL)得分集表示为高斯分布,并使用 KL 散度和 JS 散度构建评估措施,以评估刻板化和反刻板化 PLL 得分的分布,发现我们提出的措施在公开可用的数据集 StereoSet(SS)和 CrowS-Pairs(CP) - Lil-Bevo: 以更接近人类的方式训练语言模型的策略探索
我们提出 Lil-Bevo,作为 BabyLM Challenge 的参赛作品。我们使用三种方法对我们的掩码语言模型进行了预训练:使用音乐数据进行初始预训练,先对较短的序列进行训练再逐步增加序列长度,以及对特定令牌进行屏蔽以针对 BLiMP - EMNLP思维链调优:掩码语言模型在自然语言理解中也能逐步思考
通过链式思维调整提升小型蒙特卡罗模型(MLMs)在自然语言理解(NLU)任务上的表现,实现逐步思考的两步推理框架。对层次分类和关系抽取进行实验证明 CoTT 优于基准方法,取得了先进的性能。
- 语法习得中的突然降低:MLM 中的相位转变和简化偏差
通过对屏蔽语言模型(MLMs)中的句法结构的演化进行分析,研究论文发现一种自然生成的属性 —— 句法关注结构(SAS),并证明这种属性对语法能力的发展具有因果关系。另外,研究还发现,SAS 在训练过程中会与其他有益特征和能力竞争,短暂抑制 - 语言模型不抗拒否定:对否定基准测试的分析
本研究针对 LLMs,比如 BERT、GPT-neo、GPT-3 和 InstructGPT 等不同模型,通过实验验证了它们在处理否定句时的局限性,包括对否定句的敏感性不足、无法捕捉词汇语义的否定表述以及在否定条件下推理的失败。
- 掩盖语言模型和下游情感分类任务中对 93 个受污名化群体的偏见
本研究旨在通过检测自然语言处理中的倾向性,确定人工智能模型的偏见和风险,并揭示这些模型对社会中处于弱势地位、受到歧视的群体的影响。结果表明,预训练的 MLMs(Masked Language Models)和他们的下游情感分类器存在着对社会 - 文本图像模型分析偏差的单词级解释
本文的研究目的是探讨文本转图像模型(T2I)如何在生成图像时通过特定的单词体现出种族和性别的偏见,作者通过遮蔽语言模型计算各单词的影响得分,实验结果表明该方法能够用于识别生成图像中的社会刻板印象。
- ICML元学习和代表性语音化实现有效结构化提示
本文提出了 MetaPrompter,它使用元学习和软标记器来共同构建任务特定的提示。MetaPrompter 相对于最近的最佳方法表现更好,而 RepVerb 则优于现有的软标记器。
- ACL从掩码语言模型中衍生语言模型
研究在 Masked language models 中提取出显式的联合分布的方法,并发现基于标识最接近 MLM 的条件的联合分布的方法效果最好,甚至可以有时胜过原来的 MLM 条件的出现。
- ZeroPrompt: 流式声学编码器即零射击遮蔽语言模型
本文提出了 ZeroPrompt 和 Prompt-and-Refine 策略,这是两种简单而有效的训练免费方法,可在不降低精度的情况下降低流式 ASR 模型的 Token Display Time,并通过在推理期间附加零内容作为提示来促使 - 通过 L2 范数打折解决高频词余弦相似度低估问题
本文提出了一种通过将上下文词嵌入以及单词在语料库中的频率相结合,通过降低高频词的 L2 范数,在求取词间余弦相似度时有效解决现有计算方法低估的问题,实验结果表明了所提出方法的有效性。
- 一个更好的掩码语言模型评分方法
该论文提出了一种适用于遮蔽语言模型的评估方法,该方法通过遮蔽目标词汇和目标词汇右侧的所有词汇来计算伪对数似然分数,并表明该方法优于原始的伪对数似然方法和一种遮蔽单词内词汇的伪对数似然方法,并且选择适当的评分指标对于评估一个语言模型的性能很重 - 构建面向掩蔽语言模型社会偏见的整体度量
本文利用高斯分布提出了 KLDivS 和 JSDivS 两种新的评估社会偏见的度量方法,并在公共数据集 StereoSet 和 CrowS-Pairs 上进行了实验,结果表明 KLDivS 和 JSDivS 比过去提出的度量方法更稳定和可解