BERTs 是生成上下文学习者
本研究通过将定制和合适的双语预训练语言模型(称为 BiBERT)的输出(上下文嵌入)作为神经机器翻译编码器的输入,展示了实现最先进的翻译性能的方法,并提出了一种随机层选择方法和双向翻译模型的概念,以确保充分利用上下文嵌入。
Sep, 2021
提出一种名为条件 BERT 上下文增强的有标注句子的新数据增强方法,基于 BERT 的条件掩蔽语言模型,通过替换预测到的更多变化的子词来增加标注的语句的多样性,实验显示该方法可以轻松应用于卷积或循环神经网络分类器中以获得明显的改进。
Dec, 2018
该论文提出了两种新的全局状态方法,将其应用到时尚搭配领域,通过具体客户特征进行服装搭配,实验比较表明这种方法能显著提高个性化推荐的效果。
Oct, 2020
本文提出了 DialogBERT,这是一种新型的对话响应生成模型,通过使用分层 Transformer 架构和两个训练目标,包括掩码语调回归和分布式语调顺序排名来提高先前基于 PLM 的对话模型,在三个多轮对话数据集上进行实验证明,相比于 BART 和 DialoGPT,DialogBERT 在定量评估方面表现出色,并且在人类评估中证明,DialogBERT 比基线模型生成的响应更连贯、信息量更大,并更加接近人类表现。
Dec, 2020
该研究的主要目的是探讨如何利用大规模的预训练语言模型如 BERT 来进行语言生成任务,并提出了一种基于条件掩码语言建模(C-MLM)的方法,使用 BERT 对学生模型进行监督,从而实现更好的文本生成性能,实验证明该方法在多语言生成任务上明显优于强大的 Transformer 基线,包括机器翻译和文本摘要,并在 IWSLT 德英和英越 MT 数据集上取得了新的最优效果。
Nov, 2019
本文研究在深度学习系统中敌对攻击的问题,使用字符级攻击并检验了几种防御方法和模型,表明一种无监督的迭代方法与 BERT 的掩码语言模型相结合可以达到与人类众包工人相当的效果。
Jun, 2021
本文利用 BERT 模型重新排序自动语音识别中的 N 个最优假设,同时融合了任务特定的全局主题信息。实验表明,相较于循环神经网络和利用 BERT 计算伪对数似然分数的方法,本方法在 AMI 基准语料库上的有效性和可行性得到了证实。
Apr, 2021
利用 GPT-2 变形金刚生成的单词嵌入来测试大脑对自然文本中背景信息的反应,结果表明语言网络中的大多数皮层对背景信息敏感,右半球对于较长场景的反应比左半球更敏感,支持以前的上下文敏感度分析并有助于量化每个体素的上下文整合窗口大小。
May, 2023
本文从贝叶斯的角度出发,将大型语言模型视作主题模型,提出了一种从标注数据中选择最佳示范的算法,并在实际数据集中证明相对于随机选择基线,平均有 12.5% 的显著改进。研究表明,大型语言模型从示范中隐式地推断出潜在的概念变量。
Jan, 2023
通过层次上的上下文遮蔽实验,我们证明了大型语言模型中存在一个任务识别点,该点将任务编码到输入表示中,不再需要注意上下文,同时还观察到在层次遮蔽时的低性能与任务识别层之间的对应关系,利用这种冗余性可在提示 5 个示例时节省 45% 的计算量,任务识别在第 14/32 层达到,并且层次微调实验表明对于 MT 微调来说,最有效的层次是关键的任务识别层。
Mar, 2024