基于扩展标记分类的电商查询理解的短文本预训练
提出了一种更节省样本的预训练任务,叫做替换标记检测。该方法是通过一个小的生成网络从语料库中替换一些标记,然后通过训练一个判别模型,以预测输入标记是否被替换,而不是预测被替换的标记的原始身份来破坏输入,从而定义所有输入标记的任务,比普通的 Masked language modeling 更有效,并表现出比 BERT 更好的上下文表示学习效果。
Mar, 2020
大型语言模型(LLMs)预先训练在海量语料库上,在各种 NLP 任务中展示了出色的性能。本文针对特定领域应用这些模型仍然存在着显著挑战,如缺乏领域知识、有限的领域知识利用能力和不足的领域特定数据格式适应能力。因此,本研究聚焦于以电子商务领域为示例进行面向领域的持续预训练。具体而言,我们探讨了在无标签的一般和电子商务语料库上进行持续预训练对 LLMs 的影响。此外,我们设计了一种混合策略来更好地利用电子商务半结构化数据。我们构建了多个任务来评估 LLMs 在电子商务领域中的少样本上下文学习能力以及经过指令调整后的零样本性能。实验结果证明了电子商务 LLMs 持续预训练的有效性,以及我们设计的数据混合策略的功效。
Dec, 2023
本文介绍了 TaCL,一种全新的断续预训练方法,利用无监督学习使 BERT 学习各种符号表示的同构和具有辨别性的分布,通过广泛测试,TaCL 在中英文基准测试中带来了显著的改进。
Nov, 2021
提出了一个名为 E-BERT 的统一的预训练框架,旨在解决 BERT 在 E-commerce 相关任务中无法很好支持两种级别的领域知识的问题,该框架通过自适应混合掩蔽实现了短语级别知识的保留以及通过邻居产品重构实现了利用产品级别知识,研究表明 E-BERT 在评论问答、方面提取、方面情感分类和产品分类等四个下游任务中有着良好的表现。
Sep, 2020
本文提出了一种有效的多语言模型,该模型不仅利用已经处理好的类平衡数据集,还通过多任务预训练获得更一般化的表示。作者采用了 mlm 任务、分类任务和对比学习任务,在微调阶段采用自信学习、EMA、FGM 和 R-Drop 等方法提高模型的泛化能力和鲁棒性,采用多粒度语义单元来寻找查询和产品文本元数据,以增强模型的表示能力。该方法在三个任务中排名前八。
Jan, 2023
Transformer 结构预训练模型在电子商务领域的核心应用场景包括但不限于产品描述的自动生成、用户评论的情感分析、个性化推荐系统的构建和客服对话的自动处理。本研究通过对模型的工作原理、实施过程和具体案例中的应用效果进行详细分析,强调了预训练模型在理解复杂用户意图和提高推荐质量方面的独特优势,并讨论了未来的挑战和改进方向,例如如何进一步提高模型的泛化能力、处理大规模数据集的能力以及保护用户隐私的技术策略。最终,该论文指出 Transformer 结构预训练模型在电子商务领域不仅推动了技术创新,还给商家和消费者带来了实质性的利益,并展望这些模型在电子商务和其他领域将继续发挥关键作用。
Feb, 2024
本文研究在跨模态预训练中使用遮蔽语言建模(Masked Language Modeling,简称 MLM)的一些问题,提出了一些针对这些问题的替代遮蔽策略,在 LXMERT 模型预训练时,我们的替代策略始终优于原始遮蔽策略,特别是在低资源设置下,我们的预训练方法显著优于基准模型,并且通过对影像对象的特定标记任务的评估,我们的结果和分析表明,该方法允许更好地利用训练数据。
Sep, 2021
本研究提出了一种适用于电子商务用户数据的 BERT 模型的自监督预训练表示学习方法,将用户行为数据看作是句子中的单词,并采用统一结构同时学习长期、短期和用户属性。实验证明,该方法在三个不同的实际任务中都能带来显著的改进,尤其是与任务特定建模和多任务表示学习相比。
Feb, 2022
本文研究了五种基于令牌级分类任务的简单预训练目标作为 MLM 替代品,证明这些方法可以达到与使用 BERT-BASE 结构的 MLM 相当或更好的性能,并且使用较小的模型进行验证。
Sep, 2021
本文提出了利用基于自我注意力的神经网络的机器理解方法,来解决电子商务对话搜索中的查询跟踪问题,并构建了一种新的数据集,实验结果表明,该模型在精确匹配度和 F1 得分方面优于几种基线模型,展示了机器理解模型在此任务上的潜力。
Oct, 2018