使用转换器模型从维基百科数据集及其相关类别中提取语义信息,通过不同方法对类别的语义特征进行评估和增强,以提高数据组织的语义准确性。
Apr, 2024
通过深度度量学习进行后处理可以提高神经语言模型中语义相似度推断的效果,并将层次拟合用于建模 IS-A 层次中的语义相似性细微差别。
Oct, 2022
使用大型语言模型进行数据增强,减少高置信度错误分类,并与人类数据进行比较,以降低成本并保持同样的准确性。
Mar, 2024
研究使用大型语言模型对输入进行注释以提高自然语言处理模型的泛化性,并提出一种基于模型预测得分差异的采样策略来重新训练模型,证明在分类和排名任务中取得了显著的精度提高。
Jun, 2023
通过建立一个包含语料库中与输入内容相关的类语境环境节点的有向异构图,将 GNN-LM 扩展到传统的神经语言模型中(LM),并基于该图构建 GNN 网络来提高模型的泛化能力,有效地实现了对参考上下文的直接访问,展示了它在不同数据集上优于现有方法的结果(例如在 WikiText-103 上的最佳困惑度约为 14.8)。
Oct, 2021
通过利用大型语言模型,我们研究了在机器翻译中解决语义歧义的能力,并提出了两种改进方法,通过上下文学习和在精心策划的歧义数据集上的微调,我们的方法在五种语言方向中有四种能够匹敌或胜过 DeepL 和 NLLB 等最先进的系统,为将大型语言模型有效地用于歧义消解的机器翻译提供了有价值的见解。
Sep, 2023
本文介绍了一种新颖的方法,用于识别可能参与文本生成的大规模语言模型(LLMs)。我们采用了一种将分类任务重新构建为下一个标记预测任务的方法,并直接微调基本语言模型来执行此任务。我们使用 Text-to-Text Transfer Transformer(T5)模型作为实验的基础,并将我们的方法与利用隐藏状态进行分类的更直接方法进行了比较。评估结果显示了我们的方法在文本分类任务中的卓越性能,突出了其简单性和效率。此外,对我们模型提取的特征进行的可解释性研究揭示了其能够在没有显式分类器的情况下区分不同 LLMs 之间的独特写作风格。我们还收集了一个名为 OpenLLMText 的数据集,其中包含来自人类和 LLMs(包括 GPT3.5、PaLM、LLaMA 和 GPT2)的约 340k 个文本样本。
Nov, 2023
本研究通过切片研究分析,探讨了神经语言模型如何利用其先前的语境。结果显示,模型能有效地利用大约 200 个标记的语境,但对远古语境的词序并不敏感,而是将其建模为一个粗糙的语义领域或主题,同时这项研究还为基于缓存的模型的最近的成功提供了启示。
May, 2018
本文提出了一种基于特征转换、超球面嵌入和粗粒度到细粒度度量学习策略的校准方法,以提高模型在含有细粒度分类标签的文本分类任务中的表现。实验证实了该方法的有效性。
Feb, 2023
通过引入一种新方法,结合大型语言模型(LLMs)来进行上下文化的语音识别模型,我们证明通过添加适配器的少量可训练参数,可以在保持相同的文本输入功能的同时,实现预训练 LLM 的上下文化语音识别能力并显著提高性能。