基于上位词类别预测的更好语言模型

ACLMar, 2022

基于上位词类别预测的更好语言模型

Better Language Model with Hypernym Class Prediction

He Bai, Tong Wang, Alessandro Sordoni, Peng Shi

TL;DR通过将具有相同 WordNet 超类的单词映射到同一类中，并逐渐从预测类逐步训练为预测单词，我们在两个数据集上证明了该课程学习策略能够显著提高困惑度而不影响罕见词性能。

Abstract

class-based language models (LMs) have been long devised to address context sparsity in $n$-gram LMs. In this study, we revisit this approach in the context of neural lms. We hypothesize that class-based predicti

class-based language models neural lms wordnet hypernym curriculum learning perplexity improvement

发现论文，激发创造

通过 LLMs 潜空间增强上下文分类

使用转换器模型从维基百科数据集及其相关类别中提取语义信息，通过不同方法对类别的语义特征进行评估和增强，以提高数据组织的语义准确性。

Apr, 2024

词汇语义增强的神经词向量

通过深度度量学习进行后处理可以提高神经语言模型中语义相似度推断的效果，并将层次拟合用于建模 IS-A 层次中的语义相似性细微差别。

Oct, 2022

探索 LLMs 作为有针对性的合成文本数据源，以最小化高置信度的错误分类

使用大型语言模型进行数据增强，减少高置信度错误分类，并与人类数据进行比较，以降低成本并保持同样的准确性。

Mar, 2024

大型语言模型作为注释器：在最小成本下增强 NLP 模型的泛化能力

研究使用大型语言模型对输入进行注释以提高自然语言处理模型的泛化性，并提出一种基于模型预测得分差异的采样策略来重新训练模型，证明在分类和排名任务中取得了显著的精度提高。

Jun, 2023

基于全局上下文的 GNN 语言建模

通过建立一个包含语料库中与输入内容相关的类语境环境节点的有向异构图，将 GNN-LM 扩展到传统的神经语言模型中（LM），并基于该图构建 GNN 网络来提高模型的泛化能力，有效地实现了对参考上下文的直接访问，展示了它在不同数据集上优于现有方法的结果（例如在 WikiText-103 上的最佳困惑度约为 14.8）。

Oct, 2021

基于大型语言模型的机器翻译的有效消歧

通过利用大型语言模型，我们研究了在机器翻译中解决语义歧义的能力，并提出了两种改进方法，通过上下文学习和在精心策划的歧义数据集上的微调，我们的方法在五种语言方向中有四种能够匹敌或胜过 DeepL 和 NLLB 等最先进的系统，为将大型语言模型有效地用于歧义消解的机器翻译提供了有价值的见解。

Sep, 2023

通过隐式分类将令人印象深刻的 LMM 生成文本识别为令牌预测

本文介绍了一种新颖的方法，用于识别可能参与文本生成的大规模语言模型（LLMs）。我们采用了一种将分类任务重新构建为下一个标记预测任务的方法，并直接微调基本语言模型来执行此任务。我们使用 Text-to-Text Transfer Transformer（T5）模型作为实验的基础，并将我们的方法与利用隐藏状态进行分类的更直接方法进行了比较。评估结果显示了我们的方法在文本分类任务中的卓越性能，突出了其简单性和效率。此外，对我们模型提取的特征进行的可解释性研究揭示了其能够在没有显式分类器的情况下区分不同 LLMs 之间的独特写作风格。我们还收集了一个名为 OpenLLMText 的数据集，其中包含来自人类和 LLMs（包括 GPT3.5、PaLM、LLaMA 和 GPT2）的约 340k 个文本样本。

Nov, 2023

近在眼前，远在天边：神经语言模型如何利用上下文

本研究通过切片研究分析，探讨了神经语言模型如何利用其先前的语境。结果显示，模型能有效地利用大约 200 个标记的语境，但对远古语境的词序并不敏感，而是将其建模为一个粗糙的语义领域或主题，同时这项研究还为基于缓存的模型的最近的成功提供了启示。

May, 2018

上下文学习的可区分性校准

本文提出了一种基于特征转换、超球面嵌入和粗粒度到细粒度度量学习策略的校准方法，以提高模型在含有细粒度分类标签的文本分类任务中的表现。实验证实了该方法的有效性。

Feb, 2023

利用大型语言模型进行端到端语音识别的语境化

通过引入一种新方法，结合大型语言模型（LLMs）来进行上下文化的语音识别模型，我们证明通过添加适配器的少量可训练参数，可以在保持相同的文本输入功能的同时，实现预训练 LLM 的上下文化语音识别能力并显著提高性能。

Sep, 2023