语言模型训练数据的愤世选择

Sep, 2017

Cynical Selection of Language Model Training Data

Amittai Axelrod

TL;DR提出了一种使用词汇统计来进行句子选择的信息理论方法代替 Moore-Lewis 方法，避免其存在的问题，达到相似度测量、语言模型训练数据选择等目的。

Abstract

The moore-lewis method of "intelligent selection of language model training data" is very effective, cheap, efficient... and also has structural problems. (1) The method defines relevance by playing language models trained on the in-domain and the out-of-domain (or data pool) corpora a

moore-lewis method language model training data information-theoretic method vocabulary counts sentence selection

发现论文，激发创造

小型语言模型是通过记忆还是泛化来回答上下文问题的？

使用语言模型进行问题回答的过程中，我们提出了一种基于输入和标签之间的语义相似性的方法，用于区分模型对评估样本的直接记忆和通过一些泛化方法预测标签的能力。通过应用该方法，我们在评估数据集的无法记忆子集中观察到了显著的性能改善。

Nov, 2023

揭示基于学习的示范选择在情境学习中的机制

通过分析学习基于示例选择方法的工作机制，我们鉴定出与相似度测量相关的两个重要因素：1）在示例和测试用例输入之间整合不同级别的与任务无关的文本相似度能够增强在不同任务中的泛化能力；2）在测量相似度时结合任务特定标签显著提高每个特定任务的性能。基于这些发现，我们提出了两种适应任务无关和任务特定需求的有效简化示例选择方法，消除了昂贵的大型语言模型推理开销。

Jun, 2024

使用大型语言模型进行可解释的逻辑推理的 Selection-Inference 方法

本文对大型语言模型在逻辑推理方面进行了全面评估，提出了一种基于选择和推理的框架，可以在不进行微调的情况下改进性能，并伴随着因果自然语言推理过程的答案。

May, 2022

上下文中的词汇推断语言模型

该研究利用基于预训练语言模型的方法探究了语义词汇判断任务，并通过构建几个模型在该任务上取得了新的最优结果。

Feb, 2021

LLM 数据推断：你在我的数据集上训练了吗？

大语言模型在现实世界中的大量使用产生了对公司以未经许可的方式在互联网上训练模型的版权纠纷。本文提出了一种新的数据集推断方法来准确识别用于训练大语言模型的数据集，成功地区分了不同子集的 Pile 数据集的训练集和测试集，无任何错误的正例。

Jun, 2024

语境与先验知识在语言模型中的比较

语言模型的先验知识与上下文信息的整合方式对不同问题和上下文情境具有可预见的特征，模型在涉及熟悉实体的问题中更依赖于先验知识，易受特定情境影响。我们提出两个基于互信息的度量，分别衡量模型对上下文的依赖和对实体先验的敏感性。通过经验测试，验证了这些度量的有效性和可靠性，并发现其与模型对实体的熟悉程度存在关联，提供两个使用案例来说明其优势。

Apr, 2024

基于 LLM 的排行榜生成中的有效上下文选择：一项实证研究

通过选择适当的上下文，提高大规模语言模型在生成人工智能研究排行榜方面的效率，并解决了介绍的方法在适应新发展方面超过传统自然语言推理方法的问题。实验证明了有效的上下文选择在提高语言模型精确性和减少错觉方面的重要性，并为可靠高效生成人工智能排行榜提供了新途径。

Jun, 2024

LICO: 大型模式语言用于上下文分子优化

通过为预先训练的语言模型添加嵌入层和预测层，我们引入了 LICO，一个扩展了任意基础 LLM 用于黑盒优化的通用模型，特别适用于分子领域。LICO 可以通过上下文提示轻松地推广到看不见的分子属性，并在包含超过 20 个客观函数的 PMO 挑战性分子优化基准测试中取得了最先进的性能。

Jun, 2024

消除多语言表示中的自我语言偏差的简单有效方法

采用几何代数和语义空间的新角度，提出 “语言信息移除” 方法，通过从多语种表示中分离语言身份信息，进一步研究语言无关和语义 - 语言信息分离的问题。该方法简单而高效，只使用简单的线性运算，并在多语种嵌入空间的弱对齐模型上实现了近乎 100％的显着性能提高。在 Amazon Reviews 和 XEVAL 数据集上进一步验证，显示该方法能够提高跨语言转移性能。

Sep, 2021

通过人工混合数据训练来提升零样本跨语言检索

本研究探讨了如何将零 - shot 模型从高资源语言（一般是英语）迁移到其他语言，结果表明在不同语言的查询和文档中使用零 - shot 排名算法的有效性会降低。因此，我们提出利用双语词典生成人工混合语言的数据来训练排名模型，我们对从跨语言词嵌入和平行维基百科页面标题引导的词典进行了实验，最终在多语言、跨语言和单语言信息检索方面进行了评估。结果表明，使用代码切换可以在跨语言和多语言检索中带来一致且实质性的收益。

May, 2023