探索联系中心大型语言模型

Dec, 2023

Towards Probing Contact Center Large Language Models

Varun Nathan, Ayush Kumar, Digvijay Ingle, Jithendra Vepa

TL;DR使用特定领域的指令对大型语言模型进行微调已被证明是提高其特定领域理解能力的有效方法。本研究通过评估联系中心领域指令微调的语言模型在对话、渠道和自动语音识别属性方面的显著特点，探索了不同架构、规模和微调范式下的性能，并发现与开箱即用的模型相比，联系中心微调的语言模型在领域下游任务中的应答可接受性提高了 48% 以上。此外，我们还比较了开箱即用模型和联系中心微调的模型在常用的 SentEval 数据集上的表现，并通过探测任务评估它们在表面、句法和语义信息方面的能力。有趣的是，我们发现探测分类器对一组探测任务的性能相对一致。这些观察结果表明，与开箱即用的模型相比，联系中心微调的语言模型在编码表面、句法和语义属性方面的依赖较少，突显了特定领域自适应和探测任务性能之间错综复杂的相互作用，为在专业环境中探索微调语言模型的行为提供了机会。

Abstract

fine-tuning large language models (LLMs) with domain-specific instructions has emerged as an effective method to enhance their domain-specific understanding. Yet, there is limited work that examines the core char

fine-tuning large language models contact-center benchmark probing tasks

发现论文，激发创造

大型语言模型是否遵循概念注释指南？科学和金融领域案例研究

大语言模型通过指导文本对句子进行标记涉及了利用上下文示例的广泛语言模型，根据我们的简单评估方法，我们发现开源语言模型与领先的专有 API 之间在概念理解方面存在显著差距。

Nov, 2023

大型语言模型（LLM）在低资源环境中不同有效微调方法的比较分析

该研究探讨了大型语言模型的细调策略，发现可替代方法在领域外泛化方面与标准方法相媲美，强调了对有效提示的需求，并针对可用资源和任务适应性进行合适的细调方法选择。

May, 2024

Dial-insight：用高质量领域专用数据进行精细调整，防止能力崩溃的大型语言模型

我们提出了一个双阶段方法来构建高质量数据的生产提示，通过该方法可以增强一般大型语言模型的特定领域能力，而不损害其总体泛化能力。

Mar, 2024

大型语言模型在电信领域的语言智能

在自然语言处理领域中，本研究通过对四个知名的大型语言模型（Llama-2，Falcon，Mistral 和 Zephyr）进行全面的零样本评估，与最先进的微调模型进行性能比较，评估了大型语言模型在电信领域内的知识和理解能力，并发现零样本的大型语言模型能够在这一领域内达到与当前最先进微调模型相当的性能水平，突显了大型语言模型作为理解这一领域不足的各个方面的有价值资源的潜力。

Feb, 2024

有监督的知识提升大语言模型在上下文学习中的表现

通过提示工程，大型语言模型（LLMs）展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而，在自然语言理解和问题回答方面，提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。

Dec, 2023

大型语言模型对指令的稳健性评估

指令微调方法能够增强大型语言模型在未知任务上的零样本功能，并对其性能和稳健性进行了评估，发现在处理陌生指令时性能显著下降，而对于关系抽取指令的稳健性较问答指令更差。

Aug, 2023

应用于临床和生物医学任务的指导微调大型语言模型的零样本和少样本研究

评估四个最先进的面向指令的大型语言模型（ChatGPT、Flan-T5 UL2、Tk-Instruct 和 Alpaca）在 13 项真实世界的临床和生物医学自然语言处理（NLP）任务，如命名实体识别（NER）、问答（QA）、关系抽取（RE）等方面的表现。总体结果表明，评估的语言模型在大多数任务的零样本和少样本场景中已经接近最先进模型的性能，尤其在 QA 任务中表现出色，即使它们之前从未见过这些任务的示例。然而，我们观察到分类和 RE 任务的性能低于专门训练用于医学领域的模型（如 PubMedBERT）所能达到的水平。最后，我们注意到没有一个语言模型在所有研究任务中都胜过其他模型，某些模型在特定任务中更适合。

Jul, 2023

大型语言模型在语言学习中的口语智能

评估大语言模型在教育中的功效，特别是在口语学习领域，引入新的多选题数据集评估模型在理解和应用口语知识方面的表现，研究不同提示技术对模型性能的影响，发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解，但在解决现实世界问题的推理方面存在限制，并初步探讨了对话交流的发现。

Aug, 2023

利用调教的大型语言模型的零射击能力进行端到端语音识别

我们提出了一种将指导训练的大型语言模型 (LLM) 与端到端自动语音识别 (ASR) 相结合的新方法。该方法利用 LLMs 的零 - shot 能力来提取语言信息，从而改善 ASR 性能，其中包括纠正 ASR 假设中的语法错误，并利用嵌入的语言知识进行端到端 ASR。实验证明，所提出的集成方法能够取得良好的性能改进，并且我们的方法在 LLM 基于重排序时得到了很大的好处。

Sep, 2023

超越已知：研究 LLMs 在域外意图检测中的性能

对大规模语言模型在超出预定义领域内意图检测任务中的能力进行了综合评估，揭示了它们的优势和劣势，发现 LLMs 表现出强大的零样本和少样本能力，但与使用完整资源进行微调的模型相比仍存在劣势。通过进一步的分析实验，讨论总结了 LLMs 面临的挑战，并提出了对未来工作的指导，包括注入领域知识、加强从领域内到超领域的知识转移和理解长指令。

Feb, 2024