LLM 对零样本和少样本提示的比较研究:孟加拉情感分析的微调模型
这篇论文使用基于 Transformer 的架构进行情感分析,以解决 Bangla 这种低资源语言的问题,并通过细调模型在推特数据上获得最佳性能。同时,还进行了详细的错误分析。
Oct, 2023
评估大型语言模型(LLMs)在低资源语言中的性能,结果显示 LLMs 在各种孟加拉语 NLP 任务中表现不佳,呼吁进一步努力以提高对像孟加拉语这样的低资源语言的 LLMs 的理解
Sep, 2023
金融情绪分析在揭示潜在模式和检测新兴趋势方面发挥着重要作用,最近,大型语言模型在不同领域展示了显著的能力,对于各种自然语言处理任务,甚至在零样本和少样本的情境学习中都表现出卓越的能力。然而,在金融情绪分析的背景下,它们的潜力和适用性尚未得到全面探索。为了弥补这一空白,我们采用了两种方法:上下文学习(重点关注 gpt-3.5-turbo 模型)和对金融领域数据集进行微调的 LLM。我们的结果表明,经过微调的较小 LLM 即便参数较少、训练数据集较小,也能够实现与最先进经过微调的 LLM 可比较的性能。此外,LLM 的零样本和一样本性能与经过微调的较小 LLM 和最先进的结果相当。此外,我们的分析表明,增加上下文学习的样本数量,并没有提高金融领域情绪分析的性能。
Dec, 2023
通过使用多语种词典进行预训练,本文在低资源语言中增强了多语种语言模型的功能,在 34 种语言中进行了零样本情感分析任务,包括 6 种高 / 中资源语言,25 种低资源语言和 3 个代码混合数据集。结果显示,使用多语种词典进行预训练能够实现更好的零样本性能,而不使用句级情感数据,相比于基于英文情感数据集和大语言模型如 GPT-3.5,BLOOMZ 和 XGLM 的微调模型。这些发现适用于涉及高资源语言的未知低资源语言到代码混合场景。
Feb, 2024
我们的研究关注心理健康和社交媒体之间的重要联系,特别是在外向的社交媒体用户中早期检测到抑郁症。通过使用 GPT 3.5、GPT 4 和我们提出的 GPT 3.5 微调模型 DepGPT,以及先进的深度学习模型(LSTM、Bi-LSTM、GRU、BiGRU)和 Transformer 模型(BERT、BanglaBERT、SahajBERT、BanglaBERT-Base),我们对 Reddit 和 X 数据集进行分类,并由精通心理健康的母语使用者将其翻译成孟加拉文,从而创建了孟加拉社交媒体抑郁数据集(BSMDD)。我们的工作提供了每个模型的完整架构细节,并提供了一种系统评估其在孟加拉抑郁文本分类中的性能的方法,使用零样本学习和少样本学习技术。我们的工作证明了 SahajBERT 和具有 FastText 嵌入的 Bi-LSTM 在各自领域的优越性,并解决了 Transformer 模型的可解释性问题,强调了 LLM 的有效性,特别是 DepGPT,在各种学习环境中的灵活性和能力。根据实验结果,所提出的 DepGPT 模型不仅在零样本学习和少样本学习场景中胜过了 Alpaca Lora 7B,而且在准确度和 F1 分数方面也优于其他模型,达到了近乎完美的准确度为 0.9796 和 F1 分数为 0.9804,拥有高召回率和卓越精确度。尽管竞争激烈,GPT-3.5 Turbo 和 Alpaca Lora 7B 在零样本学习和少样本学习情况下相对效果较差。这项工作强调了 LLM 在各种语言环境中的有效性和灵活性,为抑郁症检测模型的复杂领域提供了深入的信息。
Jan, 2024
通过综合评估,本研究在低资源语言(如孟加拉语)的自然语言推理任务中评估了知名大型语言模型和最先进模型的性能,发现虽然大型语言模型在少样本情况下可以达到与微调后最先进模型相媲美或优越的性能,但需要进一步研究来提高我们对大型语言模型在类似孟加拉语等资源有限的语言中的理解。该研究强调了在不同语言环境中探索大型语言模型能力的持续努力的重要性。
May, 2024
该研究以 BanglaBert 为基础,利用多种策略进行情感分析,并建立了一个包含三种最佳 BanglaBert 变体的集成模型,在 BLP-2023 中的排名为第三。
Nov, 2023
在计算社会科学分类任务中,评估了 ChatGPT 和 OpenAssistant 两种公共可访问的 LLM 的零次效果,并研究了各种提示策略的影响。发现在零次设置下,当前 LLMs 无法与较小的经过微调的基线变压器模型(如 BERT)的性能匹配。此外,发现不同的提示策略可以显着影响分类准确性,准确性和 F1 分数的差异超过 10%。
May, 2023
使用零痕迹、少痕迹和微调模型在纵向情感分析任务上评估了 GPT-4 和 GPT-3.5 的性能,结果显示微调的 GPT-3.5 在 SemEval-2014 任务 4 的联合方面术语提取和极性分类任务上获得了 83.8 的最优 F1 分数,比 InstructABSA 提高了 5.7%,但模型参数增加了 1000 倍,推理成本也增加了。我们讨论了不同模型的性价比和分析了它们的典型错误。同时,我们的研究结果表明,在零痕迹和少痕迹环境中,详细提示可以提高性能,但对于微调模型来说并非必要。这些证据对于在 ABSA 中使用 LLMs 时面临提示工程和微调选择的实践者具有相关性。
Oct, 2023
通过跨语言检索增强的方法,我们的研究论文提出了一种创新的方法,利用高资源语言中语义相似的提示来提高多语言预训练语言模型在孟加拉语任务上的性能。详细评估表明,跨语言检索增强的提示对于多语言预训练语言模型的性能有稳定的提升作用。
Nov, 2023