评估心理健康问答分类基础模型的有效性
本文针对知识图谱问答中不同预训练语言模型的性能对比,基于两个基本框架和三个基准数据集进行了实验和分析,结果表明知识蒸馏和知识增强技术对于知识图谱问答有很大的帮助;同时,该文还测试了 ChatGPT 在零样本知识图谱问答方面的表现,最终发布了相关代码与基准数据集供后续研究使用。
Mar, 2023
通过提供三种新的阿拉伯 BERT 模型 (JABER、Char-JABER 和 SABER) 和两种新的 T5 模型 (AT5S 和 AT5B),并在包括 ALUE 在内的阿拉伯自然语言理解任务和 ARGEN 基准子集上实验性地对现有最先进模型的表现进行了系统性评估,得出了我们的模型在辨别性和生成性阿拉伯自然语言理解和生成任务方面具有显著优势,并达到了新的最先进性能。
May, 2022
使用提取式 QA 模型进行特征提取的方法可改善德语商业文档的信息提取,并通过微调现有德语 QA 模型提高性能,同时还讨论了评估信息提取任务的相关度得分指标。
Sep, 2023
本文描述了一种为个性化学习助手创建、优化和评估的问答模型,该模型使用针对阿拉伯语的 BERT transformer 进行了定制。该模型通过在巴勒斯坦课程中的科学教科书中进行优化,能够自动产生正确的科学教育问题的答案,并通过 BERT 技术的精确匹配和 F1 得分评估了模型的性能。结果显示,该模型能够理解并回答与巴勒斯坦科学教材相关的问题,展示了 BERT 问答模型在支持阿拉伯语学生的学习和理解方面的潜力。
Jun, 2024
本论文研究了将对话任务转换成问答任务,以便利用现有的基于转换器的预训练语言模型解决一些自然语言理解任务中的挑战,特别是对话区域中的槽标记。研究结果表明,QA 调整的预训练语言模型可应用于 SL 任务,并达到了新的性能表现,从而提高了其性能和效率。
Apr, 2022
本研究通过比较一般性和专用于医学问答的精简语言模型的性能,旨在填补这方面的空白,并评估不同语言模型家族的性能,以探讨这些模型在医学问答领域的可靠性、比较性能和有效性,从而为不同语言模型在医学领域的特定应用提供有价值的见解。
Jan, 2024
本研究介绍了 MentalQA,一个新颖的阿拉伯语数据集,提供问题和答案的对话式交互。该数据集为开发阿拉伯语文本挖掘工具提供了基础,以支持心理健康专业人员和寻求信息的个人。
May, 2024
我们在这项工作中,首次对多种大语言模型(LLMs)进行了全面评估,包括 Alpaca、Alpaca-LoRA 和 GPT-3.5,针对在线文本数据中的各种心理健康预测任务。我们进行了广泛的实验,涵盖了零样本提示、少样本提示和指令微调。研究结果表明,对于心理健康任务,LLMs 在零样本和少样本提示设计上具有有限但有希望的性能。更重要的是,我们的实验表明,指令微调可以显著提升 LLMs 在所有任务上的表现。我们最佳微调模型 Mental-Alpaca 在平衡精度上比 GPT-3.5(规模大 25 倍)高出 16.7%,并与最先进的任务特定模型相媲美。我们总结了一系列行动指南,供未来的研究人员、工程师和实践者参考,介绍如何赋予 LLMs 更好的心理健康领域知识,并成为心理健康预测任务的专家。
Jul, 2023
本研究针对阿拉伯社交媒体内容,利用预训练语言模型(PLMs)进行了全面的经验研究,旨在识别其中的说服技术。通过特征提取、微调和提示工程技术三种学习方法的实验比较,得出微调方法在二分类和多标签分类任务上取得了最高结果,f1-micro 分数为 0.865,f1-weighted 分数为 0.861。此外,通过使用少样本学习技术,我们观察到在性能相对较低的 GPT 模型上可以提高结果达 20%,这为未来的研究和探索方向提供了有希望的方向。
May, 2024
Med-PaLM 2 combines improvements in Large Language Models, medical domain fine-tuning, and novel ensemble refinement approaches to achieve a state-of-the-art performance approaching or exceeding physician-level performance in medical question answering.
May, 2023