- 训练小型情感视觉语言模型以实现对视觉艺术的理解
该研究开发了小型视觉语言模型,旨在通过情感建模和输入输出特征对齐,识别视觉艺术作品的情感类别并解释预测结果,实验证明该模型在理解视觉艺术方面的性能明显优于基准模型。
- LLM增强型自治代理能够合作吗?— 通过熔炉验证其合作能力
大语言模型在自主代理中的合作能力及其与Melting Pot环境中的应用和评估
- X-LLaVA: 优化双语大型视觉语言对齐
我们提出了两种解决多模态模型创建训练数据方面的问题的有效方法,并基于这些方法构建了一个91K的英-韩-中多语言多模态训练数据集,并开发了一种双语多模态模型,在韩语和英语方面表现出优秀的性能,超过了现有方法。
- 从嘈杂音频转录中提取生物医学实体
自动语音识别(ASR)技术是将口语转录为文本的基本技术,广泛应用于临床领域,包括简化医学转录和与电子健康记录(EHR)系统集成。然而,ASR-NLP领域仍存在挑战,尤其是当转录中含有噪音时,导致自然语言处理(NLP)模型的性能显著下降。本论 - 训练集以外的事实核查
我们提出了针对事实检查领域的常见问题的改进算法,包括对传统的retriever-reader模型的性能下降问题的改进,以及对reader组件的改进,通过对claims和evidence documents的无序性进行训练,从而提高对分布偏移 - 使用公共社交媒体数据评估大型语言模型在健康相关文本分类任务中的性能
我们评估了多种模型,包括传统机器学习模型、预训练语言模型和大型语言模型,比较它们在社交媒体健康相关自然语言处理任务中的性能。实验结果表明,使用大型语言模型进行数据增强可以获得比仅使用人工标注数据训练的模型更好的结果,并且传统的有监督学习模型 - 直接偏好优化中的长度与质量解耦
人类反馈强化学习对大型语言模型的成功起到至关重要的作用,然而,它存在一些问题,如偏好中的冗长性。本研究通过研究Direct Preference Optimization(DPO)中的长度问题,提出了一种以简单而原则性的正则化策略控制冗长性 - 混合偏好优化:通过数据选择和更好的参考模型进行强化学习
本文研究了大规模语言模型(LLMs)对齐的两种主要方法:强化学习与人类反馈(RLHF)以及基于对比学习的直接偏好优化(DPO)。通过分析RLHF和DPO的稳定性和鲁棒性,我们提出了一种新方法MPO(混合偏好优化),该方法减轻了两种方法的缺点 - 人工智能与语言空间文档化
通过展示AI模型如何通过创建语言地图来实现语言文档的空间文档化,该研究研究了AI模型特别是GPT4和GPT Data Analyst在语言文档化中的能力,通过整合纪录片语言学、语言地理学和AI,用最少的地理制图专业知识促进了语言的空间文档化 - UTSA-NLP团队参加SemEval 2024任务5:使用GPT4进行民事诉讼中的论证推理的提示集成
我们通过使用GPT4进行基于提示的解决方案来推理法律论点,同时评估了一系列提示策略的集成,包括思维链推理和上下文学习。在验证数据集上,我们的系统获得了.8095的宏F1值,在最终测试集中排名第5(21个团队中)。
- BAdam: 大型语言模型的内存高效全参数训练方法
该研究提出了BAdam,一种利用Adam作为内部求解器的块坐标优化框架的优化器。BAdam提供了一种内存高效的方法,用于对大型语言模型进行完全参数微调,通过链式规则属性减少了后向过程的运行时间。实验结果表明,BAdam在比较LoRA和LOM - GPT-4V挑战红队测试:是否能抵御Uni/Multi-Modal越狱攻击?
通过建立全面的1445个有害问题的评估数据集,本研究对11个不同的大型语言模型和多模式大型语言模型进行了广泛的试验,发现GPT-4和GPT-4V相对于开源的大型语言模型和多模式大型语言模型表现出更好的恶意入侵攻击耐受性,而Llama2和Qw - 只有LLMs可以进行推理吗?:小型语言模型在任务规划中的潜力
通过构建COmmand-STeps(COST)数据集,我们比较了GPT3.5和GPT4与finetuned GPT2在桌面和厨房环境中的任务规划表现,结果表明GPT2-medium在特定领域的任务规划上与GPT3.5相当。
- 网络欺骗的上下文图生成
以自动化方式生成虚假文件的关键要素是文件图表的内容生成问题,我们结合多任务变换器和专门化的多头自编码器来解决该问题,并提出了新的文档图表数据集和关键词语义匹配(KSM)度量,通过对多种大型语言模型进行广泛实验,展示了出色的性能。
- DesignQA: 用于评估大型语言模型对工程文档理解的多模态基准
DesignQA是一个用于评估多模式大型语言模型(MLLMs)在理解和应用技术文档中的工程需求方面的能力的新型基准。它结合了来自Formula SAE学生竞赛的多模态数据,包括文本设计要求、CAD图像和工程图纸。通过评估最先进的模型如GPT - 基于扩散排序的3D字幕观点选择
利用DiffuRank方法解决了在3D物体描述中产生错觉的问题,通过排名评估2D渲染视图与3D物体之间的对齐,提高了标题的准确性和细节,并在多个数据集上验证了其适用性。
- 强化学习在数据集重置策略优化中的应用
通过借用重置的概念,利用离线偏好数据集提供的信息状态,我们提出了一种具有可证明保证性的新型RLHF算法DR-PO,该算法将离线偏好数据集集成到在线策略训练过程中,并通过数据集重置来优化策略优化器,以获得比PPO和DPO更好的生成性能,实验证 - 探究GPT-4中温度在多样化问题生成中的作用
我们对GPT4的温度参数对GPT4生成的问题的多样性进行了初步研究,发现使用较高的温度值可以显著提高多样性,不同温度暴露出不同类型的问题集相似性,同时我们还证明生成多样的问题对于针对布鲁姆分类法较低层次的问题尤其具有挑战性。
- 两阶段姿态标签化:用户-标签算法与图神经网络
通过使用用户-标签二分图和用户-用户交互图,开发了一个两阶段立场标签方法,首先使用用户-标签二分图的启发式机制更新用户和标签节点的立场关联,然后将这些标签与用户-用户交互图结合,使用半监督学习训练图神经网络模型。实验证明,该方法在评估气候变 - 高效知识路径的推理:知识图引导领域问题回答的大型语言模型
通过在知识图谱(KG)上选择推理路径并结合思维链(CoT)和PageRank的子图检索方法,本文整合和优化了一个基于大型语言模型(LLM)的管道,可以减少对LLM的依赖。最终,RoK证明了使用较少的LLM调用可以达到相同的结果。