- 大规模 RNA 数据的特征选择多域多任务方法
提出了一种用于特征选择的多领域多任务算法,通过研究小鼠对沙门氏菌感染的宿主免疫反应产生的两个数据集,收集了来自多种协作交叉小鼠品系的数据,样本来自脾脏和肝脏,进行了多个机器学习实验并分别提取了在不同案例中具有区分度的少量跨领域特征子集,证明 - 领域适应的代理方法
我们研究了领域适应问题,该问题是由于未观察到的潜在变量分布改变所导致的分布偏移。我们的适应方法采用了近端因果学习,一种用于估计因果效应的技术,适用于存在未观察到的混淆变量代理的情况。我们证明了代理变量允许在不明确恢复或建模潜在变量的情况下适 - 复合主动学习:具备理论保证的多域主动学习
该研究提出了一种名为复合主动学习(CAL)的通用方法,用于多领域主动学习(AL)中,以解决忽略不同领域之间相似性以及处理不同领域之间数据分布变化的问题,并在理论和实证结果上显示出优于现有方法的性能。
- 面部多域关键点检测的扩散模型合成数据方法
利用两阶段训练方法和合成配对数据集,在多个领域中实现了高质量的多领域人脸特征点检测,并优于现有方法。
- 图像分类的多领域主动学习基准测试
多域主动学习基准展示了在大规模真实世界数据集上,传统的单域主动学习策略在多域场景中往往比随机选择效果更差。我们还引入了一个新颖的基于地理域的大规模图像数据集 CLIP-GeoYFCC,与现有基于风格的域数据集有所不同。对我们的基准的分析表明 - 始终晴朗的日子:意识到退化类型和严重程度的一体化逆境天气消除
提出了一种名为 UtilityIR 的基于退化类型和严重程度感知的模型,用于盲目进行全方位恶劣天气图像恢复,该方法在不同的天气恢复任务上,在客观和主观上都能明显超过其他方法,并拥有更少的模型参数。
- 大规模多任务和多域学习中的标量化
通过多领域和多任务学习的大规模统一分析,深入了解标量化在各种任务和领域组合以及模型规模中的动态,然后借助基于群体的训练来有效地搜索处理大量任务或领域时的最优标量化权重。
- 利用多个 CLS 令牌集成编码多领域科学论文
使用多个 CLS 标记对科学文档进行多领域特化,提出 Multi2SPE 方法,并在多领域下的科学论文向量编码中展示 Multi2SPE 在减少错误率上的效果。
- FedLogic:可解释的大规模语言模型的联邦多领域思维链路提示选择
使用 “连续思维” 推理从大型语言模型中提取快速而精确的响应吸引了研究兴趣,其中关键挑战在于设计或选择最佳提示,并且该论文介绍了一种名为 FedLogic 的可解释的联邦多领域连续思维提示选择方法,以提高解释性和探索广义性与个性化之间的平衡 - ACLMulti3WOZ:用于培训和评估文化适应任务导向对话系统的多语言、多领域、多并行数据集
创造高质量的任务导向对话(ToD)的注释数据是困难的,特别是在为多种语言创造公平、文化适应性强、大规模的 ToD 数据集时面临诸多挑战。因此,现有的数据集仍然非常有限,并且存在诸多限制,如基于翻译的非母语对话、小规模或缺乏文化适应性等。在这 - 3D-Speaker:用于语音表示分离的大规模多设备、多距离和多方言语料库
本研究介绍了一个大规模语音语料库 3D-Speaker,用于促进语音表征分离的研究。3D-Speaker 含有超过 10,000 个说话者的语音数据,包括不同距离、不同方言等多维度组合,适用于评估大型普适性语音模型的性能并尝试领域外学习和自 - 面向多领域图像转换的增量能量协作学习
本文研究了一种新型一种基于能量的协作学习框架,用于多领域图像到图像的转换。该框架由描述符、翻译器、样式编码器和样式生成器四个组成部分组成,能够实现一个到多个的转换。该框架通过多领域 MCMC 教学共同训练多领域的描述符和多样化的图像生成器。
- ICMLL3Cube-MahaSent-MD: 多域马拉地语情感分析数据集和 Transformer 模型
介绍了 L3Cube-MahaSent-MD 数据集,它是第一个综合的多域情感分析数据集,可用于印度情感领域,包括 4 种不同来源的标注语料(60,000 个样本),涵盖了 3 种不同情感(积极、消极和中性),使用 MahaBERT 模型获 - 基于加权胶囊网络的阿拉伯语和波斯语多领域情感分析方法
本文提出了一种使用加权胶囊网络方法的新的波斯语 / 阿拉伯语多领域情感分析方法,该方法使用域归属度和 TF-IDF 等方式训练每个领域的分类器,并使用加权胶囊网络集成各个领域的分类结果,与现有方法相比取得了可接受的准确性。
- KDDSentiGOLD: 一个大型孟加拉黄金标准多域情感分析数据集及其评估
SentiGOLD 是一个 70,000 个样本的孟加拉跨领域情感分析数据集,包含 30 个领域和 5 个情感类别,是一个遵循国家语言委员会语言约定的标准语料库。
- 多域联邦学习是否不可或缺归一化?
Federated learning(FL)通过在分散的客户端上进行协同原位训练,增强数据隐私性。然而,FL 面临由于非独立和同分布的(non-i.i.d)数据而引起的挑战,导致潜在的性能下降和收敛阻碍。本研究解决了一个被称为多域 FL 的 - 领域私有转换器
本篇论文提出了一种新颖的方法 —— 领域隐私,用以衡量条件语言模型在不同域之间泄露的可能性,并根据基于标记级别的域分类开发策略函数和一种高效的微调方法以提高已训练模型的域隐私;实验表明,我们的方法具有与不同 ially 私有语言模型的方法相 - 利用基于主动学习的改进策略优化多域性能
本篇论文介绍了一种基于主动学习的多领域性能提升框架,首先利用初始标记数据对基础模型进行训练,然后迭代地选择最具信息量的样本进行标记,以改进模型性能。该方法在图像分类、情感分析和物体识别等多领域数据集上进行了评估,并表现出超越基准方法,并在几 - 医学图像分割所需的对抗强度攻击的域泛化
本文提出一种名为 Adversarial Intensity Attack (AdverIN) 的与领域无关的方法,通过对抗性训练生成具有无限风格的训练数据,以增加数据多样性并提高分割模型的泛化能力,尤其适用于医学图像领域的多域分割数据集。
- ICLRSTREET: 一个多任务结构化推理和解释基准
本文介绍 STREET,一个统一的多任务、多领域自然语言推理和解释基准。该基准要求模型不仅能回答问题,还能产生步骤化的结构化解释,并描述问题中的前提是如何用于产生能证明某个答案正确性的中间结论。作者使用 GPT-3 和 T5 等常见语言模型