通过生物粒度文档表示法、稀疏嵌入与压缩感知量化等技术,采用基于深度学习的文档表示和 ANN 搜索技术,设计 Progressive Optimization 框架,实现了大规模的 EB 检索,并在百万级和百亿级的数据集上分别实现了高达 +4.3% 到 +17.5% 的提高检出率,同时在一个搜索平台上实现了较大的回报、回忆和 CTR 这些度量方面的提升。
Jan, 2022
提出了一种基于多粒度观察(OMG)的新框架,用于通过自然语言描述在监控视频中查询受追踪车辆,并以多粒度对视觉表示、文本表示和目标函数进行优化,实验结果表明,该方法比以往所有方法的表现都好,获得了第 9 名的好成绩。
Apr, 2022
通过将来自不同参考数据源的信息整合在一起,我们提出了一种动态确定知识数据库最佳粒度的方法,并且在预测上游任务性能时表现良好。
Jun, 2024
我们针对高度专业化的科学子领域中,传统方法不能很好地进行文本分类和矢量表示的问题,提出了使用共引作为相似度度量的专业数据集,并结合领域特定微调和专家混合的通用适应性方法,实现了在多个任务上具有高效性的通用 Transformer 网络,显著推进了科学文本分类指标的发展,并有望增强矢量数据库的搜索和编译。
Jan, 2024
标准问答评估协议未考虑到答案的多粒度性质,与单一粒度的参考答案进行比较。本研究提出 GRANOLA QA 评估设置,用于多粒度答案的准确性和信息量评估。通过对现有数据集进行改进,建立了 GRANOLA-EQ 多粒度实体问题数据集,并在 GRANOLA-EQ 上评估了一系列解码方法,包括 DRAG 算法。实验证明,大型语言模型在标准解码下往往生成具体但错误答案,而 DRAG 算法在多粒度答案上平均提高了近 20 个百分点的准确性,对于罕见实体进一步提高。总体而言,这表明标准评估和解码方法可能严重低估了语言模型所包含的知识。
本论文旨在为大型 vocab 稀疏特征的推荐系统学习高度紧凑的嵌入。我们提出了不同可微的产品量化(DPQ)方法,并提出了一种多粒度量化嵌入(MGQE)技术,以更好地处理推荐系统中常见的幂律数据分布。实验结果表明,我们只需要使用原始模型大小的大约 20%,即可实现与原始模型大小相当或更好的性能。
Feb, 2020
本文提出了一种基于排名问题的新框架 WordRank,即通过坚韧的排名损失函数有效地估计单词表示,并在单词类比和相似性基准测试中与现有技术进行了比较,结果表明我们的算法在大型语料库上与现有技术竞争力强,而在训练集有限(即稀疏和嘈杂)的情况下,其性能显著优于现有技术。
Jun, 2015
本文提出一种基于向量特征表示的问题回答方法,使用弱监督资源训练,并结合了优化过的随机梯度下降和微调步骤,实现了在基于弱标注数据下,对知识库回答表现的显著提升。
Apr, 2014
本文介绍了一种新的句子级别的答案选择方法,采用预训练语言模型计算输入文本的向量表示,并应用大规模语料库的迁移学习。通过引入潜在聚类方法和从 listwise 到 pointwise 的目标函数,提高了比较 - 聚合模型的性能。实验结果表明,该方法在 WikiQA 和 TREC-QA 数据集上表现优于现有方法,达到了最新的表现水平。
May, 2019
提出了基于多标签分类的新的词嵌入评测方法,其任务为细粒度名称分类,能够直接针对嵌入进行评测,相较于现有的评测数据集,所使用的知识库更大、包含细粒度类别并允许直接评测而无需考虑句子上下文等混淆因素。
Jul, 2018