检索、注释、评估、重复：利用多模态大型语言模型进行大规模产品检索评估

Sep, 2024

检索、注释、评估、重复：利用多模态大型语言模型进行大规模产品检索评估

Retrieve, Annotate, Evaluate, Repeat: Leveraging Multimodal LLMs for Large-Scale Product Retrieval Evaluation

Kasra Hosseini, Thomas Kober, Josip Krapac, Roland Vollgraf, Weiwei Cheng...

TL;DR本研究解决了大规模产品检索系统评估中人类标注者不足的问题。提出了一种框架，利用多模态大型语言模型生成个性化的注释指南并进行注释，经过验证显示其质量与人工标注相当，显著降低了时间和成本，并快速发现问题，成为生产级质量控制的有效解决方案。

Abstract

Evaluating production-level Retrieval Systems at scale is a crucial yet challenging task due to the limited availability of a large pool of well-trained human annotators. Large Language Models (LLMs) have the pot

发现论文，激发创造

基于生成式人工智能的自动标注需要验证

通过验证人类生成的标签，我们提出了一种工作流程，以有效利用LLM的注释潜力，然后使用GPT-4复制27个注释任务，发现文本注释的LLM性能很有前途，但高度依赖数据集和注释任务类型，从而强调了必须逐任务验证的必要性。我们提供易于使用的软件，用于实现我们的工作流程，以便自动化注释的LLM部署。

May, 2023

利用大型语言模型增强电子商务中的产品描述

该研究通过使用LLAMA 2.0 7B语言模型实现自动化产品描述生成，并在实践中证明其在提高电子商务平台搜索功能和销售额方面具有显著商业影响。

Oct, 2023

LLM-TAKE：利用大型语言模型的主题感知关键词提取

利用大型语言模型（LLMs）生成基于上下文的关键词，提出了主题感知关键词提取（LLM TAKE）的框架，通过避免输出非信息或敏感关键词，并减少在LLMs中普遍存在的幻觉，为电子商务领域的产品生成提取和抽象主题的两个变体，通过对三个真实数据集的广泛实验证明，该模型能够通过比较基准模型提升准确性和多样性。

Dec, 2023

LLM-Ensemble: 电商产品属性值提取的优化大型语言模型集成方法

我们提出了一种名为LLM-ensemble的新算法，用于综合不同LLMs的输出，以提取属性值，并在Walmart的内部数据上进行了广泛的实验，结果表明该方法优于所有其他单个LLM。

Feb, 2024

大规模语言模型在多模态搜索中的应用

多模态搜索系统结合图像和文本，通过增强匹配能力、推理能力和上下文感知的查询解析和重写，提供用户与其搜索意图自然有效的交互。在Fashion200K数据集上，我们引入了一种新颖的多模态搜索模型，并提出了结合大型语言模型的搜索界面，以实现与用户的对话式互动和上下文考虑的搜索体验的升级，为购物助手提供了类人交互和全面的搜索体验。

Apr, 2024

产品搜索的相关判断大型语言模型

基于Large Language Models (LLMs)的技术，通过自动化查询-商品对的相关性判断，改善产品搜索的相关性预测精度，对商品搜索的相关判断自动化领域具有重要影响。

Jun, 2024

搜索引擎服务与大规模语言模型相遇：愿景与挑战

将大型语言模型与搜索引擎服务相结合，为服务计算领域带来重大变革，本文深入研究了如何整合大型语言模型和搜索引擎以互惠互利。重点关注两个主要方面：使用搜索引擎改进大型语言模型(Search4LLM)和使用大型语言模型增强搜索引擎功能(LLM4Search)。

Jun, 2024

大型语言模型作为下一代密集检索的基础：全面的实证评估

本研究解决了传统检索模型在领域准确性和推广能力方面的不足，通过对多种检索任务的全面实证研究，评估了大型语言模型（LLMs）的性能。研究发现，较大的模型和广泛的预训练能够持续提升领域准确性和数据有效性，并在零样本推广和多任务学习等方面展现出显著潜力，这为未来相关领域的研究与开发提供了重要见解。

Aug, 2024

调查大型语言模型在电子商务中的应用

本研究探讨了大型语言模型（LLMs）在电子商务领域的应用效果，填补了对不同使用案例性能比较的研究空白。通过对比LLMs与传统预训练模型在分类、生成、摘要和命名实体识别等任务中的表现，研究发现，在特定任务中，少量抽样推理的LLMs往往不如细调后的较小预训练模型有效，强调了任务特定模型优化的重要性。

Aug, 2024

大型语言模型作为下一代密集检索的基础：全面的实证评估

本研究针对传统检索模型在特定领域的准确性和泛化能力不足的问题，采用大型语言模型（LLMs）进行评估，探讨其在密集检索中的独特优势。研究结果表明，较大的模型和更长的预训练时间能够显著提高领域内准确性和数据效率，同时在零样本泛化、长检索等多任务学习中具有重要潜力，这为未来的研究和开发提供了有价值的见解。

Aug, 2024