精选嫩鲍

奇米影视盒首页 失实率从10%降至0.01%,领英全面分享LLM应用落地涵养

发布日期:2024-08-08 03:30    点击次数:57

奇米影视盒首页 失实率从10%降至0.01%,领英全面分享LLM应用落地涵养

选自LinkedIn奇米影视盒首页

作家:Juan Pablo Bottaro、Karthik Ramgopal

机器之心编译

机器之心剪辑部

跟着大型言语模子(LLM)时期日渐训练,九行八业加速了 LLM 应用落地的措施。为了创新 LLM 的施行应用遵循,业界作念出了诸多勤劳。

近期,领英(LinkedIn)团队分享了他们在构建生成式 AI 家具的过程中追念的珍摄涵养。领英暗示基于生成式东谈主工智能构建家具并非一帆风顺,他们在许多所在都遭受了艰苦。

以下是领英博客原文。

昔时六个月,咱们 LinkedIn 团队一直在勤劳征战一种新的东谈主工智能体验,试图再行构想咱们的会员如何进行求职和浏览专科内容。

生成式东谈主工智能的爆发式增长让咱们停驻来念念考,一年前不可能完了的事情当今有了哪些可能。咱们尝试了许多想法,但都莫得告捷,最终发现家具需要如下枢纽点:

更快地获取信息,举例从帖子中获取重点或了解公司最新动态。

将信息点勾搭起来,举例评估您是否得当某个职位。

获取提议,举例改善您的个东谈主费力或准备口试。

咱们通过一个现实场景来展示新征战的系统是如何职责的。遐想一下,您正在改革浏览 LinkedIn 信息流,恐怕发现了一篇对于遐想中的可拜谒性的风趣帖子。除了这篇著作以外,您还会刷到一些初学问题,以便更久了地磋议该主题,您很敬爱,举例点击「科技公司中可拜谒性鼓励生意价值的例子有哪些?」

系统后台会发生如下操作:

聘用合适的智能体:系统会接受您的问题并决定哪个 AI 智能体最得当处理它。在这种情况下,它会识别您对科技公司里面可拜谒性的风趣,并将您的查询路由到特意履行通用知识搜索的 AI 智能体。

汇集信息:AI 智能体调用里面 API 和 Bing 的组合,搜索具体示例和案例磋议,凸起遐想的可拜谒性如何为时期限制的生意价值作念出孝敬。

制定复兴:有了必要的信息,智能体当今不错撰写复兴。它将数据过滤并合成为连贯、信息丰富的谜底,为您提供显然的示例,证明可拜谒性缠绵如何为科技公司带来生意价值。为了使体验更具交互性,系统会调用里面 API 来使用著作通达或帖子中提到的东谈主员简介等附件。

你可能会发问「我如何将我的业绩糊口转向这个限制」,那么系统会重叠上述过程,但当今会将你转给业绩和职责(career and job)AI 智能体。只需点击几下,您就不错久了磋议任何主题,取得可行的主张或找到下一个职责契机。

大部分新功能是借助 LLM 时期才成为可能。

总体遐想

系统 pipeline 辞退检索增强生成(RAG),这是生成式东谈主工智能系统的常见遐想口头。令东谈主诧异的是,建立 pipeline 并莫得咱们预期的那么令东谈主头疼。在短短几天内,咱们就建立并运行了基本框架:

路由:决定查询是否在界限内,以及将其转发给哪个 AI 智能体。

检索:面向 recall 的表率,AI 智能体决定调用哪些业绩以及如何调用(举例 LinkedIn 东谈主物搜索、Bing API 等)。

生成:面向精度的表率,筛选检索到的噪声数据,对其进行过滤并生成最终反馈。

图 1:处理用户查询的简化 pipeline。KSA 代表「知识分享智能体」,是数十种不错处理用户查询的智能体之一。

枢纽遐想包括:

固定三步 pipeline;

用于路由 / 检索的袖珍模子,用于生成的较大模子;

基于镶嵌的检索 (EBR),由内存数据库提供赞助,将反馈示例告成注入到指示(prompt)中;

每步特定的评估 pipeline,终点是对于路由 / 检索。

征战速率

咱们决定将征战任务拆分为由不同东谈主员征战孤苦智能体:学问、职责评估、职位重点等。

通过并行化征战任务,咱们晋升了征战速率,但这所以「碎屑」为代价的。当与通过不同的模子、指示或器具进行不断的助手(assistant)进行后续交互时,保握长入的用户体验变得具有挑战性。

为了科罚这个问题,咱们收受了一个简单的组织结构:

一个袖珍「水平(horizontal)」工程 pod,处理通用组件并专注于举座体验,其中包括:

托管家具的业绩

评估 / 测试器具

统统垂直限制使用的全局指示模板(举例智能体的全局身份(identity)、对话历史、逃狱防卫等)

为 iOS/Android/Web 客户端分享 UX 组件

业绩器驱动的 UI 框架,用于发布新的 UI 改革,而无需改革或发布客户端代码。

枢纽遐想包括:

分而治之,但放胆智能体数目;

具有多轮对话的接洽式评估 pipeline;

分享指示模板(举例「身份(identity)」界说)、UX 模板、器具和检测

评估

事实评释,评估反馈的质地比预期的愈加艰苦。这些挑战可大致分为三个限制:制定指南(guideline)、扩张审视和自动评估。

制定 guideline 是第一个拦阻。以职责评估为例:点击「评估我是否得当这份职责」并得到「你相当得当」并莫得多大用处。咱们但愿反馈既确切又亏本同理心。一些用户可能正在探究转行到他们现时不太得当的限制,并需要匡助了解差距和后续表率。确保这些细节一致对审视器相当枢纽。

扩张审视是第二步。咱们需要一致和各种化的审视器。咱们里面的言语学家团队构建了器具和进程,以评估多达 500 个平方对话并获取关系主见:举座质地得分、幻觉率、AI 违法、连贯性、作风等。

自动评估职责现时仍在进行中。如若莫得自动评估,工程师只可目测终结并在一组有限的示例上进行测试,况兼要延长 1 天以上才调了解主见。咱们正在构建基于模子的评估器来评估上述主见,并勤劳在幻觉检测方面取得一些告捷,端到端自动评估 pipeline 将完了更快的迭代。

图 2:评估表率。

调用里面 API

LinkedIn 领有大都关系东谈主员、公司、妙技、课程等的独到数据,这些数据对于构建提供各异化价值的家具至关垂危。可是,LLM 尚未接受过这些信息的西席,因此无法使用它们进行推理和生成反馈。科罚此问题的表率口头是缔造检索增强生成 (RAG) pipeline,通过该 pipeline 调用里面 API,并将其反馈注入到后续的 LLM 指示中,以提供特等的波折文来赞助反馈。

许多此类数据通过各种微业绩中的 RPC API 在里面公开。天然这对于东谈主类以编程形势调用相当便捷,但对 LLM 来说并不友好。咱们通过围绕这些 API 包装「妙技」来科罚这个问题。每个妙技都有以下组件:

对于 API 的功能以及何时使用的东谈主类友好描述

调用 RPC API 的建立(端点、输入口头、输出口头等)

LLM 友好的输入和输出口头

原始类型(字符串 / 布尔 / 数字)值

JSON 口头的输入和输出口头描述

LLM 友好口头和施行 RPC 口头之间映射的业务逻辑

这些妙技旨在让 LLM 大概履行与家具关系的各种操作,举例检验个东谈主费力、搜索著作 / 东谈主员 / 职位 / 公司,以致查询里面分析系统。相通的时期也用于调用非 LinkedIn API,举例 Bing 搜索。

图 3:使用妙技调用里面 API。

咱们编写指示,条目 LLM 决定使用什么妙技来科罚特定的职责(通过决策聘用妙技),然后输出参数来调用妙技(函数调用)。由于调用的参数必须与输入口头匹配,因此咱们条目 LLM 以结构化形势输出它们。大多数 LLM 都接受过用于结构化输出的 YAML 和 JSON 西席。咱们聘用 YAML 是因为它不太冗长,因此比 JSON 败坏更少的 token。

咱们遭受的挑战之一是,天然大致 90% 的情况下,LLM 反馈包含正确步地的参数,但大致 10% 的情况下,LLM 会出错,况兼时时输出步地无效的数据,或者更厄运的是以致不是灵验的 YAML。

这些失实对东谈主类来说是微不及谈的,但却会导致领路它们的代码崩溃。10% 是一个填塞高的数字,咱们不成安静残酷,因此咱们入辖下手科罚这个问题。

科罚此问题的表率方法是检测它,然后再行指示 LLM 条目其改造失实并提供一些特等的指令。天然这种方法灵验,但它增多了极端大的延长,况兼由于特等的 LLM 调用而败坏了珍摄的 GPU 容量。为了回避这些放胆,咱们最终编写了一个里面防卫性 YAML 领路器。

通过对各种灵验负载的分析,咱们笃定了 LLM 所犯的常见失实,并编写了代码以在领路之前符合地检测和修补(patch)这些失实。咱们还修改了指示,针对其中一些常见失实注入指示,以晋升修补的准确率。咱们最终大概将这些失实的发生率减少到约 0.01%。

咱们现时正在构建一个长入的妙技注册表,用于在咱们的生成式东谈主工智能家具中,动态发现和调用打包为 LLM 友好妙技的 API / 智能体。

容量和延长

容量和延长永久是紧要探究身分,这里说起一些考量维度:

校园春色小说色情

质地与延长:念念想链 (CoT) 等时期对于晋升质地和减少幻觉相当灵验,但需要从未见过的 token,因此增多了延长。

蒙眬量与延长:运行大型生成模子时,平凡会出现 TimeToFirstToken (TTFT) 和 TimeBetweenTokens (TBT) 跟着应用率的增多而增多的情况。

老本:GPU 集群不易取得且老本昂贵。一开动咱们以致必须设定测试家具的时候表,因为会败坏太多 token。

端到端流式处理(streaming):完满的谜底可能需要几分钟才调完成,因此咱们流式处理统统苦求,以减少感知延长。更垂危的是,咱们施行上在 pipeline 中端到端地进行流式处理。举例,决定调用哪些 API 的 LLM 反馈是从容领路的,一朝参数准备好,就会触发 API 调用,而无需恭候完满的 LLM 反馈。最终的抽象反馈也会使用及时音尘传递基础设施一王人传输到客户端,并凭据「负背负的 AI」等进行增量处理。

异步非攻击 pipeline:由于 LLM 调用可能需要很万古候才调整理,因此咱们通过构建实足异步非攻击 pipeline 来优化业绩蒙眬量,该 pipeline 不会因 I/O 线程攻击而浪费资源。

感风趣的读者不错阅读博客原文,了解更多磋议内容。

原文通达:https://www.linkedin.com/blog/engineering/generative-ai/musings-on-building-a-generative-ai-product



热点资讯
相关资讯


Powered by 精选嫩鲍 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024 版权所有