近日,#00 后用 AI 帮人谈恋爱月入百万#冲上热搜。毕业不久的Blake W. Anderson敏锐地捕捉到年轻人个体在亲密相关中的沟通阻碍,开发了辅佐沟通工具Plug AI。短短几个月,Plug AI的下载量便打破了 150 万次。
一个爆款的AI运行无需宽广的旷野,寄身于一点就能横蛮成长——只需那个“痛点”足够“痛”。
“国际如今曾经是百模争艳,要在这个内卷的环境中杀出血路,就须要在某一个方向上打出长处。”Soul AI产品担任人程兆华通知我们,“市场上从不缺60分的产品,难的是怎样打磨到70分以上”。
程兆华通知我们,他在手机里下载过几百款的竞品运行,只需发生了新款就会抓紧体验下,一边经常使用一边思索每个设计面前对应的用户需求是怎样的。
产品担任人,或许是破费最多的期间去思索AI如何赋能业务的人。程兆华推戴所谓“做垂域大模型,就是拿着锤子找钉子”的说法,他说,“要先想分明有什么样的钉子存在,我可以拿锤子去敲。”同时他也提到,假设市场规模没有到达几十亿,自己做“锤子”(大模型)就不划算了。
一个合格的AI名目牵头人,往往像桥梁一样衔接着用户与后端的算法。在和技术团队沟通时,产品担任人须要从更理性的角度去思索用户的须要,但也要施展技术的才干最大水平的处置疑问。
因此,作为一个“摇头方”,产品担任人的岗位对才干的考量通常是“既要又要”的。用程兆华的话来说,就是要和知晓业务的人比拼自己对业务的了解深度,同时又要与技术人员拼自己对大模型技术的了解广度。
相应的,他作为Soul AI的产品担任人背负了业务目的、AI才干树立、团队树立三个层面的OKR。
从程兆华身上我们看到了AI产品担任人们忙碌又空虚的缩影。
薛彦泽:往年主打长文本处置的Kimi从一众ChatBot中锋芒毕露, 这是不是说明单点AI运行更容易出圈?
国际如今已是百模争艳,普通厂商是无法能跟大厂拼资源的。要在这个内卷的环境中杀出血路,就须要在某一个方向上打出长处,处置某个特定疑问。
以Kimi为例,长文本的配置回应了大在校生个体的论文写作需求,这一点十分间接。除此之外,小说创作者经常使用Kimi能够处置长达十几万字的文本,那时GPT的下限大略是0 Tokens,这个点就会很好地处置长篇创作的痛点。
归根结底,只要基于特定场景启动深化开掘,满足用户实践的需求,单点AI运行才干在市场中锋芒毕露。市场上不缺60分的产品,要的是在某些畛域做出深度,打磨至70分以上。
薛彦泽: 评论区有观众表白了质疑,说GPT-4o进去通用模型曾经高度可用,如今搞这种单点AI运行还无心义吗?
举个罕用的例子,如今GPT也可以去做搜查,但海外就是有特意多的用户在用perplexity。为什么?这个产品的从搜查的效率、视觉出现、交互等方面做了优化,全体的用户体验比GPT的搜查更好用。
再如细分场景下,例如教育,GPT做得再弱小,也很难让小好友间接与其聊天、互动。
这些状况下单点AI运行就能施展其长处。
薛彦泽: 垂域AI产品,是不是拿着锤子找钉子?为大模型找场景,还是从已有产品登程寻求AI赋能,您是哪一派?
从基本上说,需求不是被发明进去的。更迟滞的逻辑是,我们须要想有什么样的钉子存在,我可以拿锤子去敲。
开发大模型的环节就像是造锤子,铸造的环节中模型会有才干上的失落。假设我们试图用一个通用的大模型去处置一切疑问,必需是不够适宜的。因此,拿着锤子找钉子的方法或许并不实用。所以说,我们的大模型探求了许多架构,比如MOE专家模型和向量检索技术,去更好地处置细分场景下的疑问。
薛彦泽: 那您感觉钉子体量多大才值得用锤子?
从全体的商业价值上思索的话,假设市场规模没有到达几十亿,那么经常使用大模型的老本就太高了。训练一个大模型的老本至少是上百万,而推理和优化的老本或许高达几千万甚至上亿。因此,假设市场规模不够大,我们很难收回老本,也就不值得去经常使用这样的"锤子"。
薛彦泽:打造一个垂域的大模型,必需会遇到很多的应战,我们比拟猎奇模型的好坏规范是如何定义的?
在做模型的时刻,我们通常会说让算法去定义模型的好坏,这包括模型的逻辑性、准确性、分歧性、安保性和鲁棒性等罕用目的。
但是关于产品来说,我们更关注产品适宜哪类用户,我的产品怎样更容易出圈。以苟蛋为例,我们会从用户的角度,评判模型生成内容的兴趣性、丰盛性,用更多这样的目的来形容用户的客观体验。
在整个研发流程中,我们产品会成为一个摇头方,会从更理性的角度去思索用户的须要,经过迭代模型到达我们谋求的成果。这是我们的基本思绪。
薛彦泽: 我比拟猎奇,你作为名目牵头人在跟算法或许技术同窗探讨这些case时,普通争议点会在哪儿,怎样处置?
算法的同窗或许会比拟头疼,他们不间接面向用户,而且或许对该垂域了解不深。这就须要我们产品去做摇头,运营的同窗提供用户反应,指出模型不满足我们预期的点,针对特定的case再去拆解目的、去做优化。
随着团队的磨合,算法团队也能依据用户反应,被动思索模型的迭代方向和方法的有效性。
薛彦泽: 可以分享一下详细的案例吗?
我们过后在去做对话的时刻,刚开局经常遇到AI重复回答疑问的状况,用户曾经提出新的疑问了,AI还给出上个疑问的答案,这重大影响了用户体验。
面对这种状况,算法团队从技术角度登程,提出了参与重复性处罚的战略,以降落AI的重复率。同时,我们也review了数据集,假设发现近期存在少量重复性数据,就须要对数据启动荡涤,甚至说引入更多的数据去笼罩bad case。
薛彦泽: 程教员作为AI产品的担任人,您的OKR是什么?
我的OKR关键围绕三个方面:
首先,最外围的一个局部是业务目的的优化,我们须要确保在AI研发上的投入能够带来实践报答。我们会对齐业务目的,比如新名目的拉流、时长和产品的DAU,我须要担任的是确保AI才干对这些目的有踊跃奉献。
第二点是AI才干的树立,须要确保我们的AI才干坚持上游,比如Sora推出后我们就须要思索能否跟进视频才干。这局部会翻新性目的,须要与算法团队协作,推进新才干的落地。
最后一局部与企业外部的团队树立无关,我须要思索其余部门如何用好AI提高效率,并且构建一个高效的AI团队。
薛彦泽:关于AI产品担任人,尤其我们这样To C的社交运行,用户留存的目的到达多少算比拟OK?
可以大略说一下,传统的聊天场景次日留存普通很高,能到达50%以上。虚构人对话普通会低一些,因此次留到达50%是一个比拟高的要求。尤其这个畛域曾经卷了一年,供用户选用的产品不少,假设一个产品想要锋芒毕露,日留存至少应该在40%到50%之间。
此外,我们还须要关注长流,七日留存率至少须要到达15%,甚至以上。
薛彦泽: 想聊聊大模型的局限性,例如幻觉、提前等等,怎样让用户接受一个无法尽如人意的产品?
一切的物品都是要找到一个“度”。在技术打算难以处置疑问的前提下,我们会从产品层面启动包装。
例如,假设一个虚构客服笼统可恶、声响温顺,即使犯了些小错,用户也更情愿接受。关于提前疑问,我们可以经过参与"思索中"的形态来模拟真人的思索环节,缩小用户的阻尼感。
在老本方面,我们须要思索能否可以应用已有的模型,缩小训练老本。同时,我们可以经过缓存机制处置高频疑问。还可以思索将大模型蒸馏成更小的模型,以缩小部署和运转老本。
薛彦泽: 大模型蒸馏成小模型,怎样调度,如何处置算力调配?
应用现有的技术架构来处置,我们我们会有一套判别逻辑来选择哪些疑问更适宜由小模型来处置。
薛彦泽: 评论区有观众提问,大模型的鲁棒性该如何评价?
程兆华:鲁棒性就是模型的一致性。例如,前面的消息说A是B的姐姐,那么整个对话都应该输入分歧的答案。
优化鲁棒性的最佳方法之一是经过数据构建,经过构建攻打性疑问,在case中变着花招去问,而后喂给这个模型,它的鲁棒性就会提高。
此外,在强化学习阶段,特意是在常识类场景中,驳回如PPO(Proximal Policy Optimization)等强化学习算法,可以有效地提高模型的鲁棒性。大略是这两种方法。
薛彦泽: 下个疑问,如何造就自己的大模型的话语权?
关于一个去做大模型的产品来说,造就大模型的话语权,我以为关键在于两个方面:
一是优化自己对大模型技术的了解广度,不只要跟上新技术的开展,还要了解这些技术如何运行在不同场景中。
二是优化自己对业务的了解深度,特意是业务如何与大模型技术联合。假设你不玩社交软件,不相熟你的产品配置,就很难了解大模型是用来处置什么疑问的。比如,Soul的社交内容更偏男女生互动,这就与抖音等平台的文娱、萌宠等外容有差异,了解这些才干更好地将技术运行于业务场景。
薛彦泽: 只管每团体都会思索,但是大少数人很难想得很深,你有没有什么阅历?
我感觉可以分为三局部来谈:思索深化并非凭空发生,而是须要继续的输入和通常。我的阅历可以概括为三点:
首先是宽泛输入,思索并非是凭空发生的。我的手机中装有数百个竞品App,我会观察大家都是怎样设计配置的,少量的竞品运行,体会产品间的差异点,能找到更多或许性。
其次是坚持思索的习气,日经常常使用产品、玩游戏的时刻,我都会思索其设计和交互能否更好,了解设计面前的理念和用户需求。
最后须要亲自体验,比如如今担任AI虚构陪伴产品,我会破费少量期间与虚构角色互动,“卧底”到用户社群,甚至竞品的社群,从中失掉用户反应和希冀。
其实深度的优化是一个刻意练习的结果。用商业化来举例,可以看到不同的商业形式,去探求它们是如何构建和运作的。缓缓就会在生存的方方面面,养成习气思索现象面前的行为动机。
想了解更多AIGC的内容,请访问:
AI.x社区
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://www.clwxseo.com/wangluoyouhua/4699.html