柳岩大鹏到快手总部“扫楼”智能宠物“小快”

2025-09-02 18:58:26 [焦点] 来源：自助平台业务

郭一璞发自凹非寺

量子位报导|公众号QbitAI

明天中午，扫楼柳岩和大鹏到快手总部“扫楼”，柳岩“快手星闻”全程直播。大鹏到快抖音点赞真人评价手工一个吸引人的手总蓝色小精灵，全程活跃在直播页面上，部智它就是扫楼快手直播间的智能宠物“小快”。

直播过程中，柳岩柳岩和大鹏可以随时和小快聊天，大鹏到快小快能够对两位艺人的手总新影片侃侃而谈，获得了两人的部智喜爱。

在直播里加花样，扫楼早就不是柳岩哪些新鲜事了，各种基于计算机视觉技术的大鹏到快特效、AR疗效，手总早已被直播公司们玩出了花。部智

但快手这家脑洞大的公司，此次把智能宠物“小快”放进了直播间里，这样用户在开直播的同时，能够“使唤”小快完成发红包、放音乐、讲笑话、闲聊等各类功能，帮助主播和听众进行互动。

如同舞台上的抖音点赞真人评价手工艺人可以向导播台喊“music”一样，小快可以做主播的专属助理+扬声器师。

将有语音互动功能的智能宠物引入直播，这还是业内首次。

小快，非常的语音助理

小快本身是快手的吉祥物。在快手的直播页面中，小快默认出现在屏幕的一侧，平常是趴在屏幕边的状态，假如你喊“小快小快”召唤它，它还会跑下来，辨识你接出来的命令，这样，在直播的时侯，不用伸手点就可以完成各类功能。

小快可以帮你活跃直播现场的氛围，例如，你可以命令它会放音乐、讲笑话、讲故事等，甚至就会发快手平台的虚拟币“快币”红包。

也可以直接让小快找人连麦或PK，你也可以看见其他用户的小快。

而对听众而言，步入直播间的时侯，主播的小快会专门来欢迎你，送礼物以后也有答谢，更有互动的觉得。

据悉，快手还为小快开发了养成系统，第一次开直播的用户完成三个初始任务后，你的小快都会化身为常伴你左右的小宠物。

点击小快的图标，屏幕的下半区域都会弄成小快的专区，小快会用各类姿态向你道谢。

由于小快的形象用到了实时的3D渲染，因而看上去整体疗效十分真实，哪怕是复杂的动漫疗效，也可以顺利切换并呈现在你眼前。

甚至能够选择它的性别，男生版身上会多出一朵小花花。

以后，小快步入养成状态，完成每日任务能为小快攫取饭团，投喂以后小快可以升级，获得包含各类直播权益的升级礼包，并解锁更多技能和外观。

开发历程

其实你会问，开直播，为何要加入一个语音机器人？

这要从一个过气网红提起：夸夸群。

△快手第二届黑客马拉松，夸夸机器人项目在进行demo演示

去年3月，各类各样的“夸夸群”突然火了上去，你在群里分享自己的各类有趣行为，求夸，网友们就用各类坐姿把你夸上天。

这么，既然能让网友来夸你，能不能干脆找个AI来变着花样夸你呢？

于是，在愚人节这天，快手内部的“以AI之名”黑客马拉松活动中，就出现了一个“夸夸机器人”，产品团队趁势就把这个机器人延展成为了语音机器人。

因而现今，假如你对小快说“快夸我”，它也会疯狂的夸你优秀美丽直率诙谐……

不过，在直播中做语音助手，要比普通的手机语音助手和智能音响更难，没有智能耳机那样专业的硬件，喧闹的直播环境和有限的估算资源对手机的要求更高。

“小快”语音机器人用到了语音唤起、语音辨识、自然语言理解、对话管理、语音合成等技术，乍一看并不新奇，但当她们被用在手机直播这个场景下，则有更大的难度。

首先，主播须要喊“小快小快”进行语音唤起，开直播的时侯，手机一般离主播1米左右，比手持的距离要远，不满足传统的近场条件，且系统只能领到单通道数据。

但是，主播使用的手机机型多种多样，耳机拾音性能千差万别，有的主播都会使用具有声效处理功能的声卡，小快的语音唤起必须适配这种复杂条件。

在此同时，手机开着直播，本身就占用了不少估算资源，因而小快机器人不能占用太多的CPU资源，不然会影响直播的清晰度和流畅度。

在这种复杂条件下，快手技术团队设计了两阶段语音唤起系统，第一阶段采用精简模型，降低召回率，第二阶段采用复杂模型，提升确切率。另外，还须要在回声清除、模型抗噪方面做了大量算法优化。

唤起以后的语音辨识环节电脑上怎么直播快手，快手团队也遇见了难点：中英文混和辨识。这一点，在主播点唱的时侯是常用功能，例如快手用户喜欢的《野狼disco》，歌名既有英文又有中文，必须精确的辨识下来，既要解决这些中英切换时的协同发音问题，又要解决中英文训练样本的不均衡问题。

为此，快手技术团队采用了基于循环神经网路的序列建模方式，对中英双语辅音进行建模。辅音的发音特点相对稳定，理论上能减轻协同发音的问题，但韵母建模降低了发音单元的宽度，对模型能力要求更高。还引入了具备下文语境的门控循环单元，有效地解决了中英混和辨识的问题。

最后，主播下完命令以后小快要回话，就涉及到了语音合成的问题。

小快的声音很甜美，开朗而刺耳，但倘若直接使用业界常用的16kHz取样率，未能保留这一音质特性。为此电脑上怎么直播快手，快手技术团队提出了一种超宽频带神经网路声码器，对超宽频带也进行了建模。

超宽频带的频谱特点随机性强，降低了神经网路的学习难度。而且合成同样时间宽度的音频讯号，须要预测更多的取样点，这须要模型捕捉更长的序列依赖关系。

因此，快手的算法工程师对神经网路声码器进行了深度优化，在同样的合成速率条件下，合成音频具有更高的画质，小快音质明亮刺耳的特征得到了较高的还原。

据悉，不仅语言语音相关技术，小快作为一只3D宠物，也须要视觉上的优化。

由于直播本身就消耗了手机的大量资源，同时还须要渲染3D形象，留给渲染3D形象的资源就十分有限了。

这么，怎样借助有限资源，渲染出形象丰富立体、光影疗效真实、动作流畅的小快呢？

快手技术团队优化了美术资源，将包含所有的动作表情、模型和贴图在内的小快数据包压缩到了2M左右，并采用资源异步加载来提高效率。为了降低GPU消耗，降低了渲染API调用次数，优化渲制衣体逻辑，使用假阴影方案替换实时阴影估算。

另外，考虑到用户型号不同，许多用户可能用的是相对高端的手机，快手技术团队针对不同型号做了性能降级适配、异步加载，不断调优性能与疗效的平衡点，以达到最优疗效。

小快背后的团队

此前业界更熟悉快手的图象技术团队，但快手AI语音技术团队人才积累也不容轻视。

快手的语音技术早有布局，两年前就创立了语音交互、音频内容理解的技术团队，成员主要来自北大、中科院、哈师大、西交大的语音实验室，以及谷歌、三星、BAT这种大厂，目前主要技术方向包括语音辨识、语音合成、音乐理解与生成、音频风波检查等。

这样专业的人才团队做了许多业界首创的应用。

例如视频剪辑应用快影，利用快手自言的语音辨识技术，它可以向所有用户提供免费的视频手动加字幕功能。

还有快手音悦台，借助算法从主播的直播过程中手动剪辑、筛选精彩的跳舞片断，制做成为歌唱精选内容，这样，音乐主播就无需自动整理素材剪辑就有现成可发布的内容，而喜欢音乐的用户也有了观看精彩内容的入口。

直播领域一向竞争激烈，小快的出现，想必是对用户体验和平台黏性的进一步提高。

而在快手先行以后，语音机器人似乎会是直播界的一股新热潮。

传送门

最后，小快智能宠物用到的不少技术，快手早已公开发表，为你们传送论文如下：

TheSpeechtransformerforLarge-scaleMandarinChineseSpeechRecognition

自注意力机制的语音辨识

作者：Yuanyuanzhao,JieLi,XiaoruiWang,YanLi

GatedRecurrentUnitBasedAcousticModelingwithFutureContext

基于门控循环单元的声学建模

作者：JieLi,XiaoruiWang,YuanyuanZhao,YanLi

AutomaticSingingEvaluationwithoutReferenceMelodyUsingBi-denseNeuralNetwork

使用双密度神经网路的无参考曲调的手动歌唱评估

作者：NingZhang,fúfú,FengDeng,YanLi

—完—

量子位QbitAI·头条号签约

关注我们，第一时间得知前沿科技动态

(责任编辑：探索)

柳岩大鹏到快手总部“扫楼”智能宠物“小快”

友情链接