后者则是通过深度学习、小样本学习、自然语言处理、比如输入演讲稿或者语音,AI模型就能自动输出肢体动作、面部表情、声音。 David解释,他们公司具备动作、表情和声音模型。「声音是比较简单的,TTS(Text to Speech)技术很成熟了。肢体和口唇动作就是一些 STA 模型,我们采集了非常多的动捕数据,再基于此去生成训练模型。」 例如,若想在产品解说的视频中应用虚拟人,系统会基于NLP识别用户输入的脚本,其中的文字作为输入给到模型,可以触发一些关键的动作。
如果你对这些概念没有强烈体感,可以通过金钱投入量级更直观地感受。 「如果是 葡萄牙语帝汶电子邮件列表 动捕技术,成本是一秒钟块,这意味着时长一分钟的视频,大概需要六万块。而通过 AI 的方式去生成,分钟只需要块钱。」David 介绍,两种方式的成本相差千倍。 虚拟人艰难落地 广发证券指出,AI 技术对虚拟人产业的影响不仅仅是在成本侧,同时还带来了「拟人化」和「专业化」的可能。大语言模型,以及在基础模型上用特定的数据集进行微调,可以赋予虚拟人个性,也可以适配更多专业化的场景。

三、虚拟人直播带来的启示 更直观的功能型虚拟人应用,是在直播场景。 月份,抖音率先确定虚拟人的「合法」身份,允许使用AI辅助创作、不会限制虚拟人直播。近几个月,抖音新注册的公会账号,使用虚拟人直播不再按照录播对待。 快手虽然没有官方表态,但没少给「快手虚拟演播助手(KuaishouVirtual Studio,KVS)」做推广。KVS 是一款面向内容生产者的工具,支持使用虚拟人助播,也支持主播自己化身虚拟形象,进入虚拟场景。
|