AIGC赋能升级虚拟人服务:清博CTO朱旭琪沙龙分享
4月30日,元宇宙实验室主办的“AI新动态和元宇宙新发展”在线沙龙成功举办。清博智能CTO朱旭琪做了《AIGC赋能升级虚拟人服务》的主旨报告,为大家分享了AIGC在虚拟人领域的升级应用。
在2022年之前传统的虚拟人服务应用中,常见三类虚拟人技术:驱动式虚拟人(比如光学驱动、视觉驱动、物理驱动等),TTS-STA类虚拟人(比如口播类AI驱动、预设动作AI驱动等),FAQ与有限知识虚拟人(有限智能、有限业务)。在大模型出来之前,虚拟人可做很多简单的对话,可以基于有限业务来做特点领域实时交互的服务。
(相关资料图)
随着Diffusion、LLM技术兴起,ChatGPT、Midjourney、Stable Diffusion以及这两天火爆的Bark等不少AIGC工具进入我们的工作和生活,自然语言问答、AI生成图片、语言、视频等工具越来越成熟,AIGC领域成千上万的应用在不断优化迭代升级。有业内人士开玩笑说之前开发语言是用Python、Java等,现在可能就只剩下英语、中文这些大语种的自然语言了。这一波AIGC能够快速出圈,一定程度上是由于IP创作的成本急速下降,效率大大提高。比如这个系列的图片,是小学生利用AIGC工具创作的:
小朋友对这种生成的作品很喜欢很满意。这么好的工具肯定不是只有小学生在用,然后它也必然会影响很多专业应用开发者的生成流程。AIGC也对清博智能团队的业务流程进行了重构。比如虚拟人制作流程,从原画到三维建模,制作效率大大提高,和客户的沟通成本降低了,利用AIGC生成初样,和客户快速沟通,然后出Demo,优化作品。这样极大降低了同客户的沟通成本,生产流程方面也加速了很多。
这是清博智能新研发的一个换脸软件。贴合度挺好。AIGC加速了虚拟人的创作效率。AI可以优化虚拟人的形象,让虚拟人更逼真。下面这两张图片,是AI优化前后的对比图:
还有一个领域,AIGC让虚拟人问答智能化,利用一些大模型,提供特点领域的知识库,微调定制成某个领域的专家AI数字人、某个文化名人的AI数字人。比如清博智能研发中的某个项目,要为庄子定制一个专门的形象,并且实现庄子AI虚拟人的自由问答,庄子虚拟人回答的都是庄子风格的话语。这类虚拟人具备很多价值,而且还可以支持本地部署,做好数据安全防护。
这是清博智能这周利用AIGC制作的视频。动作流畅、衣服的流动也比较令人满意,配乐也可以让AI来做。借助AI工具我们还可以实现一些多模态的交互,例如声音的克隆,这是给AI输入十分钟左右声音即可训练出专属声音模板。
还有比如对主人外貌和声音的识别,由此做成应用“唤醒”功能。也可以让虚拟人产生对外部世界的动作和表情识别,比如咖啡服务员虚拟人,可以识别客户的动作和表情等。虚拟人不仅能识别文字、语音,也能感知到人表情等喜怒哀乐,这将极大地丰富一些场景应用。
自然语言成为自然人-虚拟人-智能硬件交互的主要驱动方式,虚拟人将成为未来主流服务UI。传统互联网时代的UI是网页,移动互联网时代是App的界面。在不远的将来,App的菜单选项会越来越少,传统页面可能会留在角落里需要时再调用,大部分的交互虚拟人即可完成。清博智能研发团队围绕着这个趋势在逐渐推进。
清博智能的“元娲-统一的虚拟人资产与应用平台”(官网地址:metawa.cn),做虚拟人形象制作、技术服务和硬件管理。清博元娲的虚拟人服务,特点主要有:
(一)多形态虚拟人
容貌:3D写实型、3D卡通型、真身复刻型和AI换脸型;
声音:通用语音库、个性化语音库和克隆声音;
动作:常规与特殊动作支持;
场景:3D场景和2D场景。
(二)可定制AI大脑
FAQ知识库:基于精确业务支持对话,如业务咨询等;
技能问答知识库:任务型多轮对话,如查天气、订机票等;
AIGC能力 :智能生成方案、视频、图像、音频和模型等;
LLM大语言模型:应用各类大模型,支持业务定制与本地部署。
(三)多模态交互终端
多模态交互:结合软硬件能力,实现声音识别、人脸识别、动作识别、情绪识别等,匹配相应的问答内容;
应用终端:55寸、65寸和75寸交互一体机,支持拓展应用至VR、AR、MR和全息设备等智能终端。
多形态的虚拟人,这一点去年大部分的虚拟人公司都已经具备了,不管是虚拟人的容貌、声音、动作和场景都有相应的标准化产品和服务。AI大脑让虚拟人成为某个细分领域的专家,成为富有个性的AI虚拟人。清博智能的虚拟人也可用于多模态的交互终端,它可以在微信公众号、小程序、抖音、快手、视频号等应用上使用,也可以成为办公桌上的智能硬件“秘书”,或者是服务大厅的智能大屏“机构形象”,也可以是电视机顶盒或者其他智能硬件的配件,做成裸眼3D等产品,会使得大家与虚拟人的互动更加自然。
清博智能在4月26日中国(安徽)科技创新成果转化交易会推出了一款虚拟人多模态交互终端——AI数字虚拟人一体机。该一体机集成了元娲虚拟人的各项功能,并通过调试优化,实现了更高效的性能表现。该一体机的核心功能包括人脸识别、语言交互等,并且支持Wi-Fi连接,形象可定制。最重要的是,它支持业务知识的定制模块,为某些机构的业务提供训练,并能在办公桌或会议室内指挥虚拟人完成各类任务。元娲小屏端的XR产品预计在7月份实现量产,金融机构可以将其赠送给VIP客户。
此外,清博智能也将虚拟人作为服务组件开放给了合作伙伴,元娲XR智能硬件可以为金融、公共交通、政务、运营商、旅游、新零售等行业提供相关业务的智能问答服务,将服务接入不同的智能终端,根据使用场景按需选用设备。这意味着,虚拟人不仅可以在营业厅、银行大堂、政务大厅、酒店大堂、购物中心、地铁站大厅等场景中使用,还能在机构VIP服务、AI电子相册等更为特殊的场景中发挥作用。在AIGC的赋能下,虚拟人必将成为新一代智能服务用户交互界面。
作者:刘萧排版:骆伟玲
图片源于Q仔互联网冲浪所得,若有侵权,后台联系,Q仔滑跪删除~
清博旗下的产品大多开放免费试用权限,想体验我们的产品,欢迎咨询~
对咱们文章有兴趣或者有意见的朋友也可以扫码勾搭Q仔哦~
想找到志同道合,相互学习进步的朋友,欢迎大家扫码进群~
转载/品牌/媒体合作
产品客服答疑
未来派对(群)