高保真数字直播传输有多强大?
当直播持续6个小时左右,大部分电商主播都出现疲倦迹象时,百度直播间的主播“罗永浩”和他的搭档“朱小木”仍然能够情绪化地回答观众的问题,偶尔还会讲一些“笑话”来吸引观众下单。这两位主播并非真人,而是百度利用脚本驱动的多模型协同数字人技术打造的数字人主播。在2025年世界互联网大会乌镇峰会上,百度自主研发的多模态协作脚本驱动的高保真数字人技术荣获世界互联网大会领先技术奖。随着人工智能技术的快速发展和MGA多模态模型中大型模型的加速演进,数字人已成为大规模语言模型与多模态技术相融合的创新应用。电商直播是实现数字人的一个很好的场景。数字人技术让营销人员无需投入大量人力物力进行直播,并且可以降低租用场地、获取设备、培训人员等成本。同时,数字人可以进行24小时直播,进一步增加产品曝光时间和销售机会,提高经济效益。然而,人类一代的传统数字技术往往面临语音、语言、视觉多模态分离的问题,表现为线条生硬、语音语调与线条情感匹配不佳、表情和手势单调。百度首席技术官王海峰表示,针对人类数字化应用的痛点,百度创新开发了高保真数字化人类技术多模态协作脚本驱动。剧本的基础是对话。线属不仅是内容输出,还要适应主播的性格和语言风格,保证语言表达的个性化和一致性。在多主播场景下,还需要实现语义逻辑、语调节奏、情感风格的整体协调。同时,为了提高台词的内容深度,应引入内容规划、知识增强和事实核查机制,以减少人工智能错觉的危险。基于台词,大模型可以直接生成数字化真人直播剧本。剧本有“视觉标签”和“声音标签”,可以告诉系统角色根据台词应该采取什么动作。强互动是电商直播场景的一大特点。在观众互动过程中,语音合成的自然程度是决定用户沉浸感的关键因素。观众希望听到充满情感和振奋人心的声音锚的阅读,而不是僵化和机械的阅读。王海峰表示,针对这一要求,百度提出了“受控文本合成”的解决方案。大型文本控制合成模型不仅具有高弹性语音的合成能力,还可以结合直播台词和主播的个人特点,将这些文本内容转化为自然且富有感染力的声音,让数字人不仅能发出声音,还能准确传达侮辱、骄傲、强调等微妙情绪。数字主播在直播过程中除了与用户互动之外,还需要与产品、空间进行物理和逻辑的互动。怎么做呢?人类一代的高一致性、超真实感数字技术,可以对历史视频数据、脚本、语音信息、剧情驱动等多模态信号进行分析和理解,并基于接触片段、大规模动作ts 和大表情剪辑。系统可以对这些切片进行长时间的均匀调度,保证声音、口型、表情和动作始终保持高度一致和同步。如今,数字人正逐渐从实验室走向各种应用场合,商业化进程明显加快。研究发现,随着深度思考、多模态交互等基础能力的进步,越来越多的数字人将出现在屏幕上,进入人们的生活。同时,业内专家提醒,《直播电子商务监督管理办法(征求意见稿)》提出,利用人工智能等技术生成的人物图像、视频从事直播营销活动的,直播间经营者应当在直播页面显着标识,并持续狡猾地提醒消费者,人物图像和视频是通过人工智能等技术生成的,以清楚地将其与自然人的姓名或图像区分开来。中国科学院信息工程研究所高级工程师韩继忠表示,人们在拥抱数字人技术的同时,也需要划清界限,避免利用高保真技术歪曲事实进行欺诈或虚假宣传。技术进步必须伴随法律和道德约束,以确保创新持续走在正确的轨道上。 (本报记者杜鹏)(科技日报)
特别声明:以上内容(如有则包括图片或视频)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(如有的话,包括图片和视频)由以下人士上传并发布网易HAO的用户,网易HAO是一个社交媒体平台,仅提供信息存储服务。
上一篇:从汽车保养到汽车销售,京东首车价格已确定!
下一篇:没有了
下一篇:没有了





