文 | 智能相对论
作者 | 陈泊丞
这是春晚舞台西安分会场《山河诗长安》的一幕:“李白”现世,带领观众齐颂《将进酒》,将中国人骨子里的豪情与浪漫演绎得淋漓尽致。
这又是浙江义乌商品市场里的另一幕:只会说几个英文单词的女老板秒变外语达人,无缝切换36国语言流畅介绍自家商品,疯狂带货。
这一幕幕不可思议的画面,成就了今天中国文化、商业的频频出圈。而一切的背后,都有着相同的支持:AI技术赋能数字内容生产和应用。
近年来,随着AI大模型技术的持续升级与赋能,数字内容生产与应用的趋势愈发强烈,现实场景与数字内容不断融合,悄然改变着整个内容创作行业的格局,甚至进一步推动了相关产业和商业的新变革。
技术创新重塑数字内容生产与应用新范式
数字人“李白”的精彩演绎、义乌女老板的AI带货——这些热门事件的背后,是技术创新突破所带来的结果。AI大模型的成熟应用,让越来越多不同形式的数字内容得以爆发,并广泛进入大众视野。
在6月21日举办的华为开发者大会(HDC 2024)上,华为云盘古大模型迎来5.0版本升级,其中盘古媒体大模型在语音生成、视频生成以及AI翻译上的技术创新就重塑了数字内容生产和应用的新范式。
对比过去的技术能力,新的技术所带来的效果是非常显著的。
一、语音生成进阶:只需三言两语,沉浸式、真实感的语音易如反掌
过去的语音生成依赖传统的声音克隆模型,由于模型比较小,精度低等原因,往往在实际操作上就要复杂得多。比如,在数据收集阶段,对目标人物的语音数据就要尽可能的多样化,包括不同的语速、语调、音量以及不同语境下的语音,需用到几百句话的录音。
然后到了预处理阶段,需要对收集到的语音数据进行清洗,通过人工标注等形式去除噪声、静音片段和其他不需要的部分。进而还要进行语音分割,将连续的语音信号切割成较小的语音片段(如音素或单词)。最后提取音频特征,再用于后续的声音建模。
以上,还只是数据收集和预处理,尚未进入真正的语音生成阶段。但其中的工作量和操作复杂度就已经很大了,对语音生成的效率和质量都是一个非常大的影响和挑战。
时至今日,随着技术的创新,基于更先进的模型,比如盘古媒体大模型的语音生成能力,这一问题得到了很好的解决。只需要几句话、几秒钟的声音,AI即可学习到个性化的音色、语调、表达韵律,从而获得高质量的个性化语音。同时,还支持喜怒哀乐等拟人情感语音,闲聊、新闻、直播等10多种语气风格,让生成的语音更真实、更有情感色彩,能沉浸式地应用到不同场景中。
比如,在视频译制中,AI将能做到配音演员的专业程度——通过盘古媒体大模型提供的视频翻译能力,AI可以把视频翻译为目标语言,并保留原始角色的音色、情感、语气。华为云也在积极联合伙伴逻辑智能,打造高感情语音克隆以及14国小语种配音,共同构建高感情超拟人多模态音频应用能力等。同时,再结合盘古媒体大模型的口型驱动模型,还可以实现音唇同步,尤其是在侧面、多人对话、物体遮挡以及人物移动等场景,也能做到很好的口型匹配。
二、视频生成跨越:只需几十张图,可控的、一致的视频唾手可得
传统的视频生成技术在资源需求、数据集、时序一致性、物理定律遵守、效率与质量平衡、可控性、逼真度和连贯性以及应用限制等方面都存在一定的局限性。如今,基于盘古媒体大模型,只需要训练几十张特定美学风格的图片,如吉卜利、二次元等风格,再输入实拍视频即可快速生成该风格的动漫视频。
第十四届北影节“AIGC电影短片单元”竞赛
获最佳影片奖的作品《致亲爱的自己》
除了按需时长生成稳定的动漫视频,再通过ID一致性模型,还能对生成画面中的关键角色进行一致性处理,确保视频中角色样貌特征在前一帧和后一帧中所呈现的效果始终一致,在侧脸、运动轨迹下的视觉效果合理一致,由此增强AI视频生成的可控性、一致性,让视频内容更合理、真实。
实拍转动漫作品《海上有座花园》的对比
此外,业内对视频生成的真实度、复杂度也在聚焦增强。比如,OpenAI的Sora正在试图模拟复杂的摄像机运镜,同时准确地保持角色和视觉风格一致,让AI创作的数字内容更加趋于现实创作。英伟达更是发布了一系列技术套件如ACE(NVIDIA Avatar Cloud Engine)、NeMo™以及RTX™等,去增强数字内容的真实感,让数字人物的互动、对话更加复杂、逼真。
三、AI翻译强化:准确性>93%,实时的、跨语言沟通指日可待
过去的机器翻译系统往往是基于统计模型或规则模型构建的,因此翻译结果大多无法与原文一致,显得生硬、不自然,并不具备应用到不同场景的条件。现如今,华为云通过AI实现多语种实时传译,准确性>93%,可应用于实时通话、云会议等需要实时翻译场景。
同时,基于盘古媒体大模型的语音复刻、AI文字翻译以及TTS技术,便可以实现语音的同声传译,成功实现跨语言母语沟通体验。甚至还可以结合数字人技术,让数字人来模拟用户说话,结合口型模型技术做到口型与声音精准匹配,让AI翻译、数字人与语音生成高度结合用于线上开会、跨国贸易交流等场景中。
技术的“瓶颈”在收缩?
技术的创新和突破带来了数字内容生产和应用的爆发,但另一方面随着生产和应用的进程加速,相应的技术瓶颈也在出现,并不断收缩、聚焦。目前,AI大模型在数字内容生产和应用上的问题主要呈现在三个层面。
其一,能源与计算效率瓶颈。当前,大模型训练的算力当量还在进一步增大,从GPT-3到GPT-4算力当量增长了68倍。随着训练的token数、模型参数增加,大模型训练所需的计算量也需要随之增加。
更重要的是,其背后的成本投入是难以为继的。根据计算,训练一个5000亿参数规模的Dense模型,基础算力设施投入约10亿美金,无故障运行21个月,电费约5.3亿元——这远远超出了企业的承受范围。
但是,如果想要规模化地生产高质量的数字内容,大模型的精进又是必要的路径。在这个阶段,业内开始寻求更高效、更优的算力解决方案。像华为云昇腾AI云服务就在致力于提供方便、好用的算力服务,在算力层面不断革新计算能力和计算效率,提供从云化算力、模型开发、模型托管到生态的全栈服务。
其二,算法架构的优化挑战。随着大模型参数的增加,想要实现更好的计算结果和输出更优的答案,那么其处理的时长就会不断延长的。但是,这在实际应用中是一个困扰数字内容生产和应用的显著问题,非常不利于数字内容的规模化、商业化发展。
由此,业内也开始在算法架构上进行优化,调整计算逻辑、处理方法来实现更优效果。其中,以稀疏激活机制为代表的MoE模型就是目前AI行业的一个焦点,类似于“术业有专攻”的理念,稀疏激活机制通过对数据任务进行拆解,分门别类,再分配给特定的“专家”(Experts)进行处理,最终综合加权输出——不仅实现了计算效率优化,也让输出结果更加全面、强大。
其三,安全与伦理问题。大模型内部运行机制复杂,生产出来的内容欠缺可解释性和可控性,又易受对抗样本攻击,存在监管难题和安全漏洞。对此,在数字内容生产和应用中,相关的安全和伦理问题随着行业的广泛发展而日趋突显。
因此,在数字内容行业高速发展的阶段,尽管企业能吃上数字内容的红利,但也需要鉴别模型的安全性、可靠性,避免因模型的安全和伦理问题而引发负面舆论影响。在这样的挑战下,华为云盘古大模型也随即作出升级,在数据治理、安全合规等方面达到了较高标准。
以技术“造梦”,数字内容未来可期
新范式的明确带来更明确的技术方向,对于整个数字内容行业而言,这意味着未来的发展已经有了基础的雏形,前景仍是乐观的。但是,不可忽视的是,技术的瓶颈客观存在,且更加突出,摆在行业面前的依旧是一条较为严峻的发展之路。
尽管抛开技术瓶颈不谈,在具体的实践中,数字内容的生产和应用也不简单,往往都需要面对很多在技术之外的具像化问题,只有基于问题去一步步解决才能最终完成落地。
华为云团队在进行纪录片译制时就发现,项目实际开展起来会遇到各种各样的问题,比如环境声音太杂太乱,AI无法准确识别人声保证音译的完整度,或是随着场景的切换,人物的状态、口型都呈现出不同的样子,需要AI精准地匹配等等。
如果这些问题不一一解决,AI译制的效果就打了个大大的折扣。对此,华为云团队通过精准分析问题,采用不同的技术去解决各类细微问题,比如通过分离模型技术让环境声和人声分开,通过口型模型技术让声音与口型精准匹配等。
技术或许一直都有,但是如何用恰恰才是项目落地的关键。换句话说,在今天数字内容行业高速发展、技术创新加速迭代的阶段,只有实践了才能真正推动行业的发展。这是一个比拼项目的阶段,谁家的项目经验越丰富,越能知道相关的技术应该如何应用才能发挥出应有的效果。
目前,中影集团与华为云合作,将媒体大模型应用到影视工业,共同打造影视译制大模型,通过AI将视频译制成不同语言,并保留原始角色的音色、情感、语气,还能支持口型匹配,为影片译制提供全新的AI制作方式。
今天,数字内容迎来迸发,越来越多精彩内容面世的另一面恰恰是厂商们不断运用技术、验证技术、完善技术的过程。未来的项目之路任重而道远,同时也是行业走向成熟的必经之路。静待技术在创新中、实践中持续升级、完善,未来便更快能看到一个数字内容精彩纷呈,如同梦境一般的世界。
*本文图片均来源于网络
此内容为【智能相对论】原创,
仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。
部分图片来自网络,且未核实版权归属,不作为商业用途,如有侵犯,请作者与我们联系。
•AI产业新媒体;
•澎湃新闻科技榜单月度top5;
•文章长期“霸占”钛媒体热门文章排行榜TOP10;
•著有《人工智能 十万个为什么》
•【重点关注领域】智能家电(含白电、黑电、智能手机、无人机等AIoT设备)、智能驾驶、AI+医疗、机器人、物联网、AI+金融、AI+教育、AR/VR、云计算、开发者以及背后的芯片、算法等。
相关推荐: 山西汾酒收入、利润有望全面跻身行业三甲,腰部产品持续放量!
进入2024年,白酒行业动销变慢、库存较高,但龙头企业依然表现良好,库存始终保持在健康状态之中,且旗下次高端、大众产品的发展态势更为出色。 对此,中国酒业协会理事长宋书玉表示,当前白酒产业仍将处于去库存周期,存量时代特征愈发鲜明。强强竞争以及产能提升导致的产业竞争加剧已成事实,消费需求多元化导致产品多元化,品类竞争加剧。 白酒行业营销专家蔡学飞则指出,五粮液、贵州茅台、泸州老窖、山西汾酒等发展势头强劲,但是,大量以中低端价格带为主的区域中小酒企依然面临着库存较高、动销降低、价格倒挂等问题。 以山西汾酒为例,2024年第一季度营收约153.38亿元,同比增加20.94%;归属于上市公司股东的净利润约62.62亿元,同比增加29.95%。 报告期内,山西汾酒经营活动产生的现金流量净额超过70亿元,同比增幅在105%左右,远远优于同期收入、利润表现。 众所周知,经营活动产生的现金流量是最直观的现金指标,它反映了企业正常经营所产生的现金,是企业的造血功能,表现的是企业将净利润变现的能力,因此也是诸多投资者选股时的重要参考指标。 在业内人士看来,经营活动产生的现金流量净额是公司经营成果中“落袋为安”的部分,是企业盈利能力很好的补充指标。而且,与净利润是相辅相成的关系,通常如果经营活动产生的现金流量净额与净利润的比值(净现比)大于1,说明净利润是由真金白银收回的,而不是纸面富贵,这样的公司值得长期关注。 对此,快消行业分析师康定平表示,山西汾酒的经营性现金流显著改善,表明企业具备很高的风险承担能力,上市公司整体质量优越。 受益于此,截至2024年第一季度末,山西汾酒的货币资金高达55.09亿元,与今年初37.75亿元相比,增幅在46%左右。 “进入2024年,白酒行业发生了巨大变化,次高端白酒以及大众产品的发展势头十分迅猛,而这正是山西汾酒最为擅长的地方。”康定平指出,山西汾酒的收入、利润增长迅速,不出意外的话,2024年山西汾酒有望全面超越洋河股份、泸州老窖,成为仅次于贵州茅台、五粮液的第三大白酒上市公司。 端午节前,有报道指出,山西汾酒在云南昆明的销售公司经销商大会宣布,从6月20日起,老白汾近年来首次换代升级,全系列产品开票价将提价5元/盒,也就是每件(6瓶)上涨30元。 多位汾酒经销商证实了涨价消息,称目前还能买到原价的库存老白汾,20日以后就按提价后价格卖。目前一箱6瓶的老白汾10年的拿货价在720元左右,涨价后要750元左右;老白汾醇柔拿货价约420元,涨价是否跟进要看市场情况。 据悉,老白汾系列定位在100-200元价格带,主要产品包括老白汾10 年、15 年、20 年以及老白汾醇柔等多款产品,相比品牌头部的青花汾,老白汾的主要消费场景为大众宴请。 “过去,老白汾以省内为主、在山西市场具备较高的消费者认知度,省外在环山西市场具有较强优势、近年也有较快发展。”光大证券在研报中指出,山西汾酒的产品战略自2022 年由“抓两头、带中间”转变为“抓青花、强腰部、稳玻汾”,老白汾在当前市场环境下有望承担更多增量,预期老白汾系列今年收入增速或高于公司整体增速,特别涨价信息释放后二季度增长有望提速。 值得关注的是,全国餐饮市场继续回暖,大众的消费观念、支付能力也在不断提升。双重背景下,大众宴请市场已成为节假日消费增长的重要因素。 “今年拉动白酒市场的主旋律已经不再是高端、超高端白酒,而次高端以及大众白酒已经成为主要的支撑点。”康定平表示,山西汾酒在次高端白酒以及大众白酒市场上拥有着先天优势,且一直都是其着重的发力点,从而在2024年享受到了发展红利。 “我们预计,老白汾系列或是2024-2025年山西汾酒冲刺营收后300 亿时代的腰部核心。”券商在研报中认为,山西汾酒通过控制腰部产品市场投放量、提升产品品质、不断优化产品结构等,为公司的稳健发展提供了有力支撑。 相关推荐: 从车规传感器发展的正反面,看智驾发展的“胜负手”北京车展进程过半,雷军和周鸿祎成为车展新晋“网红”的同时,智能驾驶成为观众讨论最务实的话题之一。端到端自动驾驶、城市NOA这些炙手可热的话题,占据了大部分的关注度。 但在高阶智能驾驶之外,智能驾驶同样具有频繁使用需求的低速和入门级智驾场景,比如泊车,也在持续进行能力的建设,抑或像特斯拉一样,不走由激光雷达支持的智能驾驶之路,而是拥抱4D毫米波雷达+视觉方案。 行业后起之秀大疆,3月发布了仅依赖7颗摄像头和1颗高通芯片,就能实现无图、纯视觉城区智驾功能的方案。毫米波雷达和超声波雷达,可以作为选装。 奇瑞4月发布的全新方盒子车型iCAR V23,据称用800w前视摄像头+300w环视摄像头+5个毫米波雷达的配置,也实现了L2++级智驾,对记忆泊车、高速NOA等场景进行了覆盖。 北京车展前,华为发布了以智能驾驶为核心的全新智能汽车解决方案品牌——乾崑ADS3.0,在智驾方案中强化了车位到车位智驾领航NCA功能和智能泊车功能。 供应链巨头博世在北京车展期间带来包含第三代多功能摄像头evo版、第六代毫米波雷达、超声波传感器系列和摄像头模组等传感器的新一代辅助驾驶方案。 (图源:华为) 在智驾领域,感知方案的分化由来已久。尤其是在智驾降本增效趋势下,非激光雷达方案开始在特定场景和车辆价格区间展现优势。3月末,四家涉及智能驾驶业务的公司——黑芝麻智能、如祺出行、地平线、纵目科技相继冲刺港股上市。其中,纵目科技的核心业务,便是智驾方案和非激光雷达的车规级传感器。 2021年3月,时任纵目科技副总裁李旭阳曾说,未来毫米波雷达的性能能够很大程度上逼近激光雷达,落地的关键是谁能快速将技术转化为工程化能力。 三年之后的今天,不管是量产的AVP系统、各式各样的行泊一体方案,还是特斯拉从纯视觉方案转向摄像头+4D毫米波雷达、国产方案供应商们对智驾理念的变革,都在说明一件事——由车规传感器的应用变化影响的智驾平权行动,正在走进百花齐放的时代。 在竞争中站稳脚跟甚至获胜的方式,已然不止一种。 “补位”效应,让智驾生态结构渐趋成型 4D毫米波雷达的成本,可以做到激光雷达成本的五分之一甚至十分之一。所以,让智驾方案降本的最快方法,是直接减少甚至去掉成本最高、动辄以千元计算的激光雷达。 激光雷达本身也在降本过程中,但降本速度/程度和市场对低成本智驾的需求之间有缺口。纵目科技的车规级传感器包括4D毫米波雷达、高分辨率摄像头及超声波传感器。目前,纵目科技提供的角雷达和前雷达,单价在100元到200元之间,摄像头单价则在120元到250元之间。以小见大,在综合算法等成本后,无激光雷达的方案显然更容易实现高性价比。 高工智能汽车研究院监测数据则显示,2022年中国市场(不含进出口)前装标配搭载ADAS毫米波雷达(前向、后向、盲区)交付1795.27万颗,同比增长31.21%。到了2025年,毫米波雷达搭载总量将达到3532万颗,2020-2025年复合年增长率达到29.90%。 2021年至2023年,纵目科技车规级传感器收入分别为7399.4万元、2.13亿元、3.21亿元,收入占比分别为32.8%、45.3%、64.5%。收入和收入占比均逐年增长,和当前智驾市场配置的悄然变化,趋势暗合。这也推动纵目科技过去三年的收入,从2.25亿元增长到4.98亿元。 包括4D毫米波雷达在内,纵目科技截至2023年底已经就50款车型部署智能驾驶解决方案,覆盖了中国销量排名前十的大部分OEM。像问界M5、M7,就都应用了纵目科技的APA。 毫米波雷达的应用,就像一滴染料落入瓶装水,迅速改变了智驾市场的颜色。但从激光雷达到毫米波雷达和其他传感器,看起来简单粗暴的变化,也不是一蹴而就的,它需要一些大前提。比如,毫米波雷达本身具有足够的优势和能力,形成对激光雷达的补充和替代。以及,供应商对场景的理解,发挥硬件的更大价值。 我们以纵目科技的成果来看。毫米波雷达本身测距精度受天气因素和环境因素影响较小,能够在复杂场景下满足测量需求,尤其是4D毫米波雷达,在测距、测速、测角、测高的能力之上,还在强化成像等方面的能力。而从对场景和技术的理解看,纵目科技针对国内道路特点,深度优化的场景超过60个,并且还在自身Drop’nGo平台基础上,通过技术迁移向能源服务领域进军,部署了能源服务机器人等产品。 显然,纵目科技的“长板”很长,对特定场景的理解非常深刻。今年1月,纵目科技迎来第700万颗传感器下线的里程碑式节点。 在当前智驾领域变革频发的背景下,找到合适的站位,实现与高阶智驾能力、厂商自研智驾能力的错位竞争、互补发展,让纵目科技抓住了细分市场的关键点,提升了智驾生态结构的丰富度。 为什么智驾企业的发展方向也分化了? 毫米波雷达发展,自德国大陆集团在1999年研发第一代雷达开始,到现在进入第七代的阶段。这体现了技术纵深化探索的线性思维,恰如智能驾驶从L0到L5的循序渐进。 但这不是唯一的道路。智驾方案性价比化发展,会让智驾能力逐步向10万元级别的车型下放,到一定规模后,智驾会变成另一种意义上的“制造业”,赚薄利多销的钱。但它显然和制造业又不太一样,因为智驾技术的复用能力更强,除了纵向把技术越做越精深之外,横向开拓应用场景,同样是一种升级。 这就是为什么,有的智驾企业在死磕技术的路上逐渐疲于奔命,但不少智驾企业却走向了“一鱼两吃”,甚至多吃。 纵目科技在这方面有一个有意思的尝试:以空间思维,向智能驾驶的特定作业空间延伸生态。 蚕丛机器人就是成果之一,尤其是FlashBot闪电宝充电机器人,是从“车找桩”向“桩找车”变化的产物。在当前优质充电桩布局不理想的情况下,能有这样一个针对特定场景空间作业的补能产品,其业务想象力的基础是可靠的。 但根源还是在发展思维上。充电机器人显然不是自动驾驶产业发展的线性选择,而是“自动驾驶为何而诞生、为谁服务”这种思维之树的横向扩张。能源和空间服务走向一体,是因为有纵目科技对L4级别智驾技术的理解和研发。从2021年开始,纵目就成立了后装、无线充电和智慧城市事业部,一年时间实现了能源机器人的开发。这是一个基于技术基础衍生的空间联动生态。 感知、决策和执行的逻辑,在充电机器人身上是通用的,甚至在整个服务空间内需要做出工作动作的产品来说也是一样。Drop’nGo不仅支持了几十款车型配置智驾方案,还在封闭空间内的充电机器人层面,支持了L4级自动驾驶功能的落地。这是智驾技术向高阶演进,但反哺常规意义上的低阶场景的一个案例。 (图源:纵目科技招股书) 从这方面来看,智驾方案的分化,传感器发展的分化,企业路线的分化,也许都是一些尚在成长的机会——人声鼎沸的核心智驾领域是主流,但主流领域的搏杀更为激烈,最后的结果是很难预料的。这个时候,差异化显得尤为重要。能在一个小领域站稳脚跟,和巨头形成稳定互补关系,走出自己的一条路,未必不是更好的选择。 当然,这个观点尚且没有现实依据的验证。但在智驾如火如荼的发展中,相信很快会有更多的案例出现。智驾领域最开始是技术第一,后来是工程化能力第一,再然后是商业化第一、运营第一,未来仍可能有新的第一标准出现。但只要记得,智驾最初的意义是把人从一个场景、一种行为里释放出来,那对技术的理解和应用,就自然会永远走在前列。 来源:松果财经
原创文章,作者:admin,如若转载,请注明出处:http://readdaily.cn/other/131698.html