每经记者|丁舟洋 每经编辑|毕陆名
不久前,中国移动咪咕音乐党委书记、总经理朱泓收到了好友的一则微信,“这是我一天时间里做的四首歌,你帮我听听”。这让音乐产业从业者的他深受触动,“我意识到,未来人们听什么歌?听自己做的歌”。
而这一切的实现,都源于AI(人工智能)的到来。如今随着腾讯音乐、字节跳动、昆仑万维、MiniMax等公司推出音乐大模型,人人皆可创作音乐的时代已经到来。
“我从事音乐产业十几年的时间,传统的音乐产业的生产是词曲、创作、编曲、录音、发行,这一套完整的产业,由不同的行业,不同的企业,不同的人来完成的,是一个极其复杂的系统工程。最早的一首高品质的录音室音乐是要几十万元一首歌,如果还要拍MV的话,那就不再是几十万(元)的量级,可能是几百万元量级一首歌。现在某个平台的收费我知道是2毛钱,我们需要等待1分钟就出一首歌,所以将制作周期缩短到了分钟级,AI创作的边际成本趋近于0。”在4月14日第十三届中国网络视听大会上,朱泓发言表示。
图片来源:主办方供图
然而,当前主流AI音乐模型多训练于西方流行音乐,对国风核心元素的理解与融合仍显不足。基于“国风”音乐大模型,咪咕音乐将有怎样的探索?朱泓接受了包括《每日经济新闻》记者在内的采访。
在朱泓看来,当前,AI技术正在深刻的推动音乐产业的变革,让高质量的音乐规模化、低成本输出成为现实,推动音乐从精英艺术走向全民表达。
“在线音乐产业进入了一个‘文艺复兴’的时代,中国数字音乐的市场规模全年超过了1000亿元,同比增长了15%,线下演艺也迎来了‘文艺复兴’,成为产业增长的重要引擎,Z世代、阿尔法世代成为了为音乐付费的主力,文化自信带动了国潮的爆发。”
“音乐产业已从唱片工业迈向Token(词元)经济,一首3分钟的AI歌曲Token消耗大概是3万Token,技术红利全面释放。”朱泓表示,“同时,我们也清醒地看到,在国风音乐的AI生成大模型方面,我们仍然认为一些主流的或者西方的音乐生成工具,还没有达到国风音乐标准的审美,这是有一些共识,还需要积极的探索。”
比如,如果让市场上现有AI音乐大模型生成一首说唱流行歌曲,各种工具都能有不错的表现,但如果要生成一首侗族山歌,就不一定能像样了。
朱泓表示,咪咕音乐正自主研发业内领先的全栈国风音乐大模型,深度融合地方戏曲、民族调式等传统美学,支持多模态文生音乐、音频生音乐,1分钟即可输出专业级作品,彻底降低创作门槛。并构建社区共创生态,将咪咕音乐打造为国风音乐爱好者、创作者的社区。“同时,我们给创作者以明确的确权,以及商用的全链路,在咪咕自身的体系里面,一个是音乐平台,另外一个就是视频彩铃平台上,为国风音乐创作者打开商业化机会。”
AI会取代音乐人创作吗?“我认为这是给了创作人更多选择。”朱泓回应称,“汽车时代到来,难道我们人类不会走路了,我们只是开着汽车跑得更快,走得更远。甚至催生了赛车这类追求极致速度与技巧的全新形态。未来的音乐创作,也将迎来‘人车共创’般的深度融合,这正是AI音乐大模型进化的终极目标。”
在4月14日第十三届中国网络视听大会“AI+国风音乐创新发展论坛”上,咪咕公司还与成都传媒产业集团签署战略合作协议。双方将秉持“资源共享、优势互补”原则,围绕文旅文博、演艺、体育等领域开展全方位合作。
对于AI音乐前沿与应用展望,清华大学信息国家研究中心副主任、中国人工智能学会副秘书长于涛在“AI+国风音乐创新发展论坛”上分享道,AI与音乐、具身智能具有很大的结合空间。“我们可以看到,虽然很多演出中都有机器人的乐器表演,但实际上里面展示的演艺内容都是预编好的,想让它们再表演些别的,又得重新做一套。”所以还远没有那么“通用”。
图片来源:主办方供图
“机器人演奏最难的问题是什么?是弦乐。因为它不是打击的,是连续的演奏,需要你的力度非常高频的变化。”于涛表示,“所以我们首先解决了动作捕捉的问题。我们构建了国际上第一个音视频协同的动作捕捉系统,基于这一宝贵的数据集,我们与中央音乐学院等国内外顶尖科研团队建立了广泛合作。”
“结合AIGC(人工智能生成内容)能力,我们实现了从音乐到动作的自动生成。现在,只需输入一段音频,系统便能自动生成与之匹配的精细演奏动作,无需人工再行编排。我们已能用此技术驱动数字人,其演奏时手部的揉弦等细节动作都显得极为精妙。”
于涛表示,近期,其通过与SoftRobotics的合作,进一步实现了满足物理约束的具身演绎。于涛说,在具身智能层面取得突破后,我们可以畅想一个未来:或许在某一年的春晚上,登场的将不再是表演功夫的机器人,而是能够在舞台上真正演奏弦乐的机器人乐团。
封面图片来源:主办方供图