在经典作品《小王子》中,有这样一幕情节:一个小孩子画下了蛇吞象的样子,他向大人们展示自己的作品,并问他们害不害怕。然而,所有的成年人都说:「一顶帽子有什么可怕的?」
但对于充满想象力的孩子来说,这并不是一顶帽子,而是一条正在消化大象的蟒蛇:
相信每一位读者都曾被这段情节所打动,这就是艺术创作的精髓所在。对于小朋友来说,即使是几笔简单的线条,也代表着最纯真可爱的想象。
比如,简单的几笔涂鸦,为何不能代表光怪陆离的科幻世界?借助 AI 的「画笔」,从灵感到完整作品也不过几秒的时间:
再比如,一条随手画出的波浪线,也能变成一段美妙的旋律:
这些神奇的「AI 魔法」,都来自于一个名为「腾讯 AI 编程第一课」的小程序。
孩子们的「AI 第一课」
自 2022 年以来,生成式 AI 热度不减,以 Stable Diffusion、GPT-4、PaLM 2 为代表的大模型成为了热门关键词,并衍生出文本生成、图像生成、动画制作、视频生成等领域的落地产品,深刻改变了人们的生活方式。
不难想象,未来将是 AI 创造更多价值的时代。这个时代对青少年的 AI 认知与计算思维提出了新的要求,但这些「高大上」的技术,对孩子们来说仍然是有距离感的。
如何将最前沿的技术以易感知的方式传递给他们,增强青少年对科学技术的兴趣、深化青少年对 AI 领域发展的认知呢?
通过剧本式、「玩中学」的方式,腾讯与中国宋庆龄基金会共同发布「AI 编程第一课」公益项目,为全国零基础青少年提供 AI 和编程启蒙小程序平台,首批上线内容结合中国航天、未来交通两项国家重大科技议题,原创趣味探索故事,让青少年在1小时中初识计算思维、AI基本原理、人机协同理念等。
开学之际,「腾讯 AI 编程第一课」正式上线。在腾讯音乐天琴实验室的技术支持下,小程序上线了「AI 创作」版块,分为「AI 作曲」和「AI 作画」两个功能,希望能让孩子们体验到最新 AI 技术的魅力。
今年 10 岁的静宜(化名)是「腾讯AI 编程第一课」的首批「用户」之一。几天试用下来,最让她好奇的就是「AI 创作」功能的实现原理:
「为什么不同的线可以生成不同的曲调?」
「曲线如何变成音乐?」
「AI 是怎么猜到我心中想画的是什么呢?」
这些问题的确令人好奇,所以这款宝藏应用背后有哪些 AI 技术?接下来,让我们一探究竟。
从一条线到「宫商角徵羽」的神奇之旅
提到 AI 音乐生成,大部分人并不陌生。今年 1 月,谷歌发布了「MusicLM」,实现了从文本或图像中生成高保真音乐。之后,Meta 开源了可生成各种音频的 PyTorch 库「AudioCraft」,能够基于用户输入的文本生成高质量、高保真的音频,不仅能生成有旋律的音乐,甚至还可以选择乐器。这一系列方法都有一个特点:直接从文本 / 图像生成音频。
在「AI 作曲」功能研发过程中,天琴实验室首先对上述方法进行了尝试与评估。他们发现,现有的从文本到音频的音乐生成大模型确实取得了不错的进展,但距离大规模商用还有一个挑战必须解决:采样率低的问题。
「音乐的标准采样率为 44.1 kHz 或 48 kHz,语音的采样率是 16 kHz,目前大部分方法生成的音乐只有 24 kHz 或者 32 kHz,音质有待提升。」天琴实验室 AI 作曲团队技术人员泽文表示。
来自 QQ 音乐负责此次「AI 作曲」功能研发的团队成员都有过音乐创作经历,有人曾担任乐队吉他手,也有人曾是音乐制作人。这些经历让他们对于生成音乐的质量要求更加极致,同时也带来了重要的启发:他们忽然想到,或许可以采用与人类创作过程非常相似的生成方式,以保证音乐的连贯性和高质量。
最终,他们决定采用「符号音乐生成」这一技术路线。「从自然语言处理的角度来看,乐符本来就可视为一种语言,不同的是乐谱包含的信息密度比文本更高,还包括旋律、节拍、乐器、流派等。」天琴实验室 AI 作曲技术人员哲旭表示。
经过与一线产品团队的交流,技术团队还获得了一个重要洞察:相比于常见的「哼唱识曲」,「画线谱曲」对于青少年来说是更具新鲜感的生成方式,更能引发他们对 AI 的兴趣。
在这个设想的推动下,技术团队以「曲线」作为输入,以乐谱转化为音频作为输出,打造出了颇具创意的「AI 作曲」功能。具体来说:
- 第一步是从划线图像到音符的识别。孩子们画线的起伏高低就象征着旋律的变化,界面中的横轴为时间,纵轴对应不同的音符「do re mi sol la」,同时,也对应着中国传统的五音「宫商角徵羽」。
- 第二步是旋律的续写。有了五个音符的组合,AI 就有了灵感,并将其扩展为一段 16 秒的旋律。模型基于自回归的方式逐个音符进行预测,每个时刻的输入都依赖于上一个时刻的输出,直到生成一段连贯的音乐。
- 第三步就是编曲。编曲模型会分析旋律的节奏、调子、和弦,给旋律加上不同的乐器和节奏,并提供了流行、古典和电子三种编曲风格。
- 第四步是算法渲染,乐谱将被转化为音频。
至此,一首完整的音乐就完成了。
天琴实验室 AI 作曲负责人 Ethan 表示,符号音乐生成技术的价值远不止于娱乐向、教育向的 C 端产品,更值得期待的是成为高效的音乐人创作工具。从文本直接到音频的过程像一个「黑箱」,而「符号音乐生成」有完整的乐理系统支撑,生成结果也是可编辑的,音乐人可以在生成的乐谱中进行二次创作。
这种对于技术落地价值的考量,在天琴实验室的技术探索中是一以贯之的。作为腾讯音乐旗下首个音视频实验室,他们希望真正将 AI 创新技术融入到产品之中,为用户提供高度个性化及差异化的音乐娱乐体验。
目前,天琴实验室在 AI 音乐生成的技术积累已经覆盖了作曲、混音、编曲、作词、演唱等全部音乐创作环节。除了提供「作曲、混音、编曲」能力的一站式音乐生成技术「琴乐」,以及 AI 辅助作词平台「觅词」。此外,腾讯音乐 AI 伴侣「小琴」和「小天」两款虚拟人产品均已应用于歌曲的智能演唱之中。
比如,本次「AI 编程第一课」的主题曲《魔法字符》,就是由腾讯、QQ 音乐、腾讯音乐天琴实验室共同打造的,从作曲到演唱全链路均由 AI 完成。其中,「琴乐」一站式音乐生成技术完成作曲、混音及编曲,「觅词」辅助创作了趣味十足的魔法歌词,虚拟人「小琴」负责最终演绎。
AI 时代,每个人都是「神笔马良」
与音乐的意义类似,绘画也是一种表达情感的方式。
当前,AI 在绘画生成方面的应用已经比较成熟,比如通过文字 Prompt 生成图像的 Stable Diffusion、Midjourney。但用过的人都知道,如何设计 Prompt 也是一大难点,生成结果未必总能「如人所愿」。
问题来了:AI 能不能接住小朋友的奇思妙想呢?
天琴实验室 AI 作画团队的成员们意识到,对于「AI 作画」功能的用户群体 6-12 岁的孩子来说,以文字形式去生成图像仍然存在一定的门槛,特别是仅使用文本难以控制生成细节,无法对图片进行细化编辑。
因此,他们将目光锁定在一种更能发挥想象力和创造力的方法:线稿成画。
在「AI 编程第一课」的「AI 作画」中,不同于传统的「文生图」需要输入非常复杂的 Prompt,用户只需要简单描绘几笔,就能让「草图」变成「精品」。
这种方法不仅需要扩散模型强大的生成能力,还需要精确的条件控制方案。「AI 作画」这一功能能够在短时间内顺利上线,很大程度上得益于天琴实验室在图像生成领域的技术积累。
从 2022 年,天琴实验室开始布局生成式 AI 技术,并在 QQ 音乐和全民 K 歌中应用落地,比如直播礼物、歌词海报、歌曲背景图、AIGC 播放器、歌曲封面图等多项功能。对生成图像风格 / 内容的精确控制,一直是天琴实验室在重点研究的方向。
比如,「AI 歌曲封面」就是 AI 技术与音乐理解结合的一大成果,为 QQ 音乐曲库中大量封面留空的作品自动生成封面,不仅能够让音乐人和作品的关注度得到提升,更重要的为新上作品提供了降低制作成本的选择。
此外,天琴实验室还推出了 AI 音乐视觉生成技术 MUSE(Music Envision),「以歌生图」能力就是其一大亮点:用户选择一首歌或一段歌词,就可以将歌曲的意境用 AI 技术具象化呈现出来,包括歌词海报、歌词动效视频等视觉内容。
这种「意境」与「具象」的转化,在本次「AI 作画」中也有所体现。「小朋友的绘画作品可能会更加写意,对于这种情况,我们专门使用儿童涂鸦和最终成品图进行了搭配训练,为模型定制相关能力以提升最终生成效果。」天琴实验室 AI 作画负责人 Ben 表示。「我们在精确描绘和物体识别之间进行了一种平衡,一方面让草图的线条起到引导作用,另一方面通过简单的线条进行内容本身的识别,同时给到模型一定的自由发挥空间。」
而这些成果和经验不只用于腾讯音乐的内部业务,也正在赋能全行业。
很多 AI 应用面向的用户数量都比较庞大,这将带来极高的大模型推理成本。对于这个问题,天琴实验室推出了 MUSE Light 大模型推理加速引擎,并在 HuggingFace 公开发布了 lyraSD、lyraChatGLM、lyraBELLE 三项开源大模型的加速版本,实践效果均为行业领先,在 B 端助力技术从业者和科研工作者节约时间和成本。
在「AI 编程第一课」的研发实践中,MUSE Light 帮助节省了 90% 以上的推理成本,使图像的生成加速了 10 倍,且有效提升了用户体验。
此外,团队还观察到:「从草图生成图像的技术已经取得不错的效果,但如果他人想去尝试一件同样的事情,前期会花很多的时间,才能找到比较合用的模型。」
为了解决这个痛点,天琴实验室将过往的技术实践经验汇集在 AI 绘图创作平台「MUSE UI」之中。该平台融合了 MUSE Light 大模型推理加速等多项行业领先的创新技术,提供了「一键出图」、「模型广场」、「图搜模型」、「动图生成」、「一键定制绘图加速服务」、「多场景绘图应用」等多项功能。借助 MUSE UI,设计师、插画师和其他专业人士将节约更多时间成本并最大程度地提高效率。
据了解,经过内部业务实践的检验之后,MUSE UI 平台也将在不久后面向全行业开放。
当万物皆可 AI 生成的时代来临
这两年来,与生成式 AI 相关的技术创新与应用总能成为热门话题。
虽然从内容生产的维度去评价,AI 生成音乐、图像作品的艺术价值还存在诸多争议。但可以期待的是,随着技术的不断发展,现阶段的很多问题将被克服,AI 生成内容的水准必然会有所突破。
从生产力发展的角度看,生成式 AI 使得内容生产的门槛不断降低,效率不断提高,这对于各行各业来说都是巨大的变革。例如,使用 AI 生成营销文案,成本仅为人工撰写的几十分之一,且内容更加多样化。
可以确定的是,未来的社会生产分工,将会更注重人机协作模式,对人的计算思维能力的培养也更加重要。我们必须适应这种变化,找到自身在新时代的定位,更充分地去感受科技带来的美好。
在这种背景下,科学教育理念也需要随之进化。对于今天的青少年来说,他们未必需要过多关注 AI 的底层技术,未必需要一行一行地编写代码,更重要的是先学会如何「Prompt」。
对于「AI 编程第一课」的青少年用户来说,这可能是他们的「AI 第一课」,也是他们成为智能时代新型人才的起航点。