网站地图

引导创作  推出精品  提高审美  引领风尚

主办方:中国文联文艺评论中心/中国文艺评论家协会

杂志邮箱 新媒体邮箱
首页>中国评协>《中国文艺评论》>专题策划>正文

AI作曲技术的创新实践与研究(刘灏)

2025-02-07 来源:《中国文艺评论》 作者:刘灏

【内容摘要】 随着大数据技术的完善,AI技术在音乐创作领域的应用日益广泛。AI作曲技术通过深度学习模型实现自动作曲,降低了音乐创作的门槛,使普通人也能参与专业创作。目前已有众多AI作曲平台及工具,如Magenta、Suno、天工SkyMusic等,本文首先分析了AI技术在音乐生成、风格迁移、音乐补全等方面的应用。其次,以上海音乐学院在教学实践中不断探索AI作曲的应用为例,展现其在非遗传承、声音疗愈等领域的强劲潜力。值得注意的是,虽然AI技术也对音乐艺术产生冲击,但音乐工作者应积极融合新技术,推动艺术与科技的共同发展。

【关 键 词】 AI作曲技术 音乐生成 音乐大模型 声音疗愈 虚拟博物馆

一、AI作曲技术简述

随着时代的持续进步和大数据技术的日益完善,人工智能(以下简称“AI”)技术在众多行业中的作用愈发显著,艺术创作领域也逐渐融入了这一技术。近年来,AI作曲技术已成为音乐工作者与AI技术人员之间频繁探讨的热门话题。

人工智能的应用性在学术界通常被描述为“人工智能(Artificial Intelligence,缩写AI)领域不仅涉及理解,还涉及构建智能实体。这些智能实体机器需要在各种各样的情况下,计算如何有效和安全地行动”。基于这一定义,我们可将“AI作曲技术”理解为一种人工机械对于人类作曲行为的有机“模仿”。与传统作曲、编曲工作相比,AI作曲技术最大的不同在于其载体独立参与并完成整个艺术构思及创作的过程,无需人为干预。使用AI技术进行作曲的用户,不必过分关注自身是否擅长“作曲”技能,而是将重点放在如何对AI进行训练、模拟和演算上。

AI技术一直是学术界与艺术界关注的热点,围绕该技术产生了诸多讨论,例如《人工智能简史》提出的:“我们会成为今天正在出现的智能机器的主人,奴隶还是伙伴?”在本文中,笔者旨在通过介绍AI作曲技术、市场产品以及自身团队的实践,以新视角探讨AI音乐。

音乐创作本身是一个高度专业化的复杂过程,需要作曲家具备丰富的技术与经验。传统音乐创作通常需要专业的音乐人、编曲作曲师和混音师共同协作完成。然而,随着AI技术的不断发展与革新,即便没有音乐制作经验的普通人也能够借助AI技术进入专业创作领域。在传统观念中,音乐创作被视为具有较高的专业门槛,这主要是由于音乐创作涉及的技巧和知识领域较为复杂与多元。一位合格的作曲家需要具备丰富的音乐知识储备,这包括但不限于乐理知识(如节奏、和弦配置、旋律走向、和声布局等)、乐器知识(涉及乐器的构造、使用方法、写作规范等),以及组合编曲技巧(如乐器之间的结合方法、配器规则等)。对于非音乐专业人士而言,掌握作曲技术需要投入大量的时间与精力,而AI作曲技术的出现,恰好能够解决这个问题。基于这种底层的需求逻辑以及交叉学科研究的不断兴起,AI作曲技术逐渐步入公众视野。

将专业的音乐创作流程进行拆分,可划分为作词、作曲、乐器编配、人声混录、全局母带处理等多个环节,这些都是专业音乐创作不可或缺的组成部分。AI技术的基本运行逻辑则是通过专业的人工智能模型组(常见的诸如MelodyRNN、Music Transformer)进行运作。目前,AI可以对节奏、音高、音长等基本音乐信息进行自动提取,而对于调式调性、段落结构等这类复合型的高维度乐理知识,则需要专业的提取方法。

从现代视角审视AI作曲技术,其核心理念在于构建音乐大模型。音乐大模型是以深度学习模型为内核建立的。深度学习是AI技术领域的一个重要概念,它通过多层级的机器学习辅以海量的训练数据,使机器获得学习并提取目标的有效特征。音乐大模型的精髓及运用逻辑在于通过庞大的音乐数据进行不断训练,最终实现音乐创作。目前,较为常见的AI音乐生成工具诸如Magenta、MuseNet等,均属于音乐大模型范畴。

音乐大模型本身是处理音乐生成或负责音乐分析的大规模神经网络模型系统,它在理解音乐理论、识别旋律线条与和声结构,以及创作新音乐方面都有所应用。音乐大模型能够有效地辅助音乐艺术创作过程,例如音乐大模型可以基于提供的音乐片段快速生成旋律或和弦进程分布,从而帮助作曲家迅速进行音乐创作。此外,音乐大模型还包括音乐补全(可以将不完整的音乐片段通过算法逻辑补全)、风格迁移、即兴创作等。除了纯粹的创作和作曲领域之外,音乐大模型还可被应用于音乐教育、音乐推荐领域。

目前,国内外音乐大模型的发展呈现出蓬勃态势,可以预见,随着技术的不断革新和市场需求的持续扩大,AI技术将在未来的音乐产业中扮演更加关键的角色。

二、大数据背景下的AI作曲平台发展

AI技术在国内的运用已历经多年。2020年6月,上海音乐学院诞生了一位名为“小冰”的毕业生。这位“小冰”并非普通学生,而是一套被赋予了虚拟人形象的完整学习框架,它能通过AI算法技术进行作词、作曲等音乐创作工序。自诞生起,“小冰”在视觉创作、文字创作和声音创作领域持续进行探索与创新。2017年5月,“小冰”独立完成了诗集《阳光失了玻璃窗》,成为首部由AI独立创作的诗集。在音乐创作方面,“小冰”能够独立完成一整套音乐创作流程。2020年,“小冰”为2020世界人工智能大会云端峰会创作了主题曲《智联家园》,这首作品从作词、作曲到编曲,再到演唱和MV制作,均由“小冰”独立完成,其音乐的可听性及基本逻辑已相当成熟。可以发现,在高度数字化的当下,搭载AI技术架构的应用平台陆续上线,即便是没有音乐基础的用户也能轻松地将自己的创意进行艺术转化。

回顾AI作曲技术的发展历程,从2016年谷歌Magenta项目的推出,到JukeBox、MusicLM、Suno等项目的相继问世,AI作曲技术得到了相当程度的完善。我们需要对AI作曲的基本流程有一个概念性的理解。AI技术生成的音乐创作过程大致可以分为“数据收集”“数据预处理”“特征提取”“训练阶段”“生成新的音乐作品”“评估和优化”。在这个线性流程中,如何有效地收集数据并进行提取分析,是AI音乐创作面临的挑战。

谷歌最早运用到的音乐人工模型Magenta标志着音乐AI技术进入神经网络模型时代。Magenta系统是一个开源的深度学习音乐项目,由谷歌公司开发。该项目旨在提供预设好的音乐人工智能模型样例,以便用户进行音乐创作。从该项目的推出及实际应用来看,Magenta系统对音乐艺术在机器学习中的融合及协同应用进行了深入的探索研究。该系统的技术核心是基于TensorFlow构建的,由Google Brain团队负责主要开发。Magenta系统的音乐处理方案非常完备,对于MIDI等数字化音乐媒介有着极高的适配性。谷歌团队一直致力于对Magenta系统进行维护与开发,作为一个开源项目,Magenta可以在网络上找到完整的使用源代码。为了降低用户学习的门槛,主创团队在项目的编写中加入了详尽的注释,并提供了大量供初学者快速上手体验的预设。谷歌团队在Magenta系统中对作曲、编曲的细节处理,为用户提供了直观且多样的选择。用户可以通过种类丰富的预设参数辅助自己完成音乐作品。在实际操作中,用户仅需调节系统内预设好的参数,便能在短时间内获得期望的音乐作品。即便对音乐知识一无所知,用户也能顺畅地使用该系统进行音乐创作,显著降低了音乐制作的门槛及成本,使得“作曲”技术得以普及至大众化的层面。

Magenta系统的使用界面

Magenta系统作为AI音乐生成的代表性产品,其理念已属数年前。近年来,谷歌公司推出了众多创新的AI音乐产品,如2023年发布的AI模型——MusicLM。该模型能够从文本或图像中直接生成高保真的音乐,这意味着我们可以将一段文字或一幅图画作为基础,转化成风格多样的音乐作品。MusicLM最初的版本于2023年初发布,即便在基础阶段,也已在音乐界引起了巨大反响。MusicLM的问世,标志着音乐生成技术正朝着更高级别的艺术创作和智能方向迈进。基于MusicLM的技术加持,谷歌与大阪大学以及其他机构合作,共同开发出了“基于大脑活动生成音乐的模型”——Brain2Music。该模型已经可以利用fMRI(功能性磁共振成像)技术测量音乐试听者的大脑活动,利用大脑内的数据来生成音乐。目前,市面上的主流AI音乐软件拥有庞大的用户群体,这些用户在软件的使用过程中积累了大量数据,为人工智能模型提供了持续学习和改进的基础,从而创作出更优质的音乐作品。

Suno是一家专注于AI技术的公司,汇集了众多音乐艺术家和人工智能专家。他们研发的Suno人工智能音乐生成平台是目前的主流AI音乐创作平台之一。Suno平台提供给用户两种主要的音乐生成模式:第一种是描述型模式,系统会要求用户提供一定的音乐描述,用户需要尽可能准确地阐述想要的音频效果。系统在接收到用户指定的效果描述文本后,将根据这些描述自行生成歌词和音频文件。由于音乐素材随机性较大,用户对期望音频效果的描述准确性将直接影响音乐生成的最终质量。第二种为自定义模式,用户可以提供特定的歌词,并指定风格和乐器而生成音乐。此外,该模式也支持生成纯音乐的作品(无需歌词)。

Suno应用平台社交主页

Suno平台的自定义模式音乐生成界面设计简洁明了,为用户提供了窗口,以便输入歌词、曲式、曲风等关键信息。在该模式下,用户提供的文本信息需遵循传统歌曲歌词的写作规律,即按照[Intro](前奏)、[Verse]主歌、[Pre-Chorus]副歌前奏、[Chorus]副歌/高潮、[Bridge]桥段、[Rap]说唱、[Outro]尾声的格式进行。该系统支持多种语言歌词输入,包括英语、日语和韩语。若用户需要纯音乐作品,也可以通过Instrumental选项进行选择。Suno平台实现了歌词、人声、和声、乐器和节奏等信息一次性生成的可能性,生成的作品具有很高的可听性。在研究初期,该平台创始人Mikey Shulman致力于AI的语音转录技术研究。由于他和合作伙伴是音乐发烧友,他们逐渐将AI技术运用于音频作品的生成中。

Suno团队于2023年4月发布的首个开源的文本语音交互模型Bark,已经可以开创性地加入一些音乐、音效等声音效果。在该模型推出后,许多尝试者进行了音乐生成的实验。基于Bark模型,该团队于7月开发了名为Chirp的人工智能生成模型,相较于Bark,Chirp增加了人声素材的生成功能。两个月后,该团队发布了Suno Chirp V1,并邀请用户入驻社区频道,利用文字生成音乐素材。用户的积极反馈使Mikey Shulman认识到,人们对音乐生成的需求巨大,生成式AI在音乐创作领域具有广阔的前景。因此,Suno网页版于同年12月问世,其Suno插件被集成到微软的Copilot中,吸引了更多人的关注。2024年2月,Suno与英伟达合作,共同推出全新的音乐模型Parakeet。3月,Suno V3版本发布,其音乐生成的效果和质量令人赞叹。Suno支持大量的语音文本,包括粤语和四川方言等,在AI音乐领域掀起不小的轰动。

2024年2月,Mikey Shulman应邀录制了EverydayAI播客,他在节目中阐述了对当前AI作曲技术的看法与见解,特别提到了TTS技术在音频生成领域的应用,并对音乐生成领域面临的一些关键问题进行了深入探讨。AI技术在音乐创作中不仅需要模拟复杂的曲式结构,还需要有机学习和声、旋律、节奏等元素的合理编排,尤其是歌曲类作品还要考虑音乐与人声的结合。虽然组合这些元素并不困难,但要创造出符合人们接受的音乐艺术逻辑,是当前AI技术面临的巨大挑战。

近年来,众多国内AI音乐创作平台也逐渐进入公众的视野,昆仑万维推出的国内首款公开的AI音乐生成大模型“天工SkyMusic”便是其中之一。天工SkyMusic向大众公开的免费编辑界面干净整洁,用户可以快速直观地创作并得到想要的音乐作品。天工SkyMusic支持生成80秒、44100Hz采样率的双声道立体声歌曲作品,其音乐风格众多,尤其是针对演唱技巧,天工SkyMusic的模型已经可以生成歌剧、男女对唱等音乐形式;生成颤音、和声等复杂的演唱效果。目前,该大模型已于2024年4月向公众开放,这无疑也是中国AI音乐探索发展道路上的一次伟大突破。

天工SkyMusic编辑界面

三、AI作曲技术的探索与创新——以上海音乐学院的教学实践为例

笔者秉承上海音乐学院(简称“上音”)“教—创—演—研”一体化教学理念,在教学实践中不断探索AI作曲的应用,在近年取得了诸多研究成果。上音团队致力于中国民族乐器的器乐旋律生成和人工智能声音疗愈方面的技术研究,并成立了SHCM-AIME团队。

在中国民族器乐的研究与开发方面,笔者和项目团队共同开发了上海音乐学院非遗传承中心虚拟博物馆,采用AR虚拟影像与人工智能音色库采样建设技术,目前在国内外艺术院校及非物质文化遗产创新中心的虚拟实验室建设中处于领先地位。音色库的建立使得非物质文化遗产中的音乐文化得以通过数字化的方式保存下来,有效发挥了保护、传承和发展的功能。通过AR技术与虚拟现实眼镜的结合,用户可以沉浸式体验非物质文化遗产乐器的魅力。音色库采样与3D空间音频技术的融合,为用户创造了一个全维度的虚拟空间,用户可以真实感受非遗艺术的魅力。此外,该虚拟博物馆不仅仅限于展示功能,还整合了AI音乐训练与创作模型技术,通过对庞大的音频数据库进行训练,该系统能够根据用户的选择生成中国传统乐器的MIDI音乐素材。目前,该模型已能支持二胡、板胡、中阮、柳琴、扬琴、琵琶、古筝、竹笛、唢呐、笙等多种中国民族器乐的单旋律编写。通过训练,所生成的旋律不仅具有明显的调式调性,在听觉上也颇具吸引力。项目团队计划在不久的将来推出重奏、小乐队等多声部民乐的生成与编写功能。

虚拟博物馆中的AI音乐训练与创作模型程序

笔者及上音团队正致力于探索AI技术应用于数字音频工作站(DAW)软件的研究。Soundbug是一款由国内团队研发的数字音频工作站系统软件,上音团队参与研发工作。尽管在早期推出时,与Cubase、Logic等主流DAW软件相比,Soundbug尚显青涩,但凭借研发团队极高的技术研发能力,Soundbug已在2024年发布V3.2.1版本。该版本内置了超过六百种的虚拟乐器,可以运用超过六百段的经典乐段,支持VST和VST3插件的使用。Soundbug不仅是一款成熟的DAW软件,还能够进行常规的音乐创编和音频录制工作,其最大的特点在于集成了AI一键编曲功能。该软件通过AI一键编曲功能,已能自动生成钢琴、吉他、贝斯、鼓四条音轨(Track),从而组成一个完整的乐曲片段。值得注意的是,AI一键编曲功能不仅展现了这些乐器的写作织体,还涵盖了多种乐器组合的和声等音乐要素。尽管在音乐专业人士看来,整体编排略显稚嫩,但作品产生的最终效果符合流行音乐的基本构架。

AI一键编曲功能生成的音轨展示

在声音疗愈方面,笔者和团队也作出了诸多的探索。SHCM-AIME团队致力于将传统音乐与尖端的AI技术相结合,为大健康产业带来创新动力,涉及到声音疗愈、音频与脑电波的协同性,以及白噪音与神经调节的有机关系等领域。团队与各大医院紧密合作,所开发的系统致力于研究以声音疗愈作品为主的声音模型。在设计理念上,我们主要依赖于大量MIDI数据的持续训练,使模型生成相应的音频程序。目前,该系统仅限于内部音频的产出,未来计划将功能扩展,向广大用户开放。通过运用该系统,SHCM-AIME团队取得了诸多成果,包括与上海市龙华医院合作推出的《现代冥想辅助医疗人员抗疫专辑》(一、二、三、英文版)、天猫“声睡计划”、云上二十四节气音乐展演等项目。值得一提的是,SHCM-AIME团队与费迪曼逊四维公司共同开发了以AI技术为辅助的现代化音乐视听环境。目前已在上海政法大学试点试行了声音疗愈视听室,以AI音频系统为向导主推定制化音乐康疗服务,致力于让用户得到身临其境的音乐环境,享受沉浸式体验。此外,SHCM-AIME的研究成果同样致力于投入到实际的排练厅建设之中,尤其是将AI技术与WFS电子声罩系统(Wave Field Shell)相结合。目前,上海音乐学院民乐排练厅已采用了WFS电子声罩系统,有效地解决了各种声学挑战。在改造前,上音民乐系的排练厅在物理空间属性和形制上存在局限:排练厅的场地太小,乐队几乎占满了整个空间。纵观音乐厅原始的布局,并未采用良好的声学处理,空间限制导致了明显的驻波效应,进而影响了整个排练厅的清晰度和声音平衡性。特别是对于近距离演奏的乐器(如二胡、唢呐),其声音无法清晰辨别,进而整个乐队演奏时造成“闷罐子”的声音效果。在音乐声学上,房间大小决定了一次反射声(早期反射)对声音的影响。由于排练厅过于狭小,一次反射声太近,使得整个声音听起来像在一个罐头盒子里演奏一样。这不仅对日常教学活动造成了一定的阻碍,而且对排练工作的艺术效果产生了不利影响。根据WFS算法的要求,团队在四周墙壁和天花板上设计了3D布局的电子反声板阵列,四周墙壁上安装了40个12单元面阵列电子反声板,天花板上安装了两层设计有10块12单元面阵列电子反声板,共计624个发声点,形成了无形的WFS电子声罩。通过吊装的电子声罩拾音器系统,根据演奏效果,实时生成并3D反馈目标厅堂的空间声学反射。使用电子声罩系统进行排练,会使排练效果接近演出环境,提供预先体验,并允许即时调整,以改善排练与演出在声学效果上的一致性。值得一提的是,该系统已加载AI算法,通过搭载不同的分析模型,可实现声场调节的自动化。目前,该技术已在上海音乐学院民族音乐厅试行,期待其不断取得新的进展。

声音疗愈视听室

上海音乐学院民乐排练厅的WFS电子声罩系统

研发应用的12单元面阵列电子反声板

2024年11月,上海音乐学院人工智能音乐疗愈重点实验室正式成立,通过积极开展科学研究,产生科研成果,促进成果转化,创新发展教育教学及学科建设工作,努力为社会培养优秀的跨学科复合型人才。在技术的不断开拓创新中,该实验室将AI作曲技术与音乐疗愈相结合,致力于艺术、医学、科技的交叉融合。在具体的工作研究中,该实验室将AI作曲技术融汇到音乐疗愈、声音脑科学、嗓音艺术学、嗓音健康建设等方面的研究中,将AI作曲技术进行立体化的延伸。例如实验室正在研发的声音疗愈胶囊(Sonic Therapeutic Capsule)项目可以根据用户的专属信息(例如出生日期、地域特征等),为用户提供沉浸式空间音频声音疗愈体验,采用WFS波场合成全息声电子声罩技术,通过特定频率和空间方位的声音刺激,精准调节皮肤和大脑的感知,帮助用户进入深度冥想的状态,从而达到全面的身心放松。

AI技术、AI作曲技术还可以被运用于诸多传统艺术研究中,甚至是非遗艺术研究中。实验室也通过“AI+”网络赋能,进行中国传统音乐传承与发展的大思政探索,建设上海音乐学院非遗传承人工智能训练数据库及虚拟博物馆。目前团队已经采集了上海音乐学院的民乐非遗艺术样本在不断进行训练,希望能够为非遗的保护与传承作出一定的贡献。

上海音乐学院非遗传承中心虚拟博物馆——浙派古筝艺术馆

结语

AI作曲技术能够运行的一个核心理念在于“Learning”,即学习,主要是通过神经网络进行深度学习,反复通过数据分析和模型训练获得成果。这些成果不仅令人惊叹,也引发了关于艺术与科技平衡性的深刻思考。早在2016年,剑桥大学教授在GitHub网站上公开发表过一个Bachbot项目。作为一个开源项目,Bachbot产出的音乐作品从可行性以及作品的编排上,已经具有巴赫音乐作品的显著特征。可以预见,在模型持续优化和数据量不断增长的条件下,Bachbot项目产出的作品将越来越接近真正的巴赫作品。

学术界和艺术界对AI技术与艺术共存的问题一直存在争议,也有不少人悲观地认为,AI作曲技术的不断发展将对音乐家的地位造成一定冲击。笔者认为,音乐的发展与科技的进步是相辅相成的。从传统音乐到电子音乐,从纸笔作曲到电子设备作曲,科技的进步一直是艺术发展的推动力。AI技术的出现,势必会对音乐艺术的发展产生冲击,但作为当代音乐艺术工作者,我们不该排斥新技术的诞生,而应思考如何将崭新的技术运用到艺术创作中,以创作出更精彩的作品。

关于AI音乐的艺术性,每个人看待艺术的角度不同,得到的结果也截然不同。关于AI是否具有艺术性这个话题,笔者不加以更多的定论。在此以笔者的研究生曾经完成的一个AI作曲系统为例加以说明。该系统于2019年完成,算法模型的搭建还较为稚嫩。该研究生构写了一个AI的算法模型,通过云技术不断进行训练后,得到了几个AI单旋律音频。单从听感上,该研究生得到的AI旋律较为单调,乐曲的割裂感非常明显,但是这一段单旋律有#F、#C、#G三个调性音,也就是说,AI通过系统进行训练后,掌握了三升的调性。这种音乐艺术逻辑的不断提升,是AI音乐的不断发展及拓宽。以现代的目光来看,AI作曲不仅仅能够掌握调性,更能掌握风格、配器等复杂的艺术逻辑,这是AI音乐逻辑性的飞跃式发展,也是AI音乐艺术性的表达。

当然,AI作曲具有快速学习的优势,但其始终是建立在音乐内核之上的产物。笔者认为,如果过分依赖AI作曲,会使音乐艺术的创新发展受到一定束缚,两者不应该对立,而是应该以一种相辅相成的方式发展下去,为音乐艺术注入新的活力。笔者相信,未来会有更多的艺术家在其艺术作品中运用到AI技术,为世界带来更多令人瞩目的艺术成果,也期望自己能为AI与艺术的高度融合贡献绵薄之力。

*为方便电子阅读,已略去原文注释,如需完整版本,请查阅纸刊。


作者:刘灏 单位:上海音乐学院

《中国文艺评论》2025年第1期(总第112期)

责任编辑:王璐


☆本刊所发文章的稿酬和数字化著作权使用费已由中国文联文艺评论中心给付。新媒体转载《中国文艺评论》杂志文章电子版及“中国文艺评论”微信公众号所选载文章,需经允许。获得合法授权的,应在授权范围内使用,为作者署名并清晰注明来源《中国文艺评论》及期数。(点击取得书面授权

《中国文艺评论》论文投稿邮箱:zgwlplzx@126.com


延伸阅读:

刘灏 | AI作曲技术的创新实践与研究(“中国文艺评论”微信公号)

2025年《中国文艺评论》杂志重点选题参考

2025年《中国文艺评论》杂志征订启事

《中国文艺评论》来稿须知

《中国文艺评论》2025年第1期目录




  • 中国文艺评论网

  • “中国文艺评论”微信公号

  • “中国文艺评论”视频号

Baidu
map