一种文本生成音乐AI模型的迭代思路
背景Google 发布了一个从文本生成音乐的AI模型-musicLM,演示和论文如下:https://google-research.github.io/seanet/musiclm/examples/可以通过输入具体的文本描述,生成不同风格的高质量音频,也可以通过输入一段哼唱或者口哨,来生成连续性强的长音频。论文中提到了研究过程中的一些挑战:音频-文本的高质量标注数据稀缺对音频的文本描述相比对图片的文本描述要更困难音频是有时间维度结构的,标注更困难生成连续音频是有难度的利用了两个已经成型的项目( AudioLM 和 Mulan ),以及一系列创新的工作,完成了这个模型。文本生成音乐模型...