一种文本生成音乐AI模型的迭代思路

背景Google 发布了一个从文本生成音乐的AI模型-musicLM,演示和论文如下:https://google-research.github.io/seanet/musiclm/examples/可以通过输入具体的文本描述,生成不同风格的高质量音频,也可以通过输入一段哼唱或者口哨,来生成连续性强的长音频。论文中提到了研究过程中的一些挑战:音频-文本的高质量标注数据稀缺对音频的文本描述相比对图片的文本描述要更困难音频是有时间维度结构的,标注更困难生成连续音频是有难度的利用了两个已经成型的项目( AudioLM 和 Mulan ),以及一系列创新的工作,完成了这个模型。文本生成音乐模型...

命定的NFT:一个NFT推荐引擎,通过画画和描述(也可以是星座算命等),找到相似的NFT技术说明:简笔画:图片相似性技术描述:AI 生成图片的技术找相似:图片相似性技术……商业价值:本质上是一个NFT届的蘑菇街,通过有趣的,游戏化的方式,刺激NFT购买,收取交易所分成、NF...

两种社区类型:1.白名单共识社区,只对极少数主题达成共识,并在此基础上运营社区2.黑名单共识社区,只排除极少数主题,在其他所有事情上要求共识,并在此基础上运营社区白名单共识社区,如果社区成员在超出共识的主题上发表看法,是一种个体行为;社区管理者不能代表社区在超出共识的主题上...

稀缺到平凡,是一个规模化的过程,技术创业促成这一个“技术大众化”的变化,就面向了更多的客户群体。以数据科学为例,市场已经进入到 “单例/局部” -> “集成/全局”的创新通道上,不是说单例和局部的优化没有价值,而是说当前的情况下,从集成和全局的视角出发,性价比更好。使...

生物进化论中有生存竞争存在三种形态的说法,分别是种内竞争、种间竞争和环境竞争,在创业项目的商业计划书中,也可以清晰看到这三种竞争,是理解项目定位和发展的不同角度,也是创业者和投资人需要达成共识的地方。种内竞争,你死我活,替代从创业项目的角度看,如果功能相似、产品相似、方案相...

为了避免 AI 算法产生偏见和歧视,可能要求穿透审查 AI 算法的基础数据,也就是基于样本可解释性,审查那些用于训练算法模型的被采集标注的样本是否带有偏向性。举个例子,美图秀秀的 AI 修图模型,使用了大量的东方人面部数据,在处理西方人面部时,不可避免会偏向东方人的面部特征...