Meta音频AI三件套爆火：一句话生成音乐音效，还能高保真压缩音频-家维网「半小时极速上门」

Meta音频AI三件套爆火：一句话生成音乐音效，还能高保真压缩音频

萧箫发自凹非寺量子位 | 公众号 QbitAI

Meta突然放大招，直接给一系列音频AI模型搞了个“全家桶”。

从文本生成音乐、文本生成音效、到高质量音频压缩，音频编辑和音频生成的AI工具全都有，命名为AudioCraft。

AudioCraft中的所有模型，全部开源。

值得一提的是，Meta刻意强调自己所有AI的训练数据都是经过授权、或是从公开渠道获取的。

有网友闻讯赶来尝试：

这太疯狂了，刚刚试了一下，生成的声音效果真不错！

还有网友调侃，Meta这是要与OpenAI“划界限”：

很明显，Meta试图将自己与OpenAI区分开来，“我们不使用没授权的数据”。

所以，这个音频AI“全家桶”里有些啥，实际生成编辑效果又如何？

从生成到编辑，音频AI三件套

AudioCraft是一个音频AI开源库，目前包含MusicGen，AudioGen和EnCodec三个音频AI工具。

据Meta介绍，为了发布AudioCraft，他们这两天还特意更新了一版EnCodec模型，让它的输出质量更高。

具体来说，这三个模型分别用于文本生成音乐、文本生成音效和音频压缩：

MusicGen：基于文本输入生成音乐，使用Meta拥有和专门授权的音乐进行训练
AudioGen：基于文本输入生成音效（雨点声、狗吠、警笛等），使用公共音效训练
EnCodec：压缩音频，以较低的音损保持音频的高质量

首先是AudioGen，这是一个自回归生成模型。

AudioGen基于10个公开的音效数据集训练，里面包括狗吠、汽车鸣喇叭或木地板的脚步声等各种音效。

然后是MusicGen模型，一共包含300M、1.5B、3.3B三个不同参数量的自回归Transformer。

MusicGen使用了20000小时的音乐来训练，包含10000条内部搜集的高质量音轨，以及ShutterStock和Pond5素材库中的数据，后两者的数据量分别为2.5万和36.5万。

这些音乐数据在32kHz下被重新采样，都配有流派、BPM等基本信息和复杂一些的文字说明。

最后是EnCodec神经音频编解码器（neural audio codec）。

编码器能从要压缩的音频信号中学习离散的音频token；随后，基于一个自回归语言模型，将音频信号压缩到目标大小；最后，基于解码器，就能将压缩的信号高保真重建回音频。

基于这种压缩效果，音频能被压缩到比MP3格式还要小10倍。

可直接上手试玩

目前这几个模型都已经开源，框架都是基于PyTorch打造。

包括MusicGen、AudioGen和EnCodec的论文细节，可以在GitHub项目中找到：

不过，训练代码并非全部开源，目前可以看到只有EnCodec、MusicGEN和Multi Band Diffusion是开源的：

其中MusicGEN还开启了Demo试玩，我们之前也测试过：

不过对于AudioCraft的发布，网友们的评价也是褒贬不一。

有网友觉得，这样音频生成就变得更加大众化了，所有人都可以上手尝试：

但也有网友认为，这势必导致人类连音频的真假都区分不清：

10年后，说不定我们就分辨不清过去的声音、图片、视频了。

One More Thing

最近，音频生成AI确实很火，就连效果都卷起来了。

这两天，一个论文和代码都还在准备的模型AudioLDM2，刚放出demo就已经在网上传开了来：

作者Haohe Liu表示，这个模型在生成音效、音乐和可理解语音三个领域中均达到了SOTA。

感兴趣的小伙伴们，可以蹲一波后续了~

MusicGEN试玩地址：https://huggingface.co/spaces/facebook/MusicGen

参考链接：[1]https://ai.meta.com/blog/audiocraft-musicgen-audiogen-encodec-generative-ai-audio/[2]https://github.com/facebookresearch/audiocraft[3]https://twitter.com/LiuHaohe/status/1686782804518973440[4]https://news.ycombinator.com/item?id=36972347

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

标题：Meta音频AI三件套爆火：一句话生成音乐音效，还能高保真压缩音频

地址：http://www.cdaudi4s.com/gzdm/34908.html

Meta音频AI三件套爆火：一句话生成音乐音效，还能高保真压缩音频

什么牌子壁挂炉省气(壁挂炉省气品牌推荐：节能高效，安全可靠的选择)

怎样查空调的代码(简单易懂的方法分享)

南宁青秀约克YORK空调服务热线(空调移机怎么操作图文)

英媒：数十名雇员在为女王后事忙碌时，查尔斯国王却要裁掉他们

油价下跌！今天3月22日全国油价，预计国内油价或将大幅下调550元

三星电视故障代码是什么问题(如何诊断和解决)？

杜兰特拿捏气质！一天15消息：詹姆斯克莱训练，字母哥太霸气了

三星折叠新机Galaxy Z Fold 5细节曝光：将采用水滴状铰链

长虹空调故障代码大全(长虹空调故障代码一览，全面解析解决方案)

郑州约克YORK空调官方电话(约克精密空调品牌排名及价格)

聚焦阿尔茨海默病防治四份科普报告正式发布

三菱电子中央空调厂家24小时人工电话(三菱空调怎么拿下来拆卸三菱空调即可

美菱集成灶24小时服务热线电话(美菱集成灶24小时服务热线电话，全天候守护

YORK中央空调全国统一服务热线(约克空调百叶格栅安装公司如何选择靠谱的服务

TOSHIBA空调移机售后服务号码(如何获取TOSHIBA空调移机售后服务的联系号码？)