google语音数据集（谷歌开放大规模音频数据集）

說愛莫調情 2023-05-05 10:55:21

选自Google Research

机器之心编译

参与：李亚洲、晏奇、微胖

近日，谷歌开放了一个大规模的音频数据集 AudioSet。该数据集包含了 632 类的音频类别以及 2084320 条人工标记的每段 10 秒长度的声音剪辑片段（包括 527 个标签）。此项研究论文已发表于最近正在新奥尔良举办的 IEEE ICASSP 2017 大会上。

项目地址：https://github.com/audioset/ontology

AudioSet 包含了 632 类的音频类别以及 2084320 条人工标记的每段 10 秒长度的声音剪辑片段（片段来自 YouTube 视频）。音频本体 (ontology) 被确定为事件类别的一张层级图，覆盖大范围的人类与动物声音、乐器与音乐流派声音、日常的环境声音。

图：音频本体类别

通过发布 AndioSet，我们希望能为音频事件检测提供一个常见的、实际的评估任务，也是声音事件的综合词汇理解的一个开端。

大型数据收集

该数据集收集了所有与我们合作的人类标注者从 YouTube 视频中识别的声音。我们基于 YouTube 元数据和基于内容的搜索来挑选需要标注的片段。

在我们的音频本体中，得到的数据集在音频事件类上有极好的覆盖。

图：每类别样本的数量

在我们 ICASSP 2017 论文中音频本体和数据集的构建有更加具体的描述。你可以在我们 GitHub 知识库中为音频本体作更多补充。数据集与机器提取特征（machine-extracted features）已可以下载 https://github.com/audioset/ontology

此项研究成果已经以论文的形式发表在了 IEEE ICASSP 2017 大会上：

论文：Audio Set: An ontology and human-labeled dataset for audio events

摘要

音频事件识别，类似人类识别音频事件并进行关联的能力，是机器感知研究中的一个新生问题。类似问题，比如识别图像中的目标研究已经从广泛数据集——主要是 ImageNet 中获益匪浅。这篇论文描述了大规模人工标记音频事件数据组 Audio Set 的建造过程。该数据组旨在弥合图片和音频研究之间存在的鸿沟。使用文献和人工管理指导下精细建构起来的 635 个音频类别的层级本体，我们搜集了源自人工标记者的大量数据，探查特定音频类别（10 秒时长的 YouTube 音频片段）的现状。建议使用基于元数据、文本（比如链接）以及内容分析的搜索对这些片段进行标记。结果，我们获得了一个宽度和大小都史无前例的数据集，我们希望它能实质上促进高水平音频事件识别程序的发展。
,

展开全文

免责声明：本文仅代表文章作者的个人观点，与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺，请读者仅作参考，并自行核实相关内容。文章投诉邮箱：anhduc.ph@yahoo.com

猜您喜欢

苹果ios10.3.3系统怎么样（苹果ios10系统怎么样）

妳與曾經
手机拍出王家卫风格（手机如何拍摄王家卫风格）

花城旧梦
射雕英雄传音乐最新版（电视原声音乐推荐-射雕英雄传版本盘点）

佐扌徳温度
无人自动洗车机多少钱一台（全自动电脑洗车机设备无人值守智能洗车机价格）

唔还想妳
如何自己搭建内网穿透（内网穿透工具使用总结）

君臣绯月流
萨尔图机场接机在哪等待（萨尔图机场开通）

我爱你更多
奈何boss要娶我第二部20集免费看（搜狐开年新剧奈何BOSS要娶我将于1.17上线）

左秋安小雨

秒懂生活

google语音数据集（谷歌开放大规模音频数据集）

猜您喜欢

苹果ios10.3.3系统怎么样（苹果ios10系统怎么样）

手机拍出王家卫风格（手机如何拍摄王家卫风格）

射雕英雄传音乐最新版（电视原声音乐推荐-射雕英雄传版本盘点）

无人自动洗车机多少钱一台（全自动电脑洗车机设备无人值守智能洗车机价格）

如何自己搭建内网穿透（内网穿透工具使用总结）

萨尔图机场接机在哪等待（萨尔图机场开通）

奈何boss要娶我第二部20集免费看（搜狐开年新剧奈何BOSS要娶我将于1.17上线）

热门推荐

排行榜