Chinese Podcasts Dataset - 中文播客语音数据集

背景

最近的两年中,语⾳⽣成研究在各种⽣成模型和⼤规模训练数据的推动下取得了显著进展。像Bark、XTTS、ChatTTS、fish-speech等模型通过⼤幅扩展数据集和模型规模,在(零样本)语⾳⽣成⽅⾯取得了⻓⾜进步,在学术数据集上实现了⾼相似度、⾼⾳质和⾼⾃然度。然⽽,⽣成的语⾳仍然⽆法完全模仿现实世界中⼈类的⾃然语⾳。

这⼀局限性的主要原因之⼀是当前的语⾳⽣成模型主要基于有声读物等正式朗读⻛格的语⾳数据集进⾏训练。然⽽,现实中的⼈类语⾳,尤其是在⽇常对话中,很少遵循这种标准化的模式。相反,它展现出更多样化和⾃发的说话⻛格,包括呼吸、停顿、重复、语速变化和情感变化等特征。因此,亟需⼀个包含更多样化语⾳⻛格的新数据集,以推动该领域向⽣成更⾃然、更接近⼈类的语⾳⽅向发展。

我们发现由于高质量语音数据集的稀缺，许多模型通过爬取影视网站的资源来增加数据的多样性。然而，这些数据的质量无法得到保障，并且存在潜在的法律风险。

鉴于此，我们构建了一个已获得授权用于AI模型训练的中文播客数据集。该数据集依托中文播客领域最大的独立第三方内容托管平台声湃®的数据和主播授权，为研究人员提供了一个多样化、高质量的中文播客资源。

愿景

这个数据集的创建，承载着我们对语音生成技术未来的美好期望。我们希望通过这一多样化、高质量的中文播客数据集，推动语音生成技术向更自然、更贴近人类真实对话的方向发展。我们坚信，研究人员会利用这个数据集，开发出更加自然和富有表现力的语音合成模型，从而在各种应用场景中带来更出色的用户体验。

作为创作者服务平台，我们深刻理解创作者在AI时代的诉求和困扰。我们怀着对创作者的尊重与感激之情，仅在获得内容创作者授权的前提下提供数据，并通过费用分成和AI服务转化等形式，坚持与创作者分享AI时代的红利。

公开评估数据集概览

该数据集是对公众开放的最小数据集，以此来展示数据的多样性和高质量，以及为研究人员提供一个评估数据集的机会。本数据集可申请免费下载，但需遵守数据使用协议。

授权播客数量

节目期数

总时长

4.66小时

条目数

1606对

全量数据集概览

全量数据集可在申请并付费后使用。我们尊重内容创作者的权利，您支付的费用中有一部分将会分配给内容创作者。

授权播客数量

200+

节目期数

26000+

总时长

8万小时+

主要特点

多样化数据来源

包含各种类型的播客节目,涵盖日常对话、专业讨论、故事叙述等多种场景。

自然语音特征

保留了真实人类语音的自然特征，如呼吸声、停顿、语速变化等。

情感丰富

包含各种情感表达,从平静叙述到激烈讨论,反映了真实对话中的情感变化。

高质量录音

使用专业设备录音，并在经过声学处理的录音室中录音，确保最小的环境干扰。

高质量音频

我们的音频直接来自节目制作方的原始母带版本。

高质量处理

我们开发了一套高效的预处理流程,能够有效去除背景噪音、音乐,并提取单一说话人的语音片段。

可观的规模

总时长超万小时，持续邀请更多播客加入，为大规模模型训练提供充足数据支持。

完善的标注

每个音频片段都配有准确的文本转录，便于模型训练和评估。

清晰的授权

所有数据均获得合法授权，避免了版权问题。

公开评估数据集音频长度分布

公开评估数据集质量

音频质量 (DNS-MOS P.835 OVRL)

指标	数值
最小值	1.25
最大值	4.69
平均值±标准差	3.18±0.79

ASR识别质量

指标	数值
字符错误率 (CER)	1.23%

注：字符错误率 (CER) 是通过抽取前100条音频，人工转译文本与原始转译文本进行计算得到。

背景

愿景

公开评估数据集概览

授权播客数量

节目期数

总时长

条目数

全量数据集概览

授权播客数量

节目期数

总时长

主要特点

多样化数据来源

自然语音特征

情感丰富

高质量录音

高质量音频

高质量处理

可观的规模

完善的标注

清晰的授权

公开评估数据集音频长度分布

公开评估数据集质量

音频质量 (DNS-MOS P.835 OVRL)

ASR识别质量

已授权的播客

津津乐道

不叁不肆

科技乱炖

津津有味

记者下班

拼娃时代

品质生活

厂长来了

安全出口FM

Web Worker

津津乐道

不叁不肆

科技乱炖

津津有味

记者下班

拼娃时代

品质生活

厂长来了

安全出口FM

Web Worker

津津乐道

不叁不肆

科技乱炖

津津有味

记者下班

拼娃时代

品质生活

厂长来了

安全出口FM

Web Worker

开始使用