查看摘要
Emotion is essential in spoken communication, yet most existing frameworks in speech emotion modeling rely on predefined categories or low-dimensional continuous attributes, which offer limited expressive capacity. Recent advances in speech emotion captioning and synthesis have shown that textual descriptions provide a more flexible and interpretable alternative for representing affective characteristics in speech. However, progress in this direction is hindered by the lack of an emotional speech dataset aligned with reliable and fine-grained natural language annotations. To tackle this, we introduce AffectSpeech, a large-scale corpus of human-recorded speech enriched with structured descriptions for fine-grained emotion analysis and generation. Each utterance is characterized across six complementary dimensions, including sentiment polarity, open-vocabulary emotion captions, intensity level, prosodic attributes, prominent segments, and semantic content, enabling multi-granular modeling of vocal expression. To balance annotation quality and scalability, we adopt a human-LLM collaborative annotation pipeline that integrates algorithmic pre-labeling, multi-LLM description generation, and human-in-the-loop verification. Furthermore, these annotations are reformulated into diverse descriptive styles to enhance linguistic diversity and reduce stylistic bias in downstream modeling. Experimental results on speech emotion captioning and synthesis demonstrate that models trained on AffectSpeech consistently achieve superior performance across multiple evaluation settings.
📖 深度解读
一句话总结
这篇论文介绍了AffectSpeech,一个大规模的情感语音数据集,通过细粒度的自然语言描述来支持情感语音标注和合成任务,从而克服了传统情感表示方法的局限性。
研究背景与动机
- 核心问题:现有的情感语音建模框架主要依赖于预定义的类别或低维连续属性,这限制了情感表达的灵活性和解释性。而基于自然语言描述的方法能够更灵活地表示情感特征,但缺乏高质量且细粒度的自然语言注释数据集。
- 重要性:情感是口语交流中不可或缺的一部分,准确理解和生成情感语音对于提高人机交互的自然性和有效性至关重要。
- 现有方法不足:现有的情感语音数据集通常只提供粗粒度的标注,无法捕捉情感强度、显著片段等细节。此外,许多数据集依赖于大语言模型生成描述,缺乏系统的人工验证,导致注释可靠性存疑。
核心方法
- 提出的方法/模型/框架:AffectSpeech,一个大规模的情感语音数据集,包含细粒度的自然语言描述。
- 关键创新点:
1.
多维度注释:每个语音样本在六个互补维度上进行注释,包括情感极性、开放词汇情感描述、情感强度、韵律属性、显著片段和语义内容。 2.
人机协作注释流程:结合算法预标注、多LLM描述生成和人工验证,确保注释的质量和多样性。 3.
多样化描述风格:将注释转换为六种不同的功能风格,以增强语言多样性和减少风格偏差。
- 核心思路:通过多维度的细粒度注释和多样化描述风格,AffectSpeech提供了更丰富和灵活的情感语音数据,支持更复杂的语音情感分析和生成任务。
实验与结果
- 数据集/基准:AffectSpeech包含253,799个真实录制的英语语音样本,覆盖九种基本情感类别,并提供1,522,794条文本描述。
- 基线方法:比较了多种开源和专有模型,包括GPT-4o Audio、Qwen2-Audio、Qwen2.5-Omni等。
- 主要实验结果:
- 在情感语音标注任务中,使用AffectSpeech训练的模型在情感分类(73.25%)、情感强度(45.75%)和韵律属性(65.50%)等方面显著优于其他数据集。 - 在情感语音合成任务中,AffectSpeech也表现出色,WER为4.36%,情感相似度为86.40%,情感多样性为19.91×10^-4。
- 消融实验:展示了不同注释粒度对模型性能的影响,细粒度注释显著提高了模型在情感和韵律方面的表现。
优势与局限
1.
细粒度注释:提供了多维度的细粒度注释,增强了情感表达的复杂性和准确性。 2.
多样化描述风格:通过多样化描述风格,减少了模型对特定模板的过拟合,增强了泛化能力。 3.
高质量注释:结合人机协作注释流程,确保了注释的可靠性和多样性。
1.
计算成本:大规模细粒度注释和多样化描述风格的生成需要较高的计算资源。 2.
数据规模:尽管AffectSpeech已经是一个大规模数据集,但在某些特定情感类别上的样本量可能仍然有限。 3.
文化差异:目前的数据集主要针对英语语音,未来需要扩展到多语言环境。
关键结论与启发
- 最重要的takeaway:AffectSpeech通过细粒度的自然语言描述和多样化描述风格,显著提升了情感语音标注和合成任务的性能,为更复杂的情感语音建模提供了有力支持。
- 后续研究启发:
1.
多语言扩展:将AffectSpeech扩展到更多语言,以支持跨语言的情感语音研究。 2.
更细粒度注释:进一步细化注释维度,例如增加情感动态变化的注释,以支持更复杂的语音情感分析。 3.
实际应用:探索AffectSpeech在实际应用场景中的潜力,如情感感知的人机交互系统和情感语音合成应用。