arXiv 每日论文精读 — eess.AS / cs.SD

eess.AScs.SD

Tsinghua University (QS Top 100, 985, 211)

LoSATok: Low-dimensional Semantic-Acoustic Tokenizer for Cross-Domain Audio Understanding and Generation 跨领域

Zhisheng Zhang, Xiang Li, Yixuan Zhou, Jing Peng, Guoyang Zeng 等 (6 人)

Audio and Speech Processing (eess.AS); Artificial Intelligence (cs.AI); Sound (cs.SD)

📄 Abstract 📥 PDF

查看摘要

Audio tokenizers are fundamental to unifying audio understanding and generation. Understanding requires high-level semantics, while generation demands semantic and acoustic details. Existing unified tokenizers jointly encode both in high-dimensional continuous latents, which increases the modeling burden of Diffusion Transformers (DiTs) for generation. We propose LoSATok, a low-dimensional audio tokenizer for cross-domain audio understanding and generation. Motivated by the observation that 1280-dimensional semantic encoder features are compressible, we introduce a Semantic Bottleneck that compresses them into 128 dimensions, regularized by the proposed time-relation loss for temporal feature consistency. We further design a dual-level semantic supervision method that leverages both high- and low-dimensional semantic signals, enabling the tokenizer to jointly capture semantics and acoustic details within a compact latent space. Experiments on speech, music, and general audio show that SemBo preserves strong low-dimensional semantic capacity and LoSATok retains competitive understanding performance compared with several semantic representations, while consistently improving DiT modeling performance on speech, music, and audio generation. These results demonstrate that LoSATok's low-dimensional representations can effectively support audio understanding and generation. Our code is provided at this https URL .

📖 深度解读

1. 一句话总结

本文提出了LoSATok，一种低维（128维）的语义-声学统一音频分词器，通过压缩高维语义特征并引入双层级语义监督，在保留跨域音频理解能力的同时，大幅降低了下游扩散生成模型（DiT）的建模负担。

2. 研究背景与动机

核心问题：如何构建一个既能支持高层语义理解，又能支持声学细节生成，且对下游生成模型高效的统一音频表征？
重要性：音频理解（如语音识别）和生成（如语音合成）通常依赖不同的模型架构或表征设计，统一表征有助于打破任务壁垒，实现跨域的联合建模。
现有方法不足：现有的统一分词器（如DashengTokenizer）通常将语义和声学信息编码在高维连续潜空间（如1280维）。虽然语义丰富，但这给下游的扩散变换器带来了沉重的建模负担，需要极宽的网络或海量参数才能有效收敛；而纯声学分词器虽然维度低，但缺乏语义，导致生成时文本对齐困难且收敛慢。

3. 核心方法

提出框架：LoSATok（Low-dimensional Semantic-Acoustic Tokenizer），包含两个核心模块：语义瓶颈和双层级语义监督。
关键创新点：
1. 语义瓶颈：通过有效秩和PCA分析，发现1280维的语义特征存在大量冗余，可以压缩。设计了一个压缩-恢复器（轻量级MLP），将高维语义特征压缩至128维。
2. 时间关系损失：在压缩过程中，为了让低维特征直接受到高维特征的监督（而非仅靠重建损失间接约束），提出对齐高低维特征在时间维度上的相似度矩阵，确保时序结构一致性。
3. 双层级语义监督：在训练LoSATok时，同时使用高维语义目标（提供全局语义）和SemBo产生的低维语义目标（提供紧凑直接的约束）来指导声学编码器，使最终的128维统一表征既包含语义又包含声学细节。
核心思路直觉解释：就像把一本厚重的百科全书（高维语义）提炼成一本精华手册（低维语义），提炼时不仅要保证核心知识能还原回去，还要保证知识点之间的前后关联（时间关系）不丢失。然后，在教一个新手（声学编码器）时，既让他看原著的目录（高维监督），又让他背诵精华手册（低维监督），最终让他能画出既有灵魂（语义）又有血肉（声学）的简笔画（128维统一表征）。

4. 实验与结果

数据集/基准：
训练：13.2K小时跨域数据（语音、音乐、通用音频）。
理解评估：XARES基准（15个跨域任务）。
生成评估：TTA (AudioCaps/WavCaps), TTM (MusicCaps), TTS (LibriTTS)。
重建评估：MUSDB18, AudioSet, SeedTTS。
基线方法：EnCodec, UniFlow-Audio, DashengTokenizer, HuBERT, WavLM, Whisper等。
主要实验结果：
理解任务：128维的LoSATok在15个任务上的平均得分（59.30）优于HuBERT和WavLM等1024维以上的SSL模型；其核心组件SemBo（纯语义）得分（70.49）甚至接近1280维的MiDashengLM（75.48）。
生成任务：在相同DiT参数量（208M）下，LoSATok全面碾压高维的DashengTokenizer（215M/322M）。例如在单任务TTS中，LoSATok的说话人相似度（SIM）达0.548，而DashengTokenizer（215M）仅0.015；DashengTokenizer需要975M参数才能达到与LoSATok相当的生成水平。
低维DiT测试：当DiT维度降至128时，纯声学分词器几乎丧失生成能力（CLAP仅0.06），而LoSATok仍保持与高维DiT下声学分词器相当的性能。
消融实验揭示：
时间关系损失（$L_{tr}$）对保持语义理解至关重要，去掉它会导致分类任务大幅掉点。
低维语义监督（$L_L$）是统一表征理解能力的生命线，去掉它理解能力几乎消失；而直接用PCA/通道合并等无训练方法作为监督会导致严重的性能下降。
KL散度权重调优显示，适度的KL约束（$\lambda_{KL}=10^{-2}$）能显著提升生成质量，尽管会牺牲一定的重建保真度。

5. 优势与局限

主要优势：
1. 极高的生成效率：用1/5的参数量实现了超越高维分词器的生成效果，大幅降低了DiT的建模门槛。
2. 跨域通用性强：在语音、音乐、通用音频三大领域的理解和生成任务上均表现稳健。
3. 理论支撑扎实：基于信息冗余分析提出压缩策略，逻辑闭环完整。
局限性：
1. 重建保真度妥协：为了获得低维和强语义结构，LoSATok的音频重建质量明显落后于先进的纯声学分词器（如UniFlow-Audio）。
2. 语义上限受限：虽然优于部分SSL模型，但其理解能力仍未完全逼近高维语义模型（如MiDashengLM），存在语义与声学/生成效率之间的三角权衡。

6. 关键结论与启发

最重要的Takeaway：音频的高维语义表征存在严重的冗余，将其压缩至低维（128维）并注入声学细节，可以构建出对下游生成模型极其友好且不损失跨域理解能力的统一表征。“重建好”不等于“生成好”，适度牺牲重建保真度换取更规整的低维语义空间，反而能大幅提升生成质量。
后续研究启发：
1. 突破三维权衡：未来研究可探索如何在不增加维度的情况下，进一步缩小语义理解上限与重建保真度之间的Gap。
2. 离散化探索：LoSATok目前是连续分词器，如何将这种低维语义-声学结构离散化（例如结合RVQ），以适配自回归大语言模型，是一个极具潜力的延伸方向。
3. 极小DiT架构：低维表征使得极小参数量的DiT成为可能，为端侧/实时的音频生成模型部署铺平了道路。

eess.AS

I Hear, Therefore I Trust: A Socio-Technical Investigation of Humans as Synthetic Speech Detectors

Lelia Erscoi, Tomi Kinnunen

Audio and Speech Processing (eess.AS); Artificial Intelligence (cs.AI); Human-Computer Interaction (cs.HC)

Comments: To be included in Odyssey 2026: The Speaker and Language Recognition Workshop, Session 4.2, 23-26 June, Lisbon, Portugal

📄 Abstract 📥 PDF

查看摘要

Automatic deepfake detection has received considerable research attention, yet the socio-technical environment in which humans actually encounter synthetic speech remains poorly understood. We investigate voice deepfake detection as a perceptual and contextual process, presenting a localization task in which 47 participants marked suspected synthetic segments across authentic, fully synthetic, and partially synthetic utterances under three manipulated trust cues: instructional framing, affective priming, and provenance labeling. Participants provided quality ratings on mechanicalness, expressiveness, intelligibility, clarity, calmness, and confidence of evaluation. Utterance class was the primary determinant of detection accuracy and perceptual quality; trust cues produced no main effects but motivated detection behavior. Fully synthetic speech was detected at below-chance levels. Quality ratings tracked utterance type, indicating implicit discrimination where overt detection failed.

📖 深度解读

1. 一句话总结

这篇论文通过让参与者在不同信任线索下标记语音中的伪造片段，揭示了人类在检测深度伪造语音时表现极差（甚至低于随机猜测），且环境信任线索无法有效提升检测能力，证明了单纯依赖人类把关是不可靠的。

2. 研究背景与动机

核心问题：人类在真实社会情境中检测语音深度伪造的能力究竟如何？环境中的信任线索能否帮助人类更好地识别伪造语音？
为什么重要：随着生成式AI的普及，高度逼真的语音伪造不仅用于传统的系统攻击，更融入日常沟通中（如冒充亲友、权威诱导），这本质上是一个“社会-技术”信任问题。如果人类无法分辨真伪，将严重威胁社会信任基础和信息安全。
现有方法不足：现有的自动检测模型（如ASVspoof挑战赛中的模型）在受控环境下表现优异，但脱离了人类日常决策的语境；而针对人类检测的研究通常只做简单的“真假”二分类，且在实验室中进行，忽略了真实世界中人们接收到的环境上下文线索（如来源标签、情绪状态、任务动机）。这种割裂导致现有研究系统性高估了人类的检测能力。

3. 核心方法

提出框架：将语音深度伪造检测视为一个受环境信任线索调节的社会-技术过程，并提出了一种更具生态效度的合成语音定位任务。
关键创新点：
1. 从“二分类”到“细粒度定位”：不再让受试者简单判断整段音频真假，而是让他们在时间轴上标记出怀疑是伪造的具体片段，从而精准捕捉信任破裂的位置和原因。
2. 引入三类环境信任线索操纵：首次在单一实验中联合操纵了三种上下文变量：指令框架（正向评估新技术 vs. 负向警惕恶意攻击）、情绪启动（看正面图片 vs. 负面图片）、来源标签（标注“来自可信来源” vs. 无标注）。
3. 引入部分伪造语音：除了全真和全假，还混入了“真假拼接”的部分伪造语音，模拟现实中更隐蔽的篡改方式。
核心思路直觉解释：就像让一个人在充满背景噪音的房间里找茬，不仅看他的耳朵灵不灵（声学感知），还要看他被提前告知“这东西可能有危险”（指令框架）、刚看完恐怖片还是喜剧（情绪启动）、或者包装盒上写着“官方正品”（来源标签）后，他的判断会不会受影响。

4. 实验与结果

数据集：LlamaPartialSpoof（包含真实、全伪造、部分伪造语音，混合了真实环境噪音）+ OASIS（用于情绪启动的图片集）。
基线/对比：主要对比不同语音类型（真/全假/部分假）和不同信任线索（正/负向）组合下的表现，以及人群聚合（多数投票）与个体表现的差异。
主要实验结果：
人类检测能力极差：整体准确率仅55.8%（接近随机猜测）。更惊人的是，对于全伪造语音，群体多数投票的准确率竟然是0%（5段全假音频无一被正确识别，全被误认为部分伪造）。
语音类型决定一切：受试者对真实语音判断很准（96.4%），对部分伪造中的真实片段也较准（88.6%），但对伪造片段的识别率极低（全假仅8.3%，部分假中的假片段仅29.3%）。
信任线索无效：三种环境信任线索（指令、情绪、标签）对检测准确率和主观质量评分均无显著主效应。它们仅轻微影响了受试者的决策行为（如花多长时间、是否修改标记），但没提高准确率。
消融实验/深层发现：存在内隐-外显分离现象。虽然受试者“听不出”真假（外显检测失败），但他们在主观质量评分上却能精准排序：真实 > 部分伪造 > 全伪造（内隐感知存在）。这意味着人们潜意识觉得“哪里不对劲”，但这并未转化为正确的真伪判断。此外，受试者普遍过度自信（自信度71.5%，但准确率极低）。

5. 优势与局限

主要优势：
1. 极高的生态效度：通过引入环境噪音、部分伪造、细粒度时间标记和上下文线索，极大拉近了实验室与真实场景的距离。
2. 颠覆性发现：有力驳斥了“提高警惕/提供上下文线索就能帮人防骗”的直觉假设，证明了人类在高级语音伪造面前的彻底无力。
3. 揭示了内隐与外显的脱节：发现了“感觉不对但说不出哪不对”的心理机制，对理解人机信任有深刻启发。
局限性：
1. 样本量与刺激集偏小：仅47名受试者和20段语音，可能限制了对不同合成模型和说话人特性的泛化能力。
2. 生态效度的悖论：实验明确告知受试者任务是“找伪造”，这本身就激发了警惕性；而在真正的“野外”场景中，人们在不知情的情况下受骗率可能更高，因此本实验可能依然高估了人类能力。
3. 信任线索设计的局限：来源标签仅测试了“正向信任标签”，未测试目前政策更倾向的“AI生成”负面披露标签的效果。

6. 关键结论与启发

最重要的Takeaway：人类无法作为语音深度伪造的可靠守门人。即使提供了额外的上下文线索，不仅帮不上忙，反而可能造成认知过载。随着合成技术越来越强，单纯依赖人类判断的防线已经全面崩溃。
对后续研究的启发：
1. 人机协同架构：未来的防御系统不能只靠人（太蠢）或只靠机器（存在偏见且难以建立认知信任），而应探索如何将人类的“内隐感知（觉得不对劲）”与机器的算力结合，设计容错、非二元的联合决策系统。
2. 从“检测”转向“风险场景规制”：既然检测不出来，研究和政策重点应从“如何识别”转向“识别特定高风险应用场景（如金融转账前的语音验证）”并施加监管。
3. “野外”研究范式：亟需设计受试者不知情的真实场景实验，以测量无意识状态下的真实受骗率。

eess.AScs.SD

Nanjing University (985, 211)ETH Zurich - Swiss Federal Institute of Technology (QS Top 100)

Audio-Mind: An Auditable Agentic Framework for Audio Understanding 跨领域

Yucheng Wang, Jing Peng, Hanqi Li, Chenghao Wang, Wenming Tu 等 (9 人)

Audio and Speech Processing (eess.AS); Sound (cs.SD)

📄 Abstract 📥 PDF

查看摘要

Audio agents extend large audio-language models (LALMs) by decomposing audio questions into tool calls, intermediate evidence, and iterative reasoning steps. However, as LALMs become stronger, the key challenge shifts from enabling tool use to determining when agentic evidence acquisition genuinely benefits audio understanding. We propose Audio-Mind, an auditable and pluggable framework for conditional evidence acquisition in audio understanding. Audio-Mind dynamically combines a strong frontend with planner-guided tool use, preserving frontend judgment when initial evidence is sufficient while acquiring bounded external evidence for questions with unresolved evidence gaps. Experiments on MMAR and MSU-Bench show that Audio-Mind outperforms prior audio-agent baselines, reaching 80.4% accuracy on MMAR and 82.8% accuracy on MSU-Bench. A matched-backbone comparison highlights why this design matters: under strong audio frontends, agentic decomposition can become an orchestration bottleneck when the workflow does not preserve the frontend's holistic audio-grounded judgment. Beyond accuracy, Audio-Mind produces higher-quality, auditable reasoning traces that expose uncertainty, tool evidence, and answer rationales, offering a potential basis for more reliable audio-QA annotation and error analysis.

📖 深度解读

1. 一句话总结

本文提出了AUDIO-MIND框架，通过将音频智能体调用工具的行为重新定义为“条件性证据获取”，解决了强大多模态大模型下盲目调用工具反而降低性能的问题，并在提升问答准确率的同时生成了可审计的推理过程。

2. 研究背景与动机

核心问题：在大型音频-语言模型（LALM）能力日益强大的今天，音频智能体何时才真正需要调用外部工具？调用工具是否一定能提升音频理解效果？
重要性：随着Qwen-Omni等强前端模型的出现，模型自身的感知和推理能力已经非常出色。如果智能体依然无脑拆解任务并调用外部工具，不仅可能引入噪声，还可能破坏前端模型原本正确的整体判断，导致“越调用越笨”的编排瓶颈。
现有方法不足：现有的音频智能体（如AudioGenie等）大多基于“工具调用必然带来提升”的假设，将任务强制分解并路由给外部工具。实验表明，在强前端模型下，这种做法不仅未能提升性能，反而因为丢失了前端模型对音频的整体感知而成为系统瓶颈。

3. 核心方法

提出框架：AUDIO-MIND，一个可审计、可插拔的条件性证据获取框架。
关键创新点：
1. 条件性证据获取机制：不再将工具视为默认的执行路径，而是作为补充证据。只有当前端模型感知不足、存在明确的“证据缺口”时，才调用工具。
2. 有边界的工具接口：将工具严格区分为“感知工具”（提取观测，如ASR、音高）和“转换工具”（处理音频，如裁剪、降噪），并明确限定每个工具输出的可信度边界，防止智能体将局部测量过度解读为全局结论。
3. 显式的证据状态与可审计循环：将前端感知、规划器决策、工具输出、定向重听和最终验证分离，所有中间步骤和不确定性都记录在案，使推理路径完全可追溯。
核心思路直觉解释：就像一个经验丰富的医生（强前端LALM）看病，如果一眼就能确诊，就不需要做额外检查（0工具调用）；如果存在疑点（证据缺口），才会针对性地开具特定检查单（调用有边界的工具），甚至让病人拿着检查结果再来复诊（定向重听）。整个过程中，医生的主观判断始终是决策核心，检查只是辅助验证，且所有看病记录（证据状态）都清清楚楚。

4. 实验与结果

数据集/基准：MMAR（广泛的多模态音频问答）和 MSU-Bench（多说话人密集信息理解）。
基线方法：直接推理的强前端模型（Qwen3.5-Omni, Gemini 2.5 Pro），以及同等骨干网络下的音频智能体基线 AudioGenie-Reasoner。
主要实验结果：
AUDIO-MIND在MMAR上达到80.4%，超过Qwen3.5-Omni的78.9%和AudioGenie的70.5%。
在MSU-Bench上达到82.8%，超过Gemini 2.5 Pro直接推理的81.9%和AudioGenie的78.9%。
证明了强前端下，不当的智能体编排（如AudioGenie）反而会拉低直接推理的性能。
消融/行为分析揭示：
按需调用：31.2%的问题在0次工具调用下直接退出，说明框架有效保留了前端判断；工具调用次数越少，前端自身准确率越高（说明规划器成功识别了简单问题）。
增益集中：在需要2-5次工具调用（即前端存在证据缺口）的困难问题上，AUDIO-MIND相比直接推理最高可提升+9.4%。
可审计性：在推理链质量评估（MMAR-Rubrics）中，AUDIO-MIND得分为66.5%，显著高于前端的59.6%。

5. 优势与局限

主要优势：
1. 打破“工具至上”迷思：首次在强音频大模型背景下，论证并实现了“条件性调用”，避免了智能体编排导致的性能退化。
2. 可审计与高透明度：生成的推理轨迹暴露了不确定性、工具来源和决策理由，对错误分析和数据标注极具价值。
3. 即插即用：前端模型、规划器和工具均可替换，框架设计解耦良好。
局限性：
1. 评估场景受限：仅在两个基准上验证，未覆盖长会议分析、音频编辑等真实交互场景。
2. 工具噪声依赖：虽然限定了工具边界，但工具本身（尤其是音乐和声学分析工具）仍可能存在噪声或领域偏差。
3. 延迟与计算开销：引入了规划、工具执行和重听循环，对于简单或延迟敏感的任务，不如直接推理高效。

6. 关键结论与启发

最重要的Takeaway：在强前端模型时代，音频智能体的价值不在于“调用更多的工具”，而在于“获取正确的证据”。如果智能体设计不能保留前端模型的整体感知判断，盲目拆解反而会成为性能瓶颈。
后续研究启发：
1. 动态能力边界估计：本文揭示了前端能力与工具收益的边界是任务依赖的，未来可研究如何自动且精准地预测何时需要外部证据。
2. 可审计智能体的下游应用：本文生成的高质量、可追溯推理轨迹，为构建更可靠的自动化音频QA标注、模型幻觉检测和错误诊断系统提供了新的数据基础。
3. 长尾极端情况的鲁棒性：对于需要极深工具调用链（>10次）的极端困难样本，当前框架存在性能崩塌现象，如何稳定长尾推理是未来的挑战。

eess.AS

Zhejiang University (QS Top 100, 985, 211)

Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios

Changhao Pan, Rui Yang, Han Wang, Zhuan Zhou, Xuming He 等 (15 人)

Audio and Speech Processing (eess.AS)

Comments: Accepted by ACL 2026(Findings). 36pages, 14figures

📄 Abstract 📥 PDF

查看摘要

Recent advances in speech generation have enabled high-fidelity synthesis, yet systematic evaluation of models under long-context conditions remains largely underexplored. A comprehensive evaluation benchmark for long-form speech is indispensable for two reasons: 1) existing test scenarios are often confined to limited domains, creating a significant gap with the diverse downstream applications; 2) existing metrics overlook critical long-text factors such as consistency and coherence, failing to generalize reliably. To this end, we propose Swanbench-Speech, a comprehensive benchmark that decomposes long-form speech quality into specific, disentangled dimensions. SwanBench-Speech has three key properties. 1) Rich speech scenarios: Focusing on long-form speech generation and dialog generation, SwanBench-Speech covers acoustics, semantics, and expressiveness challenges, and consists of 1,101 samples spanning 17 common speech scenarios; 2) Comprehensive evaluation dimensions: Along the acoustics, semantics, and expressiveness axes, SwanBench-Speech defines an automated evaluation protocol with seven metrics to provide a comprehensive, accurate, and standardized assessment; 3) Valuable Insights: Through extensive experiments, we reveal that current models still struggle in highly expressive scenarios and exhibit a notable gap in consistency and hierarchy compared to real recordings.

📖 深度解读

1. 一句话总结

本文提出了一个名为SwanBench-Speech的长语音生成综合评测基准，通过覆盖17种场景的测试集和7个解耦的自动化评估指标，揭示了当前语音模型在长文本生成中虽然音质和准确度达标，但在混响一致性、韵律连贯性和表现力层级上与真实人类语音仍存在显著差距。

2. 研究背景与动机

核心问题：如何系统、客观、全面地评估长文本语音生成（Long-form TTS）模型在多样化场景下的表现。
重要性：随着语音生成从单句向段落级演进，长语音在有声书、播客、直播等下游应用中需求巨大。缺乏可靠的评测标准，会严重阻碍该领域技术的迭代与优化。
现有方法不足：
1. 场景局限：现有测试集多局限于单一领域（如仅新闻或仅单说话人），无法反映真实世界中复杂多样的长语音应用需求。
2. 指标失效：传统的短文本指标（如WER、PESQ）已趋于饱和，且无法衡量长语音特有的时间维度特性（如声学一致性、韵律连贯性、情感起伏层级）。
3. 主观评测不可扩展：人工听音测试虽准，但成本高昂且难以标准化；而现有的多模态大模型评测往往只给粗粒度对比，缺乏细粒度量化指标。

3. 核心方法

提出框架：SwanBench-Speech，一个层次化的长语音评测基准与协议。
关键创新点：
1. 三维挑战解耦：将长语音生成难点解构为声学、语义、表现力三大核心挑战，并据此设计了17个下游场景（如有声书、辩论、体育解说等）。
2. 七大细粒度自动化指标：突破传统只看“音质和准确度”的局限，引入了针对长语音特性的新指标（如混响一致性、韵律连贯性、表现力层级）。
3. 人类对齐验证：通过主观听音测试验证了所提自动化指标（特别是基于大模型评判的指标）与人类感知的高度相关性。
核心思路直觉解释：
评测长语音就像评价一场话剧表演。传统评测只看“台词有没有念错（语义）”和“声音清不清楚（声学保真度）”，但这远远不够。SwanBench-Speech引入的指标更关注“长线表现”：比如演员是不是中途变声了（音色一致性）、舞台的回声是不是忽大忽小（混响一致性）、念长台词时气口和抑扬顿挫自不自然（韵律连贯性），以及有没有表现出从低沉到高潮的情感递进（表现力层级）。为了实现自动化打分，框架结合了传统信号处理（算滑动窗口的方差）和前沿的大语言模型听觉评判（让AI听整段音频给表现力打分）。

4. 实验与结果

数据集/基准：SwanBench-Speech，包含1101个测试样本，覆盖中英双语，平均词长228.6，横跨17个场景。
基线方法：评测了20+个模型，包括开源模型（CosyVoice, F5TTS, VibeVoice等）和闭源旗舰系统（Gemini-2.5-pro, OpenAI-tts-1-hd, ElevenLabs等）。
主要实验结果：
1. 保真与准确度已逼近真人：当前SOTA模型在声音保真度和内容准确率（WER/CER）上已接近真实录音水平。
2. 表现力差距巨大：闭源模型在表现力丰富度上落后真实语音近1个MOS分，在表现力层级上落后0.5分以上。
3. 多说话人混响一致性崩塌：在对话场景中，闭源模型的混响一致性指标（3.36）显著差于真实对话（2.73，注：该指标越低越好），说明模型难以维持全局声学环境的一致。
消融实验/深度分析揭示：
1. AR vs NAR 架构权衡：非自回归（NAR）模型在长序列下鲁棒性好（内容准确率稳定），但表现力“拉胯”（过度平滑）；自回归（AR）模型表现力强，但随着文本变长容易出错（误差传播，如SparkTTS长文本WER暴跌）。
2. 数据质量的致命影响：用短音频数据训练的模型（如SparkTTS）在长文本生成时性能断崖式下跌；用网络爬取的“野生”数据训练会导致混响一致性差；单纯堆数据量会导致表现力“均值化”，缺乏动态起伏。

5. 优势与局限

主要优势：
1. 评测维度全面且解耦：首次系统性地将长语音评测拆解为7个独立指标，精准定位模型短板（如区分了“内容没念对”和“念对了但韵律不自然”）。
2. 场景覆盖广：17个场景的设定极大缩小了实验室评测与真实工业落地的差距。
3. 指标可扩展且对齐人类感知：用大模型（Gemini3-Pro）替代昂贵的人工听音，且通过实验验证了其打分与人类高度相关（SRCC达0.62-0.82）。
局限性：
1. 语言与口音局限：目前仅支持中英双语，未覆盖低资源语言及方言口音。
2. 深层语义评估不足：缺乏对长文本中情感和风格随语义逻辑自然转换的自动化评估框架。
3. 说话人多样性受限：实验中使用的提示音仅来自20个开源说话人，可能引入评估偏差。

6. 关键结论与启发

最重要的Takeaway：当前长语音生成的瓶颈已不再是“说得对不对、清不清”，而是“说得像不像一场真实的长期演讲”——即在长时间跨度下维持声学环境一致、韵律自然连贯以及情感起伏有层次。
对后续研究的启发：
1. 架构演进：未来模型应摒弃单纯的AR或NAR路线，走向“由粗到细”的融合架构，兼顾长程语义连贯与局部生成稳定。
2. 数据策略转型：从“堆量”转向“重质”，特别是需要引入高保真、长上下文的录音数据，并采用课程学习策略（从单句逐步过渡到段落级训练）。
3. 评测即导向：SwanBench-Speech为社区提供了标准靶子，后续长语音模型的研发应针对“混响一致性”和“表现力层级”这两个核心痛点进行专项优化。

eess.AS

MoDAl: Self-Supervised Neural Modality Discovery via Decorrelation for Speech Neuroprosthesis 跨领域

Yuanhao Chen, Peter Chin

Neurons and Cognition (q-bio.NC); Computation and Language (cs.CL); Human-Computer Interaction (cs.HC); Machine Learning (cs.LG); Audio and Speech Processing (eess.AS)

📄 Abstract 📥 PDF

查看摘要

Speech neuroprosthesis systems decode intended speech from neural activity in the absence of audible output, offering a path to restoring communication for individuals with speech-impairing conditions. Current approaches decode predominantly from motor cortical areas, discarding others -- such as area 44, part of Broca's area -- that may encode complementary linguistic information. We introduce MoDAl (Modality Decorrelation and Alignment), a framework that discovers complementary neural modalities through the interplay of two objectives in a shared projection space. A contrastive loss aligns each of several parallel brain encoders with the text embeddings of a pretrained large language model (LLM), while a decorrelation loss prevents the encoders from coalescing to duplicative representations. We prove that these objectives are in productive tension: Contrastive alignment induces transitive modality coalescence, which decorrelation must counteract for the framework to discover diverse neurolinguistic modalities. On the Brain-to-Text Benchmark '24, MoDAl reduces word error rate (WER) from 26.3% to 21.6% compared to the previous best end-to-end method, with the gain from incorporating previously discarded area 44 signals arising entirely from the decorrelation mechanism. Analysis of the discovered modalities reveals functional specialization: Encoders receiving area 44 input capture structural and syntactic properties (sentence length, grammatical voice, wh-words), consistent with the neurolinguistic understanding of Broca's area.

📖 深度解读

1. 一句话总结

本文提出了MoDAl框架，通过在共享投影空间中让对比对齐与去相关两种目标相互博弈，成功从以往被丢弃的脑区（布洛卡区）信号中挖掘出互补的语法神经模态，显著提升了语音神经假体的解码准确率。

2. 研究背景与动机

核心问题：如何让语音神经假体（将大脑活动解码为文本的设备）有效利用运动皮层之外的高级语言脑区（如布洛卡区area 44）的信号？
重要性：对于ALS（渐冻症）或闭锁综合征患者，语音神经假体是他们恢复沟通的唯一希望。提升解码精度和自然度对这些患者的生活质量至关重要。
现有方法不足：现有的解码系统几乎完全依赖腹侧运动前皮层（area 6v）的运动发音信号。尽管神经科学表明布洛卡区参与高级语言处理（如句法、语义），但以往所有工作在处理该数据集时都选择丢弃area 44的信号，因为简单地将这些信号混入单编码器中，不仅无法提升性能，反而会因为信号冗余而干扰音素解码。

3. 核心方法

提出框架：MoDAl（Modality Decorrelation and Alignment），一个用于自监督神经模态发现的框架。
关键创新点：
1. 共享投影空间中的“建设性张力”：将对比对齐损失和去相关损失放在同一个投影空间中。对比损失迫使所有脑编码器向文本表征靠拢，但这会导致“传递性模态聚结”（所有编码器变成冗余的复制品）；去相关损失则专门对抗这种聚结，迫使不同编码器关注文本信息的不同维度。
2. 多编码器架构与层级特征提取：采用三个并行的脑编码器（分别处理area 6v、6v+44、area 44）。主编码器输出细粒度的音素级序列，而新增的编码器则提取句子级的全局向量，作为LLM解码器的条件信号，避免了无监督帧级信号带来的训练不稳定。
3. 理论证明：从数学上证明了对比损失的传递性聚结效应（命题3.1）以及去相关损失在对比平衡点处的最大惩罚效应（命题3.2），为框架的合理性提供了理论支撑。
直觉解释：想象三个学生（编码器）都要把各自的笔记翻译成同一本标准答案（文本对比对齐）。如果不加限制，三个学生最终会抄出一模一样的笔记（冗余）。MoDAl就像一个严格的老师，不仅要求笔记和标准答案对得上，还强制规定三个学生的笔记之间的相似度必须极低（去相关）。结果就是，三个学生只能分工合作：一个专记发音（运动皮层），一个专记语法结构（布洛卡区），最终拼凑出一份完美的综合答案。

4. 实验与结果

数据集：Brain-to-Text Benchmark '24（来自一名ALS患者的颅内神经记录，包含area 6v和area 44的信号）。
基线方法：以往最佳的端到端（E2E）方法（如Feng et al.）、级联方法（Willett et al.）等。
主要结果：
MoDAl-Full在测试集上实现了21.6%的词错率（WER），相比此前最佳E2E方法（26.3%）降低了4.7个百分点。
接近了需要独立语言模型重打分的级联系统性能（15.4% / 23.8%）。
加入area 44信号带来了0.8%的WER下降，且这一提升完全依赖于去相关机制（没有它，area 44毫无作用）。
消融实验揭示：
去相关与对比缺一不可：只有对比没有去相关，效果停留在22.0%；只有去相关没有对比，性能反而暴跌至26.1%。
共享投影空间是关键：如果去相关和对比使用独立的投影头，去相关头会发生“平凡坍塌”（映射为常数来作弊最小化损失），导致去相关失效（WER 22.2%）。
线性探针分析：对发现的模态进行探测，发现area 44编码器确实专精于句子长度、语法语态、疑问词等结构与句法属性，而area 6v编码器更擅长与发音相关的时态和人称特征，完美契合神经解剖学常识。

5. 优势与局限

主要优势：
1. 变废为宝：首次成功利用了以往被全领域丢弃的布洛卡区信号，证明了高级语言脑区在E2E解码中的互补价值。
2. 理论扎实：不仅工程上有效，还通过理论推导和详尽的消融实验清晰解释了“为什么有效”（对比聚结与去相关的张力）。
3. 即插即用且领域无关：该机制本质上是一种多模态解耦策略，可扩展至其他存在信号强耦合的多传感器场景。
局限性：
1. 受限于批大小：对比学习和去相关损失高度依赖大批次（Batch=128）来估计相关性，减半批次会导致收益完全消失，对显存要求高。
2. 编码器数量启发式设定：目前仅使用了3个并行编码器，受限于计算资源，未探索扩展到更多编码器是否能发现更细粒度的模态。
3. LLM适配瓶颈：尝试更大的7B模型时性能反而下降，表明在当前框架下对大模型的QLoRA微调可能存在容量或超参不匹配的问题。

6. 关键结论与启发

最重要的Takeaway：大脑不同区域的信号不应被粗暴地混为一谈。当引入自监督的“去相关”约束来对抗对比学习带来的“同质化”倾向时，模型能够自动发现并分离出大脑中互补的神经模态（如运动发音 vs. 句法结构），从而突破性能瓶颈。
后续启发：
1. 多脑区/多模态扩展：MoDAl的“对比+去相关”范式可直接迁移到其他认知任务的脑机接口（如多区域同时记录的视觉或运动意图解码），以及医疗领域的多传感器生理信号解耦。
2. 神经科学与AI的双向验证：本文展示了AI框架可以发现符合神经科学常识的脑功能分离，未来可反过来利用这种框架去发现尚未被神经科学明确定义的潜在脑区功能分工。
3. 隐私与伦理警示：正如论文安全声明所指，能够挖掘潜在神经模态的能力意味着BCI可能解码出患者不想表达的深层认知状态，未来在系统设计时必须加入更严格的意图过滤和解码开关机制。

eess.AS

KAIST - Korea Advanced Institute of Science & Technology (QS Top 100)

Diffusion Large Language Models for Visual Speech Recognition 跨领域

Jeong Hun Yeo, Chae Won Kim, Hyeongseop Rha, Yong Man Ro

Artificial Intelligence (cs.AI); Computer Vision and Pattern Recognition (cs.CV); Audio and Speech Processing (eess.AS)

Comments: Code: this https URL

📄 Abstract 📥 PDF

查看摘要

Existing Visual Speech Recognition (VSR) systems commonly rely on left-to-right autoregressive decoding, which can force premature decisions on visually ambiguous tokens before sufficient context is available. We propose DLLM-VSR, to the best of our knowledge, the first Diffusion Large Language Model (DLLM)-based VSR framework, formulating transcription as iterative masked denoising with flexible-order decoding. With confidence-based unmasking, DLLM-VSR commits high-confidence positions early and uses the committed tokens as bidirectional context to refine ambiguous ones. To adapt DLLMs to VSR, we introduce a two-stage masked-denoising training strategy that separates visual-to-text content alignment from length modeling. We further observe a performance gap with oracle-length decoding, which assumes access to the true transcript length, indicating that reducing target-length uncertainty can improve DLLM-based VSR. To reduce this gap, we develop length-guided candidate decoding, which uses video duration to construct plausible transcript-length hypotheses, decodes under multiple hypotheses, and reranks candidates using length plausibility and decoding confidence. The proposed method achieves a state-of-the-art WER of 19.5\% on LRS3 using only its labeled training data.

📖 深度解读

1. 一句话总结

本文提出了首个基于扩散大语言模型的视觉语音识别框架DLLM-VSR，通过“先易后难”的置信度引导去掩码策略替代传统的从左到右生成，让模型先确定看清楚的词，再利用双向上下文推断模糊的词，从而显著降低了唇语识别的错误率。

2. 研究背景与动机

核心问题：视觉语音识别（VSR，即唇语识别）中，由于不同发音的唇形极其相似（如/p/、/b/、/m/），导致视觉证据存在高度的固有歧义性。
重要性：VSR对听障人士的无障碍交流、安静环境下的静音通信等场景具有重要应用价值。
现有方法不足：当前主流的VSR系统（包括基于LLM的解码器）均采用从左到右的自回归（AR）解码。这种僵硬的生成顺序迫使模型在遇到视觉模糊的词时必须“硬着头皮”提前做决定，而无法利用后文的语境来修正前文的错误，导致“一步错，步步错”。

3. 核心方法

提出框架：DLLM-VSR，将VSR的转录任务建模为在固定长度画布上的迭代掩码去噪过程。
关键创新点：
1. 置信度引导的灵活解码：打破从左到右的顺序，每步让模型对所有遮罩位预测，把最确信（置信度最高）的词先“写死”，然后把这些确定的词作为双向上下文，去推断剩下模糊的词。
2. 两阶段去噪训练策略：解决DLLM在变长文本生成时的“填充符灾难”。第一阶段只遮盖文本和结束符（专注视觉到文本的对齐，避免被大量无意义的填充符干扰）；第二阶段才加入填充符遮盖（学习序列长度和边界）。
3. 长度引导的候选解码：针对模型不知道该生成多长文本（即画布上内容与填充符的边界在哪）的痛点，利用视频时长预测多个可能的文本长度，并行解码出多个候选结果，再结合长度合理性、解码置信度和迭代效率综合打分重排。
直觉解释：就像做填空题，传统的AR模型是严格从左往右填，遇到不确定的空只能瞎猜；而DLLM-VSR是先把一眼就能看出的简单空填上（比如明显的名词、动词），然后根据这些已确定的上下文线索，再去推导那些模棱两可的空。

4. 实验与结果

数据集/基准：主要使用LRS3（433小时），辅助使用LRS2评估泛化性。
基线方法：全面对比了全监督、自监督以及基于LLM的SOTA方法（如AV-HuBERT + Qwen2.5-7B AR解码器）。
主要结果：
在LRS3（仅用LRS3训练）上，DLLM-VSR取得了19.5%的WER，达到该设定下的新SOTA。
相比同等条件下的AR LLM基线（24.9%），使用AV-HuBERT编码器的DLLM-VSR将WER降至21.9%，误差相对降低12%。
消融实验揭示：
生成顺序的影响：即使是保持从左到右顺序，仅引入双向注意力就能带来提升；而完全并行的置信度解码效果最好，证明了“先易后难”策略的有效性。
长度预测的必要性：仅用第一阶段训练（不学长度），测试时WER会暴涨至188%以上；Oracle长度（真实长度）下WER可达17.7%，说明长度不确定性是主要误差源，而长度引导解码有效缩小了这一差距（20.5% -> 19.5%）。

5. 优势与局限

主要优势：
1. 解码范式契合任务：灵活的置信度优先解码完美契合了VSR中视觉证据不均匀、存在大量模糊音素的任务特性。
2. 双向上下文利用：已确定的高置信度词能为模糊词提供前向和后向的语义约束，大幅减少因局部视觉歧义导致的错误。
3. 速度与精度的平衡：在不使用长度引导时，并行去噪的推理速度（RTF 0.14）优于AR LLM的束搜索（RTF 0.34），且精度更高。
局限性：
1. 长度建模仍有提升空间：尽管长度引导解码缩小了与Oracle长度的差距，但并未完全消除，模型对文本边界的判断仍不够完美。
2. 高精度模式推理耗时：为了追求极致精度而引入的长度引导候选解码（需评估11个候选长度），导致推理时间大幅增加（RTF升至1.53），计算开销较大。

6. 关键结论与启发

最重要的Takeaway：在感知信号存在固有歧义的多模态任务中，打破从左到右的因果生成限制，让模型以“置信度优先”的方式利用双向上下文进行迭代修正，是提升性能的关键。
对后续研究的启发：
1. 扩散模型的变长生成机制：本文通过外部长度预测+候选重排来绕过DLLM变长生成的痛点，未来可探索更内生、更高效的DLLM变长生成机制（如动态画布调整）。
2. 推广至其他模态：这种“先易后难+双向修正”的思路不仅适用于唇语，对于语音识别（音频有噪声时）、手语翻译等存在局部感知模糊的任务，同样具有借鉴意义。
3. LLM微调新范式：将预训练的AR-LLM（如Qwen）改造为DLLM并在特定垂直领域微调，可能成为挖掘LLM双向建模潜力的有效路径。

eess.AS

VAANI: Capturing the language landscape for an inclusive digital India 跨领域

Sujith Pulikodan, Abhayjeet Singh, Agneedh Basu, Nihar Desai, Pavan Kumar J 等 (20 人)

Audio and Speech Processing (eess.AS)

📄 Abstract 📥 PDF

查看摘要

Voice based technologies have the potential to bridge digital accessibility gaps; however, existing datasets fail to capture the linguistic and regional diversity of Indic languages. We present Project VAANI, a large scale multimodal dataset designed to represent India's linguistic landscape across 165 districts. Speech data is collected using image based prompts to elicit spontaneous responses, while images are curated through a separate pipeline covering diverse themes across regions. The dataset undergoes a rigorous multi stage quality control process, combining automated and manual evaluation to ensure high audio quality and transcription accuracy. We release approximately 289K images, 31,255 hours of speech, and 2,043 hours of transcribed audio spanning 105 languages from 28 states and 3 union territories. Many of these languages are represented at this scale for the first time, making VAANI a foundational resource for inclusive speech technology. The dataset enables the development of robust, multilingual, and multimodal models, and supports research in speech recognition, language understanding, and cross-modal learning for underrepresented languages.

📖 深度解读

1. 一句话总结

本文构建并开源了VAANI，一个覆盖印度165个地区、105种语言的大规模多模态（图-音-文）数据集，通过图像引导的自发语音采集和严格的质控，填补了印度低资源语言和方言在语音数据上的巨大空白。

2. 研究背景与动机

核心问题：如何为语言极度多样化、文盲率相对较高的印度构建包容性的语音技术数据集？
重要性：语音技术是打破数字鸿沟的关键，能让不识字或无法使用标准输入法的人群平等享受教育、医疗和政务服务。
现有方法不足：
1. 语言覆盖窄：现有开源印度语料库几乎只关注宪法规定的22种官方语言，忽略了上百种母语和方言。
2. 缺乏地域多样性：传统方法以“语言”为中心，把同一种语言当作单一整体，忽略了同一语言在不同地区、社群间的口音和方言差异。
3. 模态单一：绝大多数语料库只有“语音-文本”对，缺乏视觉基础，无法支持当前主流的视觉-语音-文本多模态大模型训练。
4. 朗读式语音为主：现有数据多为朗读书面文本，缺乏真实世界中自然、随意的自发语音。

3. 核心方法

提出框架：Project VAANI，一个以地区为中心、图像引导的多模态数据采集与质控框架。
关键创新点：
1. 图像引导的自发语音采集：给说话人展示图片，让他们用自己的话描述。这比给文本朗读更自然，对文盲群体更友好，且避免了对话式采集中的社会期望偏差。
2. 地区优先的采样策略：不以语言标签为采集单位，而是以印度165个行政区为基准，从而在同一语言标签下自然捕捉到丰富的地域口音和文化差异。
3. 多模态对齐三元组：构建了“图像-语音-转录文本”对齐的数据结构，为多模态学习（如看图说话、语音检索图像）提供了基础。
4. 严密的自动化+人工多级质控：设计了三级自动化检查（格式、VAD静音检测、SNR信噪比）和严格的人工抽检（由当地专家验证口音、内容相关性及隐私脱敏）。
核心思路直觉解释：想象你要记录全中国各地的方言，传统方法是发同一篇课文让大家念，这既不真实又排除了不识字的人。VAANI的方法是拿着各地拍的真实照片去当地，让老百姓看着照片随便聊，同时记录下他们说话的声音、对应的照片和文字。这样不仅收集到了最地道的乡音，还让声音和画面产生了联系。

4. 实验与结果

数据集规模：包含约289K张图像、31,255小时语音、2,043小时人工转录音频，覆盖105种语言、158K名说话人。
基线方法：Whisper-large-v3-turbo, Gemma-3n-E2B, Parakeet-tdt-0.6b-v2, Whisper-small。
主要实验结果：
1. 多语言ASR微调：使用VAANI微调后，各模型在印地语、孟加拉语等主流语言及查克马语、博杰普尔语等低资源语言上的词错率（WER）均大幅下降。例如，Whisper-large-v3-turbo在低资源语言上的WER从不可用（>1.0）降至0.4-0.6区间。
2. 地域特异性验证：用北方邦的印地语数据微调模型，在地理上相近的比哈尔邦测试表现好，在遥远的果阿邦测试表现差，证明了数据中蕴含了强烈且有价值的地域方言特征。
3. 跨模态检索：使用VAANI的印地语图文对微调SigLIP2模型，在图像检索任务上超越了原始基线模型。
消融实验/分析：论文通过“地区特异性微调”实验揭示了：即使是同一种语言（如印地语），不同地区的数据训练出的模型也具有明显的地理偏向性，证明了“地区优先”采集策略的必要性。

5. 优势与局限

主要优势：
1. 空前的广度与包容性：首次将数十种印度低资源语言（特别是藏缅语系和南亚语系）纳入大规模开源数据集。
2. 多模态与自发语音结合：填补了印度语言在“图-音-文”多模态和自发语音领域的双重空白。
3. 丰富的元数据：提供了性别、年龄、教育程度、社会经济地位、居住年限等细粒度属性，极大便利了公平性和社会语言学分析。
局限性：
1. 长尾分布问题：虽然覆盖了105种语言，但数据时长严重向少数主流语言倾斜，许多低资源语言的音频和转录时长仍然极少。
2. 地理覆盖未穷尽：印度约有800个县，目前仅覆盖了165个，仍有大量地域方言未被收录。
3. 潜在的滥用风险：尽管进行了说话人ID匿名化和PII脱敏，但包含15万人声音特征的数据集仍存在被用于声音克隆或伪造的“双刃剑”风险。

6. 关键结论与启发

最重要的Takeaway：构建包容性语音数据集，必须从“语言标签优先”转向“地域与人群优先”，因为真实的语言使用是深深扎根于地理和社会语境中的；同时，图像引导是收集自发、低门槛语音数据的有效手段。
对后续研究的启发：
1. 半监督与多模态预训练：VAANI中90%的语音是没有人工转录的，这为探索自监督语音预训练（SSL）以及利用图像作为弱监督信号的跨模态学习提供了绝佳的试验场。
2. 方言与口音建模：可以利用该数据集中丰富的地域元数据，研究细粒度的方言识别、口音自适应以及语音去偏见算法。
3. 数据集扩展范式：这种“地区中心+视觉引导”的采集范式，可以推广到其他多语言、多方言的发展中国家（如非洲、东南亚国家），构建全球南方的包容性AI基础设施。

eess.AScs.SD

FSD50K-Solo: Automated Curation of Single-Source Sound Events 跨领域

Ningyuan Yang, Sile Yin, Li-Chia Yang, Bryce Irvin, Xiao Quan 等 (7 人)

Audio and Speech Processing (eess.AS); Sound (cs.SD)

Comments: Accepted to EUSIPCO 2026. 5 pages, 3 figures

📄 Abstract 📥 PDF

查看摘要

High-quality training datasets are essential for the performance of neural networks. However, the audio domain still lacks a large-scale, strongly-labeled, and single-source sound event dataset. The FSD50K dataset, despite being relatively large and open, contains a considerable fraction of multi-source samples where background interference or overlapping events could limit the usefulness of the data. To address this challenge, we introduce a data curation framework designed for large-scale open audio corpora. Our approach leverages a generative diffusion model to synthesize clean single-class events to construct controlled noisy mixtures for supervision. We subsequently employ a pre-trained audio encoder coupled with a discriminative classifier to automatically identify and filter out multi-source samples. Experiments show that our framework achieves strong performance on a human expert-curated test set. Finally, we release FSD50K-Solo, a model-curated subset of FSD50K containing single-source audio samples identified by our method. Beyond FSD50K, our method establishes a scalable paradigm for curating open source audio corpora.

📖 深度解读

1. 一句话总结

本文提出了一个基于“扩散模型生成合成数据+预训练音频编码器”的自动数据清洗框架，从包含大量多源重叠噪声的FSD50K数据集中精准筛选出高质量的单源声音事件，并发布了新数据集FSD50K-Solo。

2. 研究背景与动机

核心问题：如何从大规模、弱标记的开源音频数据集中，自动且精准地识别并过滤掉包含背景干扰或声音重叠的“多源”样本，只保留干净的“单源”样本？
重要性：高质量的训练数据是深度学习模型性能的基石。在音频领域，目标声音提取、声音事件定位、可控音频合成等任务高度依赖纯净的单源音频。如果训练数据中混入多源样本，会引入标签噪声（即标签描述的声音与实际主导声音不符），严重制约模型性能。
现有方法不足：
1. 人工标注不可靠且昂贵：如FSD50K中的人工评分（PP评分）主观性强且容易出错（例如把包含语音和音乐的片段标记为无其他声音），且无法扩展到更大规模的数据集。
2. 现有自动过滤方法局限：语音领域的过滤方法（如基于信噪比的WADA）依赖人声特有的统计特性，无法迁移到多样化的环境声；其他多模态数据集的过滤往往只看时长，不分析音频内容。

3. 核心方法

提出框架：一个可扩展的自动音频数据清洗框架，核心是训练一个“单源/多源二分类器”来过滤数据。
关键创新点：
1. 用生成模型解决“鸡生蛋”问题：现实中缺乏大量干净的单源音频作为训练数据，作者巧妙利用Stable Audio Open扩散模型，通过特定提示词（Prompt）合成干净的单源音频作为参考信号。
2. 受控的噪声混合策略：将合成的干净单源音频与干扰声、背景噪声按不同信噪比混合，自动构建出大规模、强标签的“单源vs多源”训练集，无需耗费人工标注。
3. 结合预训练模型与感知质量评估：采用在AudioSet上预训练的BEATs编码器提取特征，结合Bi-LSTM进行分类；并在评估阶段引入Audiobox Aesthetics等基于人类感知的客观指标，而非仅依赖传统分类指标。
核心思路直觉解释：就像我们要训练一个“鉴别一盘菜里是否混了其他食材”的质检员，但市面上找不到纯粹的食材样本。于是我们先用人造的“纯净食材”和“故意混入杂质的食材”来训练质检员的味觉（扩散模型生成+受控混合），然后再派他去大仓库（FSD50K）里把真正纯净的食材挑出来。

4. 实验与结果

数据集/基准：
训练/验证集：由扩散模型生成的数据构建（1:1的单源与多源比例）。
测试集1：生成的测试集。
测试集2：BSE数据集（约20小时由人类专家精心标注的单源/多源配对数据，作为真实场景的黄金基准）。
应用目标：FSD50K数据集。
基线方法：主要与FSD50K原数据集自带的人工PP评分（Present and Predominant）进行对比。
主要实验结果：
分类性能优越且泛化能力强：模型在专家标注的BSE真实测试集上准确率达到95.51%，精确率高达98.58%，甚至优于在生成数据上的表现，证明模型成功跨越了“合成数据到真实数据”的领域鸿沟。
数据集清洗效果显著：应用该模型处理FSD50K，保留了69.17%的dev集样本作为单源数据（FSD50K-Solo），比单纯依赖人工PP评分保留的60.58%多出约9%，说明模型挽救了大量被人工误杀的优质数据。
感知质量指标验证：在FSD50K-Solo中，模型判定的单源样本在Audiobox Aesthetics指标上表现出“更低的复杂度(PC)”和“更高的音频质量(PQ)”，与人类听觉感知一致。
消融实验：论文未展示传统的去除某模块的消融实验，但通过对比生成数据与真实数据、分类指标与感知指标的跨域一致性，验证了框架各环节（生成策略、预训练特征提取）的鲁棒性。

5. 优势与局限

主要优势：
1. 高度自动化与可扩展：整个流程极少依赖人工（仅需少量抽检生成样本），可轻松扩展到比FSD50K大得多的开源音频语料库。
2. 比人工标注更可靠：克服了众包人工标注的主观性和错误率，实际筛选结果比原数据集的人工标记更符合“单源”定义。
3. 生成数据驱动的范式：用生成式AI解决判别式AI的数据饥渴问题，为数据清洗提供了一种新颖且低成本的监督信号来源。
局限性：
1. 未见类别的泛化性未经验证：模型仅在FSD50K已有的类别体系下进行生成和训练，对于完全未知的、超出该分类体系的声音事件，其识别能力尚不明确。
2. 生成模型的领域偏差：训练数据依赖扩散模型生成，若生成模型对某些类别的声音合成效果不佳或天然带有特定伪影，可能会将这种偏差传递给分类器。

6. 关键结论与启发

最重要的Takeaway：利用扩散模型合成受控的监督数据，结合预训练音频编码器，是大规模自动清洗音频数据集、提取高质量单源样本的有效且可靠的范式。
对后续研究的启发：
1. 零样本/跨域迁移探索：未来可研究该分类器在未见声音类别上的零样本泛化能力，或直接利用CLAP等模型进行零样本的单源/多源判别。
2. 生成式数据清洗范式的推广：这种“用生成模型造干净数据+造脏数据来训练判别器”的思路，不仅适用于音频，也可推广至视觉（如筛选单目标图像）等其他模态的数据清洗中。
3. 下游任务验证：FSD50K-Solo数据集已经发布，后续研究可以验证：使用清洗后的单源数据集训练声音事件检测、分离等下游任务，是否真的能带来实质性的性能飞跃。

eess.AScs.SD

Semantic-Aware Interpretable Multimodal Music Auto-Tagging 跨领域

Andreas Patakis, Vassilis Lyberatos, Spyridon Kantarelis, Edmund Dervakos, Giorgos Stamou

Machine Learning (cs.LG); Sound (cs.SD); Audio and Speech Processing (eess.AS)

Comments: Accepted at Interspeech 2025

📄 Abstract 📥 PDF

查看摘要

Music auto-tagging is essential for organizing and discovering music in extensive digital libraries. While foundation models achieve exceptional performance in this domain, their outputs often lack interpretability, limiting trust and usability for researchers and end-users alike. In this work, we present an interpretable framework for music auto-tagging that leverages groups of musically meaningful multimodal features, derived from signal processing, deep learning, ontology engineering, and natural language processing. To enhance interpretability, we cluster features semantically and employ an expectation maximization algorithm, assigning distinct weights to each group based on its contribution to the tagging process. Our method achieves competitive tagging performance while offering a deeper understanding of the decision-making process, paving the way for more transparent and user-centric music tagging systems.

📖 深度解读

1. 一句话总结

本文提出了一个多模态音乐自动标签框架，通过融合音频与歌词的感知特征并进行语义分组，利用EM-BANDED算法实现具有确定性、可解释的标签预测，在保持竞争力的同时让用户清晰了解“是音乐的哪方面特征决定了标签”。

2. 研究背景与动机

核心问题：如何在音乐自动标签任务中，既保持良好的预测性能，又提供人类可理解的决策依据？
重要性：音乐感知具有主观性和多维性，现有的深度学习基础模型（如Transformer）虽准确率高，但如同“黑盒”，用户无法得知标签是如何得出的，这严重削弱了系统的可信度和实用价值。
现有不足：
1. 现有的可解释方法多为“事后解释”，即试图解释黑盒模型，这往往会产生误导性结论。
2. 现有研究常忽视音乐的多模态特性（尤其是歌词信息），仅依赖音频。
3. 即便使用了感知特征，现有算法（如XGBOOST）在提供组级别的特征重要性时存在不确定性或模糊性。

3. 核心方法

提出框架：一个语义感知的多模态可解释音乐自动标签流程（SAMAT）。
关键创新点：
1. 多模态感知特征融合：不仅提取音频特征，还引入歌词特征，实现真正的多模态可解释。
2. 语义特征分组策略：设计了三种特征分组方式，以适应不同受众和场景。
3. 引入EM-BANDED算法：替代传统黑盒或不确定性模型，原生提供确定性的组级别特征重要性解释。
核心思路直觉解释：
特征提取：就像给一首歌做全面体检，用四种“仪器”（信号处理、深度网络、本体工程、NLP）分别测出音量、节奏、和弦功能、歌词押韵等人类能听懂、看懂的“感知指标”。
语义分组：把上百个指标按“语义”归类。比如给普通听众看，就分成“明亮度”、“节奏感”、“紧张度”等通俗组；给音乐专家看，就分成“频谱”、“和声”、“节奏”等专业组。
EM-BANDED算法：这就像一个带有“分组调节旋钮”的回归器。它不是把所有特征一锅炖，而是给每个特征组分配一个独立的“旋钮”（超参数$\lambda$）。在训练时，算法会自动拧紧或拧松这些旋钮（差异化收缩），如果某个组对预测当前标签很重要，它的旋钮刻度就会变大。最终，我们只需看哪个组的旋钮刻度最大，就能确定是哪类特征主导了决策。

4. 实验与结果

数据集：MTG-Jamendo（多标签）、Music4All（单标签）、AudioSet（单标签）。
基线方法：MULTIMODAL（SOTA Transformer模型）、XGBOOST。
主要实验结果：
性能竞争力：在MTG-Jamendo上，EM-BANDED（All-Features）达到76.95% ROC-AUC，超越了SOTA模型MULTIMODAL（75.90%）；在另外两个数据集上虽不及MULTIMODAL，但仍保持竞争力。
多模态增益：加入歌词特征后，几乎所有模型的性能都有提升，证实了多模态的必要性。
消融/解释性实验：
1. 随机分组测试：当特征被随机分组时，模型给出的各组重要性趋于平均（约0.2），证明模型确实是在捕捉语义结构，而非“乱猜”。
2. 人类直觉对齐：邀请10位业余音乐人对特征组重要性进行排序，EM-BANDED的输出排序与人类直觉的绝对距离（8）远小于XGBOOST（12），证明其解释更符合人类认知。
3. 特征精简：在Music4All上，Domain-Expert（精选42个特征）表现优于All-Features，说明精心挑选的语义特征比全量特征更有效。

5. 优势与局限

主要优势：
1. 原生可解释性：不依赖事后解释，直接通过模型结构输出确定性、组级别的特征重要性，且与人类直觉高度一致。
2. 灵活的受众适配：三种分组策略（User-Friendly/Domain-Expert/All-Features）能灵活服务于普通听众、音乐专家或算法开发者。
3. 多模态闭环：从音频分离人声、语音识别转写歌词，再到NLP特征提取，打通了无歌词数据集的歌词获取链路。
局限性：
1. 绝对性能的妥协：在部分数据集（Music4All, AudioSet）上，其预测准确率仍明显落后于基于Transformer的黑盒SOTA模型。
2. 特征工程的依赖：方法高度依赖人工设计的感知特征和语义分组，这需要较强的领域知识，且可能遗漏未定义的隐含特征。
3. 歌词获取的误差累积：对于无歌词数据集，依赖Demucs分离和Whisper转写，这一级联过程不可避免地会引入噪声和错误。

6. 关键结论与启发

最重要的Takeaway：在音乐标签任务中，我们无需完全依赖黑盒模型牺牲可解释性来换取性能；通过对人类可理解的感知特征进行语义分组，并使用具有分组正则化能力的算法（EM-BANDED），可以在保持竞争力的同时，获得与人类认知高度对齐的、确定性的全局解释。
对后续研究的启发：
1. 动态/自适应分组：目前的分组是静态先验的，未来可探索让模型自动发现并聚类语义相关的特征，实现自适应分组。
2. 解释粒度的细化：当前解释停留在“组”级别，未来可研究如何在不损失组级解释确定性的前提下，向下钻取到组内单特征或特征交叉的细粒度解释。
3. 多模态对齐：将音频感知特征与歌词语义特征进行更深层次的对齐与融合，而非简单的特征拼接，可能进一步提升多模态可解释模型的性能上限。

#10

eess.AScs.SD

University of Washington (QS Top 100)Cornell University (QS Top 100)New York University (NYU) (QS Top 100)

Addressing Pitfalls in Auditing Practices of Automatic Speech Recognition Technologies: A Case Study of People with Aphasia 跨领域

Katelyn Xiaoying Mei, Anna Seo Gyeong Choi, Hilke Schellmann, Mona Sloane, Allison Koenecke

Computers and Society (cs.CY); Computation and Language (cs.CL); Sound (cs.SD); Audio and Speech Processing (eess.AS)

Comments: Published at the Proceedings of The 2026 ACM Conference on Fairness, Accountability, and Transparency (FAccT '26)

📄 Abstract 📥 PDF

查看摘要

Automatic Speech Recognition (ASR) systems' growing use warrants robust auditing approaches to ensure equitable transcription quality, especially for people with speech disorders like aphasia who disproportionately depend on ASR. While academic and industry audits have revealed performance disparities across user populations, standard auditing practices often overlook nuances that risk masking harm to marginalized groups. We identify three common pitfalls in standard ASR audits: (1) adhering to one method of text standardization, which can mask variance in ASR performance and ignore the standardization preferences of marginalized communities; (2) displaying high-level demographic findings without considering performance disparities by nuanced intersectional subgroups, or conditioning on relevant acoustic properties; and (3) reporting only one gold-standard metric (Word Error Rate), which inadequately quantifies common generative AI errors like hallucinations. We propose a holistic auditing framework addressing these pitfalls, and in a case study of six popular ASR systems, find consistently worse ASR performance for speakers with aphasia relative to a control group. We call on practitioners to implement these robust, community-driven ASR auditing practices better suited for the rapidly changing ASR landscape.

📖 深度解读

1. 一句话总结

本文指出了当前自动语音识别（ASR）审计中存在的三大陷阱（文本标准化单一、人群分类宽泛、仅看词错率），并以失语症患者为案例，提出了一个由社区需求驱动的整体性审计框架，揭示了标准审计容易掩盖的严重性能差异和幻觉风险。

2. 研究背景与动机

核心问题：如何对自动语音识别（ASR）系统进行公平、准确的审计，特别是针对失语症等边缘化群体？
为什么重要：ASR已广泛接入医疗、求职等高风险场景。失语症患者由于书写困难，对语音交互的依赖度远高于常人，ASR的识别错误（尤其是生成式AI带来的“幻觉”）会给他们带来不成比例的严重伤害（如医疗记录被凭空捏造）。
现有方法不足：现有的“标准审计”流程存在三大缺陷：1）数据清洗方式一刀切，无视特定群体的偏好；2）将边缘群体视为铁板一块，只做粗粒度对比；3）唯“词错率（WER）”论，无法衡量语义丢失和AI幻觉等新型严重错误。

3. 核心方法

提出框架：一个以社区驱动为核心的整体性ASR审计框架。
关键创新点：
1. 鲁棒的文本标准化：不再采用单一的文本清洗方式，而是测试多种清洗级别（如保留或删除语气词、口吃片段等），并报告不同方法下的性能方差。
2. 细粒度与交叉性的人口分组：打破“失语症 vs 健康人”的二元对比，深入到失语症亚型（流利型/非流利型等），并引入非发声时长占比、背景噪音等声学协变量进行回归分析。
3. 多维度的指标矩阵：超越单一的WER，引入字符错误率（CER）、语义丢失率（WIL）以及幻觉率等指标，全面捕捉不同类型的转录伤害。
核心思路直觉解释：如果把ASR审计比作体检，标准审计就像是只量了身高体重就下结论；而本文提出的方法则是：1）尊重病人的主观感受（问他们想穿什么衣服量体重）；2）把“内科病人”细分为心血管、消化科等不同亚型，并考虑他们是否抽烟等生活习惯；3）不仅看常规血检（WER），还做核磁共振（幻觉率），找出隐藏的绝症。

4. 实验与结果

数据集：AphasiaBank（包含551个失语症访谈和347个对照组访谈的音频及转录文本），并辅以对7名失语症患者的社区调研。
基线方法：6款主流商业ASR服务（Amazon AWS, AssemblyAI, Google Chirp, Microsoft Azure, OpenAI Whisper, Rev AI）。
主要实验结果：
标准审计：失语症患者的WER比对照组差6-10个百分点（如Microsoft最差：失语症0.17 vs 对照0.09）。
针对陷阱1（标准化）：不同清洗方式会显著改变WER，甚至逆转ASR系统的排名（如最少清洗时OpenAI优于Amazon，但在最彻底清洗时Amazon反超OpenAI）。社区调研显示，失语症患者最偏好彻底清洗（去掉口吃和语气词），且采用这种偏好清洗并不会显著损害WER。
针对陷阱2（细粒度分组）：非流利型失语症的WER（0.21）远高于流利型（0.13）。OpenAI Whisper在轻度失语症上表现优异，但在最严重的全面性失语症上表现最差。回归分析证实，非发声时长（停顿/不流利）和背景噪音是显著增加WER的协变量。
针对陷阱3（多指标）：OpenAI Whisper是唯一产生“幻觉”的系统（下限幻觉率0.9%），且53/56个幻觉案例发生在失语症患者身上。回归显示，非发声时长占比和失语症状态显著增加了产生幻觉的概率。
消融实验：通过倾向得分匹配（PSM）控制人口统计学变量，以及使用线性混合效应模型，证实了上述发现的稳健性。

5. 优势与局限

主要优势：
1. 强烈的社区导向：践行“没有我们参与，就不要做关于我们的决定”原则，将边缘群体的主观偏好作为审计基准，而非由技术专家武断决定。
2. 揭示隐藏风险：成功证明了主流审计方法会掩盖关键问题，特别是发现了Whisper在失语症群体中高发“幻觉”这一高危风险。
3. 实操性强：提出的三大改进建议具体且可量化，可直接被业界和学术界采纳。
局限性：
1. 样本代表性受限：社区调研仅有7名参与者，虽然符合罕见病研究的常理，但限制了偏好结论的普适性。
2. 数据源单一：实证数据仅来自AphasiaBank，且仅限美国英语，未考虑其他方言、语言或其他言语障碍（如口吃、构音障碍）。
3. 幻觉检测依赖人工：由于缺乏自动化的高精度幻觉检测工具，论文对幻觉的识别依赖人工标注，在大规模审计中难以扩展。

6. 关键结论与启发

最重要的Takeaway：标准化的、一刀切的AI审计不仅是不充分的，甚至是危险的——它会通过“平均化”掩盖对最脆弱子群体的严重伤害（如幻觉），并可能因无视用户偏好而给出误导性的系统排名。
对后续研究的启发：
1. 审计范式的转变：未来的AI公平性审计必须从“专家驱动”转向“社区驱动”，将利益相关者的真实需求嵌入到评估指标和数据预处理流程中。
2. 生成式AI评估指标的重构：随着大模型在语音等领域的应用，WER等传统指标已失效，亟需开发自动化、可扩展的“幻觉检测”及语义保真度评估工具。
3. 交叉性视角的延伸：本文框架可扩展至其他非标准语音群体（如二语习得者、方言使用者、其他言语障碍者），推动建立更具包容性的ASR评估标准。

#11

eess.AScs.SD

TinyDéjàVu: Smaller RAM and Faster Inference with Neural Networks on MCUs for Sensor Data Streams 跨领域

Zhaolan Huang, Emmanuel Baccelli

Machine Learning (cs.LG); Performance (cs.PF); Sound (cs.SD); Audio and Speech Processing (eess.AS); Signal Processing (eess.SP)

📄 Abstract 📥 PDF

查看摘要

Examples of embedded intelligence include a wide variety of tiny neural networks used on-board wireless sensors and actuators, which are expected to continuously perform inference on time-series of the data they sense. In order to fit lifetime and energy consumption requirements when operating on battery, such hardware is exclusively based on microcontroller with as little memory as possible, e.g., 128 kB of RAM. In this context, optimizing data flows during inference across neural network layers becomes crucial. In this paper, we introduce a new framework, TinyDéjàVu, and novel algorithms we designed to drastically reduce the RAM budget required by inference using various neural network models for sensor data time-series on typical microcontroller hardware. We publish the implementation of TinyDéjàVu as open source, and we perform reproducible benchmarks on common microcontroller hardware (Arm Cortex-M). We show that TinyDéjàVu can save up to 90\% of RAM usage with equal compute latency compared to prior work (StreamiNNC) on overlapping sliding window inputs.

📖 深度解读

1. 一句话总结

本文提出了TinyDéjàVu框架，通过将神经网络中的时间算子转化为状态空间模型（SSM），消除了微控制器上传感器数据流推理时滑动窗口带来的冗余计算，从而在保持精度的前提下最高节省了90%的RAM并大幅降低了推理延迟。

2. 研究背景与动机

核心问题：在资源极度受限的微控制器（MCU，通常仅有几十KB RAM）上，对连续的传感器时间序列数据进行神经网络推理时，内存消耗和计算延迟过大。
重要性：物联网设备通常由电池供电，需要“始终在线”地实时监测环境。RAM用量直接决定了硬件成本和能耗，而推理延迟则影响系统的实时响应能力。
现有方法不足：时间序列推理通常采用重叠的滑动窗口输入以保证特征连续性，但这导致了相邻窗口间存在大量重复计算。现有优化方法（如Fast WaveNet、StreamiNNC）大多局限于1D卷积，缺乏对混合架构（如CNN+Transformer）和重叠滑动窗口的通用端到端支持。

3. 核心方法

提出框架：TinyDéjàVu。这是一个基于计算图分析和算子重写的编译框架，能自动将PyTorch模型转换为适用于MCU的低内存C代码。
关键创新点：
1. 时间算子的SSM等价转换：将卷积、池化等时间算子统一抽象为状态空间模型（SSM）。直觉上，就像把原本需要“每次重新翻阅整本书”的计算，变成了“只记录上一页的状态并更新当前页”，从而将内存占用与输入序列长度解耦。
2. 基于GTA的计算图分割：识别出“全局时间聚合器”（GTA，如Attention、Flatten后的全连接层），以此将网络切分为SSM子图（局部因果，可增量计算）和GTA子图（全局依赖），分别进行流式优化。
3. 全局池化的两阶段SSM优化：将原本需要缓存整个序列（O(N)内存）的全局池化，拆分为两个串联的SSM：先做局部聚合，再做全局聚合，将内存降至O(N/s)。
4. 深度滑动窗口机制：在流式推理阶段，只处理滑动窗口新移入的数据，跳过重叠部分的冗余计算，并自动调整GTA的步长以适配新数据的到达频率。
核心思路直觉解释：想象你在看一部连续剧（数据流），普通方法每次都要从第一集开始快进回顾才能看懂最新一集；TinyDéjàVu则给你一个“剧情摘要本”（SSM隐藏状态），你只需把最新一集的内容更新进摘要本，就能直接推导出当前剧情，大大节省了脑力（计算）和记事本空间（RAM）。

4. 实验与结果

数据集/基准：未使用特定数据集，而是构建了6种典型的时间序列模型（CET-S, ResTCN, TEMPONet, TC-CNN, TC-TFM, TinyWaveNet）作为基准进行测试。
对比方法：Vanilla（未经优化的原始模型）、StreamiNNC（先前最优的流式CNN推理框架）。
主要实验结果：
RAM节省：相比Vanilla，TinyDéjàVu至少降低60%的RAM；在TinyWaveNet、TC-TFM等模型上，相比StreamiNNC节省了高达90%的RAM。
延迟降低：在PC端，重叠率为0.5时，推理延迟降低2倍至6倍；在MCU端，随着重叠率提升至90%，流式推理延迟呈线性下降，最高可实现约20倍加速。
真实场景验证：在英国乡村的鸟类声音监测任务中，相比此前的TinyChirp，RAM用量减少75倍（约1KB vs 75KB），推理延迟降低60%。
消融实验揭示：
BF16精度影响：使用BF16存储隐藏状态可进一步省内存，但会导致1%-3%的输出RMSE误差，在部分任务上准确率下降明显（如CET-S准确率从69.8降至65.3），建议高精度场景下重新训练模型。
重叠率与延迟的关系：深层网络（如ResTCN）在低重叠率时延迟就大幅下降，因为其深层SSM缓存了大量不变的历史状态，即使输入变化较大，需重新计算的部分也很少。

5. 优势与局限

主要优势：
1. 通用性强：突破了先前仅支持卷积的限制，支持CNN、RNN、Transformer等混合架构。
2. 优化效果显著：在内存和延迟这两个MCU最核心的指标上均取得了数量级的改善。
3. 即插即用：作为编译框架，对模型结构进行自动分析和重写，且与量化、剪枝等其他优化技术正交。
局限性：
1. BF16的精度损失：虽然节省内存，但直接转换会导致明显的任务性能下降，需要重新训练，增加了工程成本。
2. Preheat阶段开销：首个窗口的推理（初始化隐藏状态）比Vanilla略慢，虽然长流式场景下可忽略，但对极短生命周期的传感器节点可能不友好。
3. 缺乏直接功耗测量：论文承认未直接测量功耗，仅基于RAM和延迟的降低推测功耗的改善。

6. 关键结论与启发

最重要的Takeaway：时间序列神经网络中的绝大多数时间算子，在流式推理时都可以被等价转化为状态空间模型（SSM），这种转化能彻底打破内存占用与输入序列长度之间的绑定关系，是实现极低资源微控制器上智能推理的关键。
后续研究启发：
1. 软硬协同设计：可以探索针对SSM循环计算特性定制的轻量级硬件加速器或MCU指令集扩展。
2. 量化与SSM的结合：研究专门针对SSM隐藏状态的低比特量化方法（而非简单的BF16截断），以在不重训练的前提下兼顾内存和精度。
3. 动态窗口与事件驱动：结合TinyDéjàVu的特性，未来可探索事件驱动的推理机制——只有当输入变化超过阈值时才更新SSM状态，进一步压榨能耗。

#12

eess.AScs.SD

City University of Hong Kong (QS Top 100)

DSA-Tokenizer: Disentangled Semantic-Acoustic Tokenization via Flow Matching-based Hierarchical Fusion 跨领域

Hanlin Zhang, Daxin Tan, Dehua Tao, Xiao Chen, Haochen Tan 等 (8 人)

Sound (cs.SD); Artificial Intelligence (cs.AI); Audio and Speech Processing (eess.AS)

Comments: Submit to ACL ARR 2026 May

📄 Abstract 📥 PDF

查看摘要

Speech tokenizers are a key building block of fully discrete Speech this http URL tokenizers either prioritize semantic encoding,fuse semantic content with acoustic style inseparably,or achieve incomplete semantic-acoustic this http URL achieve better disentanglement,we propose DSA-Tokenizer,which explicitly disentangles speech into discrete semantic and acoustic tokens via distinct optimization this http URL ,semantic tokens are supervised by ASR to capture linguistic content,while acoustic tokens focus on mel-spectrograms restoration to encode this http URL further introduce a hierarchical Flow Matching decoder and a joint reconstruction-context inpainting training strategy,allowing the model to support both high-fidelity reconstruction and cross-utterance voice this http URL speed up inference,we distill the DiT decoder to reduce sampling steps of inference to 4 and improve synthesis quality with GAN this http URL demonstrate that DSA-Tokenizer provides strong semantic-acoustic disentanglement,reliable controllable voice cloning,and efficient high-fidelity generation with low WER/CER.Moreover,our results suggest that disentangled tokenization provides a more effective interface for downstream large-model speech this http URL samples are avaialble at this https URL .

📖 深度解读

1. 一句话总结

本文提出了DSA-Tokenizer，一种双流语音分词器，通过正交约束将语音严格解耦为语义和声学令牌，并结合流匹配解码器与GAN微调，实现了高保真重建、跨话语语音克隆以及为下游语音大模型提供更可控的接口。

2. 研究背景与动机

核心问题：如何将语音信号有效且干净地解耦为语义内容（说了什么）和声学风格（谁说的、怎么说），以支持语音大模型的生成与控制。
重要性：在完全离散的语音大模型中，语音分词器是核心组件。解耦不彻底会导致生成时无法独立控制内容和音色，严重限制语音克隆等可控生成任务。
现有方法不足：
1. 语义分词器（如HuBERT）：保留了语言信息但丢失了音色等声学细节。
2. 语义-声学混合分词器（如EnCodec）：重建质量高，但内容和风格纠缠在一起，无法独立控制。
3. 浅层解耦分词器（如SpeechTokenizer）：尝试分离，但解耦不彻底，存在信息泄漏（语义令牌里还有音色，或声学令牌里还有内容）。

3. 核心方法

提出框架：DSA-Tokenizer（Disentangled Semantic-Acoustic Tokenizer），包含双流编码器和基于流匹配的分层融合解码器。
关键创新点：
1. 基于正交约束的双流令牌学习：语义流由ASR（CTC损失）监督，只保留语言内容；声学流由Mel频谱重建监督，专注捕捉音色和韵律。两者优化目标完全正交，从根源上切断信息纠缠。
2. 联合重建与上下文修复训练策略：训练时不仅做自身重建，还随机遮蔽部分声学令牌让模型去“填空”，强迫声学令牌学会推断全局风格，防止模型偷懒直接从语义流获取声学信息。
3. 分层融合的Flow Matching解码器：语义令牌作为“骨架”通过ControlNet方式注入以保证时间对齐；声学令牌作为“外衣”通过交叉注意力灵活注入以提供音色，两者各司其职。
4. 少步蒸馏与GAN微调：将原本16步的流匹配解码器蒸馏至4步，并在Mel空间引入对抗训练（GAN）微调，弥补流匹配在低能量区细节生成的不足，实现高效且高保真的生成。
直觉解释：就像制作蜡像，语义令牌是“骨架”，规定了嘴巴怎么动、说了什么词；声学令牌是“皮囊”，决定了肤色、纹理和声音特质。两者分开制作，最后再拼装，想换谁的声音只需换张“皮囊”，互不干扰。

4. 实验与结果

数据集/基准：训练使用10万小时中英文Emilia子集；评估使用SeedTTS（重建与克隆）、LibriSpeech/VoxCeleb1（解耦探测）、LibriTTS（下游LLM任务）。
基线方法：WavTokenizer, EnCodec, SpeechTokenizer, DualCodec, SAC, Facodec等。
主要实验结果：
1. 重建与克隆：在0.7kbps极低码率下，DSA-Tokenizer是唯一在重建（高UTMOS/低WER）和跨话语克隆（SIM=0.61/0.71，WER仅2.47%/2.16%）同时表现优异的模型。其他模型要么克隆时音色对不上，要么内容全错。
2. 解耦探测：DSA的语义令牌ASR错误率最低（6.28%），说话人分类准确率极低（2.35%）；而声学令牌说话人分类准确率最高（23.65%），ASR错误率极高（120.36%），证明实现了最干净的解耦。
3. 下游LLM任务：在LLM语音克隆和TTS任务中，DSA-Tokenizer作为接口显著优于未解耦模型（如WavTokenizer生成崩溃）和部分解耦模型（SAC），证明了干净解耦对大模型可控生成的价值。
消融实验揭示：
1. 去掉说话人一致性损失（$L_{spk}$）会导致克隆任务SIM暴跌（0.60降至0.20）。
2. 去掉上下文修复训练，克隆任务完全崩溃（WER飙升至134.85%），证明该策略是防止信息泄漏的关键。
3. GAN微调不仅提升了音质（UTMOS提升），还意外降低了WER，证明其增强了合成保真度而不破坏解耦性。

5. 优势与局限

主要优势：
1. 极致解耦：通过正交约束和修复训练，实现了目前最干净的语义-声学分离，几乎无信息泄漏。
2. 双效合一：打破了以往模型“重建好就不能克隆，能克隆就重建差”的魔咒，在低码率下兼顾两者。
3. 对下游大模型友好：为语音LLM提供了清晰的控制接口，显著提升了生成可控性和稳定性。
局限性：
1. 效率仍有差距：虽然蒸馏到了4步，但相比纯GAN或单步编解码器，推理速度仍不够轻量，对极低延迟场景不友好。
2. 评估维度单一：解耦分析主要集中在语义和说话人身份上，没有深入探讨情感、韵律等更细粒度声学属性的解耦情况。
3. 语言与任务泛化性：主要在中英文和TTS/克隆任务上验证，对更多语言和更广泛的语音LLM任务（如语音翻译、情感转换）的适用性未知。

6. 关键结论与启发

最重要的Takeaway：语音分词器中语义和声学的干净解耦不仅是一个特征表示问题，更是下游语音大模型实现稳定、可控生成的关键前提。跨话语语音克隆是检验解耦程度最严苛、最直接的试金石。
对后续研究的启发：
1. 分词器设计范式转移：未来的语音分词器设计应放弃“一个大码本包打天下”的思路，转向多流、正交约束的解耦架构。
2. 生成模型的训练策略：引入“填空”式的修复训练是防止多流模型信息偷懒和泄漏的有效手段，可推广至其他多模态解耦任务。
3. 延伸方向：可以探索在DSA-Tokenizer基础上引入第三流（如情感流、韵律流），实现更细粒度的语音控制；或者探索更高效的解码架构以替代当前的4步DiT，进一步逼近实时生成。

#13

cs.SD

Do Audio LLMs Listen or Read? Analyzing and Mitigating Paralinguistic Failures with VoxParadox

Jiacheng Pang, Ashutosh Chaubey, Mohammad Soleymani

Sound (cs.SD); Machine Learning (cs.LG)

Comments: Accepted as a conference paper at ICML 2026. Project page: this https URL

📄 Abstract 📥 PDF

查看摘要

Audio large language models (Audio LLMs) demonstrate strong performance on speech understanding tasks, yet their ability to understand paralinguistic information remains limited. To systematically quantify this issue, we introduce VoxParadox, an adversarial benchmark with 2,000 verified examples, spanning 10 paralinguistic tasks, created with controlled speech synthesis to intentionally mismatch transcript claims and speaking style, enabling direct measurement of speech paralinguistic understanding. Evaluation of a diverse set of Audio LLMs reveals consistently low accuracy on acoustic ground truth and a strong tendency to follow language-implied (incorrect) answers. To understand the cause of this gap, we perform layer-wise probing and find that (i) paralinguistic cues can degrade in deeper encoder layers and at the encoder--LLM interface, and (ii) even when such cues are available in audio tokens, the language model frequently ignores them. To address these problems, we propose Prompt-Conditioned Layer Mixer (PCLM), which adaptively combines information from multiple audio layers based on the input prompt, and pair it with Direct Preference Optimization (DPO) to explicitly prefer acoustically supported options over language-implied alternatives. These methods substantially improve Audio LLM paralinguistic understanding, improving Audio Flamingo 3 from 17.40% to 65.20% on VoxParadox, and from 37.74% to 54.78% on MMSU paralinguistic subset. Our project page is available at this https URL .

📖 深度解读

1. 一句话总结

这篇论文揭示了音频大语言模型在处理语音时存在“重文本、轻声音”的捷径依赖问题，并通过构建对抗性基准VoxParadox进行量化分析，最终提出PCLM和DPO方法有效提升了模型对副语言（非文本）信息的感知与利用能力。

2. 研究背景与动机

核心问题：音频大语言模型在理解语音中的“副语言信息”（如情绪、年龄、语调、音高等“怎么说”的信息）时能力严重不足，且极易被文本内容误导。
重要性：副语言信息是人类沟通中传递情感、意图和社会语境的核心载体，若模型只能“听懂字面意思”而忽略语气，将无法实现真正的语音理解。
现有方法不足：现有的音频基准测试（如MMSU）通常将文本语义与声学特征耦合在一起，模型可能仅凭文本线索就答对问题，导致其副语言理解能力被严重高估；此外，现有模型在架构上通常只取音频编码器的最后一层特征，忽略了包含丰富声学线索的中间层。

3. 核心方法

提出框架：论文提出了VoxParadox（对抗性基准）和PCLM + DPO（缓解方案）。
关键创新点：
1. VoxParadox基准：通过受控的TTS合成，刻意制造“文本与声音打架”的场景（例如：苍老的声音说着“我是个孩子”），强制模型必须依靠声学特征而非文本捷径来作答。
2. Prompt-Conditioned Layer Mixer (PCLM)：一种轻量级特征融合模块。传统方法只用编码器最后一层，PCLM则根据用户的文本提示，自适应地给音频编码器的多个中间层分配权重并加权求和，把原本在深层被丢弃的副语言信息“抢救”回来。
3. Direct Preference Optimization (DPO)：在偏好对齐阶段，构造“声学正确答案 vs. 文本暗示答案”的偏好对，通过DPO训练让LLM在两者冲突时，显式地偏好基于声学证据的选项。
核心思路直觉解释：
VoxParadox就像是给模型做“抗干扰测试”，故意在试卷上写错误答案（文本），看模型是抄卷面还是听老师念的正确答案（声音）。
PCLM相当于给模型配了一个“智能调音台”。问音高时，调音台自动调大保留音高信息的浅层旋钮；问语义时，调大提取语义的深层旋钮。
DPO则是给模型做“思想工作”，通过奖惩机制明确告诉它：“当字面意思和语气冲突时，请相信你的耳朵，别相信台词。”

4. 实验与结果

使用数据集：自建的VoxParadox（2000个样本，10个副语言任务），以及公开的MMSU副语言子集。
对比基线：12个主流Audio LLMs，包括开源的Audio Flamingo 2/3, Qwen2-Audio, SALMONN等，以及闭源的GPT-4o Audio, Gemini 2.5 Flash。
主要实验结果：
模型通病：所有模型在VoxParadox上表现极差（平均GT准确率仅15.33%），且高度盲从文本（平均对抗标签一致性ALA达64.34%）。GPT-4o Audio的GT准确率仅8.60%，但ALA高达81.55%。
方法有效性：应用PCLM+DPO后，Audio Flamingo 3在VoxParadox上的准确率从17.40%飙升至65.20%，在MMSU副语言子集上从37.74%提升至54.78%；Qwen2-Audio同样从14.85%跃升至72.30%。同时，模型的“盲从文本率”（ALA）大幅下降。
消融实验与探针分析揭示：
表征退化：副语言信息在音频编码器的深层和编码器-LLM的接口处会发生严重丢失（ASR预训练偏向文本导致）。
利用鸿沟：探针实验表明，LLM的中间层其实包含副语言信息，但模型在最终输出时选择忽略了它（决策策略存在偏见）。
反转音频测试：把音频倒放（破坏文本可懂度但保留声学特征）后，模型反而更依赖声音，GT准确率上升，证实了可懂文本对声学特征的“压制”作用。

5. 优势与局限

主要优势：
1. 诊断精准：VoxParadox通过解耦文本与声学，精准暴露了Audio LLMs长期被掩盖的“文本捷径”缺陷。
2. 机理清晰：通过逐层探针，从表征退化和决策偏见两个维度彻底查明了病因。
3. 提升显著：PCLM+DPO的组合拳在两个不同架构的模型上都取得了大幅度的性能提升，且未损害通用语音理解能力。
局限性：
1. 事后修补：PCLM是在预训练好的模型上做后处理，对于编码器内部已经发生的深层信息丢失，恢复存在天花板，更优解应是在预训练阶段就引入多层级访问。
2. 基准的生态局限：VoxParadox是高度控制的对抗性压力测试，不能完全替代自然场景下的副语言评测（现实中文本与语气极少如此极端对立）。

6. 关键结论与启发

最重要的Takeaway：当前的Audio LLM本质上是“戴着耳机的文本阅读器”，它们优先处理文本语义，而在文本与声学冲突时，几乎完全忽略副语言线索；提升副语言理解必须同时解决“特征传递丢失”和“决策偏好文本”两个瓶颈。
对后续研究的启发：
1. 架构设计：未来的Audio LLM不应仅连接音频编码器的最后一层，而应设计多层级、动态路由的音频特征融合机制。
2. 预训练目标：现有多数音频编码器以ASR（语音识别）为目标，这天然会抑制副语言特征，未来需要引入对比学习或副语言专属的预训练目标（如论文中提到的CLAP表现更好）。
3. 对齐策略：在多模态对齐阶段，应引入跨模态冲突的偏好优化数据，强制模型学会在模态信号矛盾时进行合理的归因和取舍。

#14

cs.SD

Shanghai Jiao Tong University (QS Top 100, 985, 211)

Dasheng AudioGen: A Unified Model for Generating Coherent Audio Scenes from Text

Jiahao Mei, Heinrich Dinkel, Yadong Niu, Xingwei Sun, Gang Li 等 (10 人)

Sound (cs.SD)

📄 Abstract 📥 PDF

查看摘要

Audio generation has long been fragmented, with speech, music, and sound effects produced by domain-specific models that fail to jointly generate coherent audio scenes from a single description. The key obstacles are insufficient fine-grained supervision for real-world mixed audio and limited acoustic representations for modeling concurrent audio components. We present Dasheng AudioGen, a unified framework for generating general mixed-audio scenes from text. Dasheng AudioGen introduces structured multi-view captions, which explicitly decouple complex acoustic scenes into complementary description views, thereby enabling fine-grained control over audio layers. Furthermore, we employ a high-dimensional unified semantic-acoustic representation as the shared latent space. It injects semantic priors that facilitate cross-modal training convergence, while its high-dimensional feature space provides sufficient capacity to disentangle and fuse concurrent audio components effectively. With these designs, a simple flow-matching DiT achieves high-quality end-to-end audio scene generation. We also establish a comprehensive evaluation pipeline for audio scene generation. Experiments demonstrate that Dasheng AudioGen achieves performance approaching real-world recordings in mixed-audio categories, while remaining competitive with specialized models in single-type generation tasks. Demos are available at this https URL .

📖 深度解读

1. 一句话总结

本文提出了Dasheng AudioGen，一个统一的文本到音频生成框架，通过结构化多视角文本描述和高维语义-声学潜空间，首次实现了在单一音频片段中端到端生成包含清晰语音、音乐和音效的连贯混合音频场景。

2. 研究背景与动机

核心问题：如何从一个文本描述出发，联合生成包含语音、音乐、音效和环境声的连贯混合音频场景。
重要性：现实世界中的声音极少是孤立的（如新闻广播包含人声、背景乐和转场音效），但现有模型各自为战（TTS只管干净语音，TTM只管音乐，TTA只管音效），无法生成自然融合的复杂声学场景。
现有方法不足：
1. 监督信号粗糙：野外混合音频数据通常只有全局粗粒度标注，无法提供对音频各层（如人声内容、背景音效）的细粒度控制。
2. 声学表征瓶颈：传统低维声学VAE潜空间缺乏足够容量来解耦和融合并发的异构声音，且从纯语义文本映射到纯声学空间难度过大。
3. 架构复杂且不支持联合生成：现有统一模型（如UniAudio）依赖多个特定任务的编码器，且只能分别生成不同类型音频，无法在同一个片段内实现多声部协调。

3. 核心方法

提出框架：Dasheng AudioGen，基于Flow Matching和DiT（Diffusion Transformer）的端到端文本到音频生成模型。
关键创新点：
1. 结构化多视角描述：将复杂的音频场景解耦为6个互补的文本视角（全局描述、说话人风格、语音转写、音效、音乐、环境声），每个视角用特殊token（如<|asr|>）标识。这就像给乐队发了分谱，而不是一团乱麻的总谱，实现了细粒度解耦控制，且天然兼容LLM Agent进行提示词自动扩写。
2. 高维统一语义-声学潜空间：摒弃传统的低维VAE，采用DashengTokenizer提取1280维的特征作为生成目标。直觉上，这相当于给模型提供了一个“自带语义索引的高保真画布”，语义先验降低了文本对齐的难度，高维空间则提供了足够的容量让不同声音“各画各的互不干扰”。
3. 极简的视角感知条件注入：不需要为不同声音设计专门的编码器，仅靠单一T5文本编码器处理带特殊token的结构化文本，通过DiT的交叉注意力让音频特征自动软性选择相关的文本视角信息。
核心思路直觉解释：生成复杂场景不需要为每种声音造一个专用引擎，关键在于“结构化的指挥（多视角文本）”和“足够大且懂行的排练室（高维语义-声学空间）”。在这个基础上，最简单的Flow Matching DiT就能像指挥家一样，让各声部和谐发声。

4. 实验与结果

数据集/基准：训练使用7.7万小时的ACAVCaps私有超集；单类型评估使用AudioCaps, MusicCaps, LibriTTS；混合音频场景评估使用MECAT基准。
基线方法：单领域专用模型（TangoFlux, MusicGen, Qwen3-TTS）、统一多任务模型（AudioX, UniFlow-Audio），以及本文构建的强基线 Expert-Pipeline（用上述三个专用模型分别生成音轨再混合）。
主要实验结果：
混合场景（核心亮点）：在最具挑战性的SMA（语音+音乐+音效）类别中，Dasheng AudioGen的FAD达到2.17，远超Expert-Pipeline的6.38；WER为28.98%，远好于Expert-Pipeline的62.14%（后者因声学掩蔽效应导致语音难以听清）。
单类型场景：在音乐生成上极具竞争力，超越AudioLDM2和MusicGen；在音效和语音上虽略逊于专用SOTA（受限于训练数据分布和固定10秒时长），但依然保持高度竞争力。
消融实验揭示：
结构化 vs 非结构化文本：结构化文本在混合音频FAD上大幅改善（如0MA类别从5.04降至3.25），在语音生成中更是将WER从52.0%骤降至10.77%，证明解耦监督至关重要。
统一表征 vs 声学VAE：在混合数据集训练下，高维统一表征在几乎所有指标上平均提升约20%，特别是在语音WER上展现了强大的抗干扰解耦能力（VAE在混合数据上训练后WER飙升，而统一表征反而下降）。

5. 优势与局限

主要优势：
1. 开创性统一生成：首个能在一个音频片段内端到端生成包含清晰语音、音乐和音效连贯场景的非自回归模型。
2. 架构极简且高效：无需复杂的任务特定模块，仅靠结构化文本和单一DiT实现多声部协调，避免了多模型拼接带来的声学掩蔽和能量失衡。
3. 细粒度可控性：结构化多视角设计支持对音频各层独立控制，且与LLM Agent无缝衔接。
局限性：
1. 时长固定：受限于训练数据，目前只能生成10秒的音频，无法生成变长内容。
2. 语音控制粒度与质量受限：不支持声音克隆（无显式说话人身份条件），且语音清晰度（WER）仍落后于专门的TTS系统。
3. 可复现性受限：模型训练依赖于7.7万小时的私有数据超集，而非公开的ACAVCaps，社区难以完全复现。

6. 关键结论与启发

最重要的Takeaway：统一音频生成的关键不在于堆砌特定领域的模型模块，而在于提供结构化的条件解耦（多视角文本）和高容量的统一表征（语义-声学潜空间），这能大幅降低跨模态对齐难度并解决多声部融合冲突。
对后续研究的启发：
1. 数据标注范式转移：未来的音频生成数据集应摒弃单一的粗粒度全局描述，转向类似本文的多视角、结构化标注体系。
2. 生成空间的选择：在复杂混合任务中，高维语义-声学联合空间显著优于纯声学低维空间，这为其他多模态生成任务（如视频生成中的多主体运动）提供了表征层面的参考。
3. 评估体系的完善：本文提出的LLM-as-a-judge评估指标（PAFI，物理声学保真度指数）为自动评估复杂混合音频的物理连贯性提供了新思路，可扩展至其他音视频生成领域。
4. 延伸方向：突破固定时长限制、引入更精细的时序控制（如音效发生的具体时间点）和说话人身份控制，将是统一音频生成走向实用的下一步。

#15

cs.SD

Alibaba (World Famous IT Company)

VoiceGiraffe: A Benchmark for Extreme Long-Context Audio-Language Understanding

Jashin Ye, Dongxiao Wang, Yixuan Ye, Sashuai Zhou, Weihuang Lin 等 (13 人)

Sound (cs.SD)

Comments: Benchmark Project: this https URL

📄 Abstract 📥 PDF

查看摘要

While large audio language models (LALMs) have achieved remarkable progress in audio processing at the second- or minute-level scale, understanding hour-level audio remains a fundamental bottleneck. Existing benchmarks predominantly rely on short clips or artificially concatenated segments, failing to faithfully assess LALM capacity for long-range information comprehension in real-world scenarios such as podcasts and lengthy speeches. To address this gap, we introduce VoiceGiraffe, a novel benchmark designed to rigorously evaluate LALMs across diverse real-world scenarios, modalities, and languages under long-context settings. It comprises 1500 curated triplets structured into a dual-level taxonomy of single-hop perception and multi-hop reasoning. We evaluate a broad suite of open-source and proprietary LALMs against human performance. Results underscore three fundamental findings. First, VoiceGiraffe remains highly challenging and far from saturation. Second, we show that no single inference paradigm universally dominates. The E2E inference benefits models with native long-context audio understanding, cascaded caption aggregation stabilizes small models overwhelmed by hour-scale audio, and reasoning-enhanced cascading with external LLM helps weaker models but can bottleneck stronger proprietary systems. Third, we reveal long-range memory persistence as a key bottleneck. LALMs are better at answering questions that require connecting salient causal cues than those requiring sustained tracking of sparse events across long audio, whereas humans show the opposite pattern. These findings position VoiceGiraffe as a challenging and diagnostic testbed for long-form audio understanding, highlighting the need for LALMs with persistent memory and robust long-range aggregation.

📖 深度解读

1. 一句话总结

本文提出了VOICEGIRAFFE——首个针对小时级超长音频的双语理解基准，揭示了当前大音频语言模型在长程记忆持久性和细粒度声学感知上存在严重瓶颈，距离人类水平仍有巨大差距。

2. 研究背景与动机

核心问题：如何评估和提升大音频语言模型（LALMs）在小时级超长音频场景下的理解和推理能力。
重要性：随着LALMs被广泛应用于播客、会议、体育赛事等真实场景，处理小时级音频已成为核心需求。但当前模型面临音频token密集、长上下文预训练不足等挑战，导致长音频处理性能严重衰退。
现有方法不足：
1. 时长不够：现有基准大多仅覆盖10秒到10分钟的短/中音频，无法触及小时级真实场景。
2. 缺乏真实性：部分长音频基准通过拼接短音频构建，破坏了自然的时间连续性和稀疏的长程依赖。
3. 评估维度单一：缺乏双语、跨领域（语音/音效/音乐交织）以及从单跳感知到多跳推理的系统性评估。

3. 核心方法

提出框架：VOICEGIRAFFE基准，包含123段总长113.1小时的真实长音频，以及1500个精心设计的问答对。
关键创新点：
1. 小时级真实语料：首次采用完整的真实世界长录音（平均55.2分钟），涵盖中英双语及5大领域（体育、电竞、电视剧、新闻、播客），包含语音、音效和音乐的自然交织。
2. 双层任务体系（从感知到推理）：
- Tier-1 单跳感知：时间定位、语义内容、声学事件、副语言分析（情感/音色等）。
- Tier-2 多跳推理：因果对齐（串联分散的因果线索）、事件追踪（跨长时段追踪稀疏事件状态），要求模型聚合多个不连续片段的证据。
  3. 严苛的数据清洗管线：通过VAD分割、分层字幕生成、检索锚定的QA生成，以及“文本偏见消除-声学自动验证-人类专家审核”三重过滤，确保问题必须依靠听音频才能作答。
核心思路直觉解释：就像考查一个学生是否认真听了一场1小时的讲座，不仅要问他某分钟讲了什么（单跳感知），还要问他开头提到的某个概念和结尾的结论有什么因果联系，或者让他找出讲座中某件不起眼的小事一共发生了几次（多跳推理）。

4. 实验与结果

数据集/基准：VOICEGIRAFFE（113.1小时，1500个QA对）。
对比基线：9个开源模型（如Qwen-Omni系列、Audio-Flamingo等）和4个闭源模型（Gemini系列、GPT-4o-Audio等），外加人类参考基准。
主要实验结果：
1. 整体极难：在端到端（E2E）推理中，仅Qwen3.5-Omni-Plus超越人类（76.00% vs 70.51%）；开源模型在级联字幕模式下最高仅50.60%，远未达到及格线。
2. 推理范式因模型而异：原生长上下文强的模型适合E2E（保留声学细节）；弱模型适合级联字幕聚合（防信息过载）；引入外部大推理模型（LRM）能救弱模型，但会拖累强闭源模型。
3. 长程记忆是核心瓶颈：模型在“因果对齐”上得分远高于“事件追踪”，而人类恰好相反。说明模型擅长找显眼的因果线索，但极不擅长在长音频中持续记忆和检索稀疏事件。
消融实验揭示：
1. LRM选择极其敏感：使用Gemini-3.1-Pro做推理增强平均提升22%，但使用GPT-5.2反而让强模型性能下降9%（引入幻觉和伪因果）。
2. 副语言感知缺陷：开源与闭源模型在“音高”感知上集体失败，是最大短板。
3. 语言偏见：中国模型普遍中文表现更好，美国模型偏向英文，且在依赖声学线索的副语言任务上语言偏见最严重，说明当前模型未学到完全语言无关的声学表征。

5. 优势与局限

主要优势：
1. 填补空白：首个真正意义上针对小时级、双语、全模态（语音+音效+音乐）交织的音频理解基准。
2. 诊断性强：双层任务设计精准定位了模型“长程记忆差”这一核心痛点，而非笼统的“长上下文不行”。
3. 评估全面：对比了E2E、级联字幕、推理增强级联三种推理范式，为工程落地提供了明确的范式选择依据。
局限性：
1. 人类基准的获取方式：由于听1小时音频负担极重，人类基准是通过抽样评估获得的，可能无法完全代表人类在完整聆听后的真实上限。
2. 级联范式的上限受限：级联推理的效果高度依赖ASR和音频字幕生成的质量，一旦前期丢失细粒度声学信息，后期再强的LRM也无法挽回（信息瓶颈）。
3. 题目形式单一：目前仅支持多选题，未能评估开放式生成能力。

6. 关键结论与启发

最重要的Takeaway：当前LALMs的软肋不在于“推理”，而在于“记忆”。它们能根据找到的显眼线索进行推理，但无法像人类一样在小时级跨度中持续追踪和记忆稀疏的声学事件。
对后续研究的启发：
1. 架构层面：亟需为LALMs引入显式的长期记忆模块或持久化状态机制，以解决小时级上下文中的信息遗忘问题。
2. 训练层面：需要更多小时级原生长音频的预训练，以克服密集音频token带来的计算开销和信息稀释。
3. 系统层面：未来的级联系统不应仅将音频转为文本喂给LLM，而应设计“可回溯验证”机制，让推理模型在遇到不确定的文本描述时，能重新“回听”原始音频片段以核实证据。

#16

cs.SD

Renmin University of China (985, 211)

Unified Synthesis of Compositional Speech and Sound from Free-Form Text Prompts

Yuyue Wang, Xihua Wang, Xin Cheng, Yijing Chen, Ruihua Song

Sound (cs.SD); Artificial Intelligence (cs.AI); Multimedia (cs.MM)

📄 Abstract 📥 PDF

查看摘要

Audio generation has made significant progress, yet synthesizing unified audio where speech and sounds are naturally composited remains a challenge. Current methods either rely on disjoint pipelines, which fail to capture fine-grained interactions, or require structured inputs and external text rewriting, which limits the flexibility of free-form text prompts. In this paper, we introduce a new task: Free-Form-Text-Prompt-to-Unified-Audio generation, which aims to directly synthesize unified audio containing speech, sound, and their composites from unconstrained natural language. To address this task, we propose PlanAudio, a unified, autoregressive LLM-based framework. First, it simplifies the model architecture by leveraging intrinsic LLM reasoning capability instead of traditional text encoders. Second, it introduces a semantic latent chain-of-thought mechanism, an implicit planning mechanism that bridges high-level semantic understanding and low-level acoustic synthesis. Furthermore, we create PlanAudio-Bench, a specialized benchmark for evaluating composite audio scenarios. We perform evaluations in the scenarios of speech, sound, and their composites. The results demonstrate that PlanAudio generally outperforms the existing pipeline and unified baselines, while staying competitive with models designed for a single scenario. Our analysis further reveals the superiority of semantic latent CoT over other CoT mechanisms and highlights the importance of continuous multi-scenario training curricula.

📖 深度解读

1. 一句话总结

本文提出了PlanAudio框架，通过引入“语义隐空间思维链”机制，让大语言模型直接从无约束的自然语言提示词中，一步到位地生成语音与音效自然交织的复合音频。

2. 研究背景与动机

核心问题：如何从自由格式的文本提示词（如“欢快的音乐响起，Trevor说‘太棒了！’，随后是热烈的掌声”）直接生成包含语音、音效及两者交织的统一音频。
重要性：现实世界中的音频往往是语音和环境音在时间与语义上紧密交织的复合体，能够自然地生成这种复合音频对影视配音、虚拟现实等应用至关重要。
现有方法不足：
1. 流水线方法：先用模型拆分文本，分别生成语音和音效再合并，导致时间对齐困难（如掌声提前出现）或声学特征不匹配。
2. 现有统一模型：依赖结构化输入（需要用户按特定格式输入）或外部大模型重写文本，不仅限制了输入灵活性，还增加了系统复杂度和级联误差风险。

3. 核心方法

提出框架：PlanAudio，一个基于自回归大语言模型（LLM）的统一音频生成框架。
关键创新点：
1. 无文本编码器架构：直接利用LLM内置的分词器和推理能力处理自由文本，抛弃了传统的文本编码器，简化了架构。
2. 语义隐空间思维链：在生成底层声学细节前，先在连续的语义隐空间中进行“隐式规划”，生成一段语义特征序列作为桥梁。
3. 构建新基准：创建了PlanAudio-Bench，专门用于评估语音与音效复合场景的生成质量。
核心思路直觉解释：就像画一幅复杂的画作，不能上来就抠细节。PlanAudio的“语义隐空间CoT”相当于先打一个“语义草稿”（规划哪里画人、哪里画景、先后顺序如何），然后再根据草稿填充“声学色彩”（生成具体的音频波形）。这种“先规划后填细节”的两步走策略，有效避免了直接从文本跳到音频时容易出现的语义遗漏和时间错乱。

4. 实验与结果

数据集/基准：AudioCaps（音效）、LibriTTS（语音）、本文自建的PlanAudio-Bench（复合音频）。
基线方法：
统一模型：VoiceLDM（需外部重写模块）。
专家模型：AudioLDM2, Tango, Make-An-Audio（音效），PromptTTS++（语音）。
流水线方法：AudioLDM2-Sound + AudioLDM2-Speech拼接。
主要实验结果：
复合场景：PlanAudio在客观指标（FAD, KL等）和主观评分（时序正确性、语义对齐、真实性均超3.1/5分）上全面超越流水线和VoiceLDM。特别是在时序编排上，能精准对齐文本描述的事件顺序。
单一场景：在纯音效和纯语音生成上，PlanAudio超越了同属统一架构的VoiceLDM，且与专门训练的专家模型表现相当，展现了极强的泛化性。
消融实验揭示：
CoT机制对比：语义隐空间CoT > 无CoT > 显式文本CoT > 声学CoT。显式文本CoT受限于自然语言对密集重叠声音的表达力；声学CoT则因为过于关注重建细节而缺乏高层语义规划能力。
数据课程学习：均匀混合三种场景数据训练效果最好。如果先学单一场景再学复合场景（顺序训练），会导致严重的“灾难性遗忘”；且复合场景的学习能正向迁移，提升单一场景的生成能力。

5. 优势与局限

主要优势：
1. 极简且灵活：摆脱了外部文本重写和结构化输入的束缚，真正实现“自由文本到复合音频”的端到端生成。
2. 时序与交互性强：通过隐式语义规划，有效解决了复合音频中语音与音效时间错位和声学割裂的问题。
3. 多场景泛化：单一模型在复合、音效、语音三大场景下均表现优异，无需针对特定任务切换模型。
局限性：
1. 语音清晰度仍有提升空间：在复合场景下，由于使用真实世界AudioSet数据（背景音干扰大）以及音频编解码器的重建上限，其语音识别准确率（WER）略逊于使用干净合成数据训练的VoiceLDM-m。
2. Codec瓶颈：底层声学生成仍受限于现有音频分词器的表达能力，未来需要更强的编解码器来平衡语义与声学细节。

6. 关键结论与启发

最重要的Takeaway：在跨模态生成中，尤其是涉及多元素复杂交织的复合音频生成，“先在连续语义空间做隐式规划，再进行底层声学生成”（Semantic Latent CoT）是弥合高层语义与低层声学鸿沟的最优解，它比用自然语言做中间步骤（显式CoT）或直接用声学特征做规划都更有效。
对后续研究的启发：
1. 隐空间推理的潜力：这种Latent CoT的思想可推广至视频生成、多模态交互等领域，作为解决复杂组合生成任务的通用范式。
2. 复合数据的正向迁移：训练统一模型时，不应将复杂复合任务视为负担，而应视为提升模型特征判别力、促进单一任务性能的增效剂。
3. 评估体系完善：随着生成任务向复合化发展，亟需更多像PlanAudio-Bench这样关注“时序交互”和“真实性”的细粒度评估基准。

#17

cs.SD

EigeNet: Geometry-Informed Multi-Modal Learning for Few-shot Novel View RIR Prediction

Chong Jing, Zitong Lan, Junan Zhang, Zhizheng Wu

Sound (cs.SD); Artificial Intelligence (cs.AI); Multimedia (cs.MM)

Comments: Code available on this https URL

📄 Abstract 📥 PDF

查看摘要

Predicting spatially varying Room Impulse Response (RIR) from sparse observations is a critical but highly challenging inverse problem for immersive spatial audio rendering. In this work, we present EIGENET, a geometry-informed multi-modal framework for few-shot novel view RIR prediction. At its core is a Cross-view Alternate-attention Transformer that iteratively refines local intra-view acoustic structures and global cross-view spatial relationships. We empirically demonstrate that this architecture is capable of making full use of the multi-view multi-modal context while performing spatial-temporal reasoning for RIR prediction. Inspired by acoustic ray tracing, we design a geometry-informed modulation block to formulate the connection between geometric features and RIR power spectrum. In the mean time, an auxiliary loss is introduced to transform the single-target waveform prediction into a multi-task learning framework. Through ablation studies, we demonstrate that this design yields consistent performance gains regardless of the underlying backbone, thereby confirming its foundational utility and architecture-agnostic generalizability for RIR prediction task. Evaluated on both simulated and real-world benchmarks, EIGENET achieves both state-of-the-art performance in few-shot novel view RIR prediction and sim-to-real generalization. Codes and checkpoints are available on this https URL .

📖 深度解读

1. 一句话总结

本文提出了EIGENET框架，通过引入交替注意力机制和基于物理声学先验的几何调制模块，解决了在极少参考样本下预测新视角房间脉冲响应（RIR）的难题，实现了跨房间的泛化及从仿真到真实场景的迁移。

2. 研究背景与动机

核心问题：如何在只有极少量的参考观测（少样本）和房间几何信息的情况下，预测房间内新位置的空间变化房间脉冲响应（RIR）。
重要性：RIR是沉浸式空间音频渲染（如AR/VR、虚拟世界）的核心，决定了环境的听觉身份。传统获取高保真RIR需要极其耗时耗力的物理测量。
现有方法不足：
1. 时空与空间关系捕捉不足：现有方法多采用标准的自注意力或交叉注意力，难以同时有效捕捉单一RIR内部的时序结构和多视角间的空间关联。
2. 缺乏物理可解释性：现有方法将RIR预测视为黑盒映射，没有显式建模房间几何特征与声学模式（如功率谱）之间的内在物理关联，导致在复杂几何配置下表现不佳。

3. 核心方法

提出框架：EIGENET，一个融合几何信息的跨模态少样本RIR预测框架。
关键创新点：
1. 跨视角交替注意力Transformer（CVAT）：首次将交替注意力机制引入多视角多模态音频学习。它交替执行“局部注意力（视角内，捕捉RIR时序结构）”和“全局注意力（视角间，聚合空间关系）”，迭代优化特征。
2. 几何调制模块：受声学光线追踪启发，利用房间几何特征通过自适应层归一化（DiT block）显式调制目标RIR的声学特征，强化几何与声学的物理关联。
3. 多任务学习范式：引入多倍频程功率谱辅助损失，将单一的波形预测转变为“波形+频谱”的多任务学习，提供物理先验约束。
核心思路直觉解释：
CVAT：就像人类在推测新位置的回声时，既需要仔细倾听已知位置的完整声音细节（局部/视角内），又需要对比不同位置的声音差异来感知空间（全局/视角间），两者交替进行能更精准地定位和推测。
几何调制与多任务：房间的形状和材质决定了声音的能量衰减规律（物理先验）。因此，与其让网络盲目猜测新位置的波形，不如先用几何信息“框定”出这个位置大致的频谱能量分布（7个频段的功率谱），再在这个物理约束下去精细绘制具体的波形细节。

4. 实验与结果

数据集：AcousticRooms（大规模仿真数据集）和 Hearing-Anything-Anywhere（HAA，真实世界录制数据集）。
基线方法：Random Across/Same Room, Linear Interp., KNN, xRIR（主要学习基线）, Diff-RIR（物理渲染基线，仅HAA）。
主要实验结果：
仿真数据：在K=1,4,8不同参考数量下，EIGENET全面超越xRIR。例如在K=8时，EDT降至0.041s，C50降至1.242dB，T60降至7.605%，均显著优于xRIR。
真实数据：展现出极强的Sim-to-Real泛化能力。在极具挑战性的强吸声房间中，xRIR的T60误差高达191%~254%，而EIGENET稳定在46%~49%。
消融实验揭示：
1. 注意力机制差异：通过Token掩码探针实验发现，自注意力和交叉注意力本质上是“对参考声学Token的软插值”（极度依赖声学Token，忽略几何Token）；而交替注意力真正实现了对“多视角多模态上下文”的联合推理。
2. 调制模块的普适性：几何调制模块不仅与CVAT配合效果最佳，且作为一种即插即用模块，加入交叉注意力和自注意力中均能带来一致且显著的性能提升，证明了其架构无关的通用性。
3. 频谱目标选择：回归7频段多倍频程功率谱比回归密集的STFT频谱效果更好，因为后者包含过多难以回归的声学细节，而前者提供了更清晰的物理信号。

5. 优势与局限

主要优势：
1. 物理可解释与强泛化：打破了黑盒映射，将几何-声学物理先验融入网络，极大提升了跨房间和Sim-to-Real的泛化能力。
2. 卓越的少样本性能：即使在极稀疏的K=1设定下，依然保持极低的预测误差，实用性强。
3. 模块通用性：几何调制模块具有架构无关性，可广泛惠及其他RIR预测主干网络。
局限性：
1. 真实数据的尺度效应异常：在HAA真实数据集上，随着参考视角K的增加，性能并未呈现预期的单调提升（作者推测为数据集偏差），说明模型在真实极端复杂场景下的鲁棒性仍需探究。
2. T60预测对几何信息不敏感：探针实验表明，所有注意力机制在预测T60（混响时间）时都主要依赖声学Token，因为T60是全局扩散场量（近似符合Sabine方程，弱依赖于局部位置），模型未能充分利用局部几何细节进一步突破T60的预测上限。

6. 关键结论与启发

最重要的Takeaway：在RIR预测中，显式引入“几何决定频谱能量分布”的物理先验（几何调制+多倍频程功率谱辅助损失），比单纯依赖数据驱动的黑盒映射有效得多；同时，交替注意力机制能迫使模型真正进行多模态联合推理，而非简单地对声学信号进行插值。
对后续研究的启发：
1. 物理先验的模块化设计：未来在其他物理场（如热传导、电磁波）的神经渲染中，也可以借鉴这种“物理约束作为调制模块+辅助损失”的范式，而非端到端的硬约束。
2. 解耦全局与局部声学特征：由于T60等全局混响特征与局部几何弱相关，未来的RIR预测模型可以考虑将RIR解耦为“全局房间混响”和“局部早期反射”分别建模，可能会进一步提升精度和物理合理性。
3. 注意力机制的选择：对于多视角多模态任务，交替注意力应成为替代传统交叉/自注意力的重要候选方案。

#18

cs.SD

DEMON: Diffusion Engine for Musical Orchestrated Noise

Ryan Fosdick

Sound (cs.SD)

Comments: 15 pages, 3 figures, 15 tables. Project page with audio samples and demo video: this https URL

📄 Abstract 📥 PDF

查看摘要

We present DEMON, a real-time diffusion engine that makes the denoising process playable as a live musical instrument: a control surface both broad (many parameters shaped per-frame across the output) and responsive (each control taking effect as fast as its place in the denoising loop allows). Built on ACE-Step 1.5 and StreamDiffusion's ring-buffer architecture with TensorRT acceleration, it sustains up to 12.3 decoder completions per second for 60-second music on a single consumer GPU (RTX 5090), or 11.3 generations per second at our production ring-depth of 4. At these rates denoising parameters become viable as live performance controls, but the ring buffer propagates per-request changes only at its drain rate, a floor of S denoising steps. We contribute four mechanisms. (1) Per-slot heterogeneous denoise scheduling: each ring-buffer slot owns its timestep schedule, so a moving denoise slider is tracked without wiping the in-flight queue, where the upstream global-schedule design must rebuild and discard it. (2) Shared mutable per-step state, giving any parameter consulted at every solver step next-tick effect, bypassing ring-buffer drain. (3) Per-frame source blending: a sampling-time control on the standard SDE re-noise step, giving a framewise transformation-strength axis that complements scalar denoise scheduling. (4) Windowed VAE decode exploiting receptive-field analysis for an 8.0x decode speedup. Together these separate streaming-diffusion parameters into four propagation classes, by onset and convergence latency.

📖 深度解读

1. 一句话总结

本文提出了DEMON，一个基于流式扩散模型的实时音乐生成引擎，通过优化环形缓冲区调度和参数传播机制，将去噪过程变成了像合成器一样可实时、细粒度控制的“乐器演奏界面”。

2. 研究背景与动机

核心问题：如何让音乐扩散模型不仅是一个“输入提示-等待-输出”的批处理工具，而是变成一个响应迅速、可实时操控的现场演奏乐器？
重要性：音乐人习惯了合成器和DAW亚毫秒级的实时响应，现有的生成式AI音乐工具大多存在严重延迟，无法用于现场表演或实时交互式创作。
现有方法不足：
1. 自回归流式模型（如Lyria RealTime）：按块（如2秒）生成，控制指令只能在块边界生效，粒度太粗，且已生成的token无法修改。
2. 批处理扩散模型：完全不支持中途交互控制。
3. 现有流式扩散（如图像领域的StreamDiffusion）：虽然通过环形缓冲区实现了高吞吐，但改变参数（如去噪强度）时需要清空并重建整个队列，导致长时间“死机”（无音频输出），且无法对音频的不同时间段进行差异化控制。

3. 核心方法

提出框架：DEMON，基于ACE-Step 1.5音乐模型和StreamDiffusion环形缓冲架构，结合TensorRT加速的实时流式音乐生成管线。
关键创新点：
1. 逐槽异构去噪调度：打破原架构中所有生成任务共享一个全局时间步长列表的设计。每个环形缓冲槽位在加入时“烘焙”自己的调度表。这样，当音乐人滑动去噪滑块时，新槽位用新参数，老槽位继续走完老参数，无需清空队列，保证了音频流不中断。
2. 共享可变逐步状态：对于每一步去噪都要读取的参数（如SDE曲线），将其设为全局共享且可热更新的状态。修改后，所有正在生成的槽位在下一个Tick立刻读取新值，绕过了环形缓冲区的固有延迟。
3. 逐帧SDE源混合：在SDE随机去噪的加噪步骤中，加入逐帧可控的混合系数。允许音乐人设定一首歌的不同时间段对源音频的保留程度（例如：开头像原曲，结尾完全变奏），这是全局去噪强度无法做到的。
4. 窗口化VAE解码：利用Oobleck VAE的感受野特性，只解码当前需要播放的短时间窗（加少量重叠），而不是整首60秒的音频，实现了8倍的解码加速且音质无损。
核心思路直觉解释：把流式生成想象成一条流水线传送带，上面同时有处于不同加工阶段的“半成品”音乐。传统方法改参数就像按了紧急停止键，要把传送带清空重来；DEMON的做法是，老半成品继续按老图纸加工完（保证不断音），新投入的半成品用新图纸，同时对于那些“调料类”参数（如混响大小），直接在下一个加工步骤统一换新，不用等半成品走完整个流水线。

4. 实验与结果

数据集/基准：使用6种不同曲风（电子、氛围、爵士等）的源音频进行跨曲风翻唱测试；使用FMA-small子集进行分布级质量评估。
对比基线：Lyria RealTime（自回归流式）、MusicGen（批处理自回归）、StreamDiffusion原版全局重置设计。
主要结果：
极致速度：在单张消费级显卡（RTX 5090）上，60秒音乐达到12.3次/秒的生成速度，远超实时需求。
吞吐量保持：在连续滑动去噪滑块的极限压力测试下，DEMON保持了100%的音频输出率，而全局重置基线因为不断清空队列，仅有1.7%的时间有声音输出。
响应延迟分级：核心控制参数（SDE曲线等）实现1个Tick（约43ms@depth=4）的极速响应；全局参数（提示词切换等）延迟约为470ms，远优于Lyria的2秒块延迟。
消融实验揭示：
逐帧SDE控制确实产生了全局去噪无法实现的时变梯度（如源音频保留度随时间单调递减），且与ODE去噪在数学上是独立的操作。
窗口化VAE解码在0.5秒重叠下，与全量解码在16-bit PCM级别是样本级完全一致的，无任何音质折损。
流式输出与批处理输出在16-bit PCM级别完全一致，管线未引入质量退化。

5. 优势与局限

主要优势：
1. 开创性的实时交互性：首次将扩散模型的去噪参数变成了可实时演奏的控制面，延迟低至几十毫秒。
2. 无缝的参数切换：异构调度确保了在剧烈调参时音频流绝对不断裂，这对现场演出至关重要。
3. 时空解耦的控制维度：既有时域上的快速响应（通过共享状态），又有空域上的细粒度塑形（通过逐帧曲线），提供了极广的演奏表现力。
局限性：
1. 控制的是“动态”而非“内容”：系统只能控制声音如何演变，无法精确指定“在某一秒弹奏某个和弦或音符”，这受限于基础模型的能力。
2. 非无限流生成：生成的是固定长度（如60s/240s）的音乐片段，有明确的起止结构，无法像自回归模型那样无限续写。
3. 缺乏主观听感评估：所有质量评估均基于客观指标（CLAP, FAD, SNR），论文声称的“适合作为乐器演奏”缺乏用户听感测试（MOS）的严格验证。特别是“调度迁移”机制虽快，但作者承认听感上有瞬态发闷，缺乏量化数据。

6. 关键结论与启发

最重要的Takeaway：当扩散模型的生成速度足够快（>12次/秒）时，去噪过程本身就不再是不可见的黑盒计算，而可以被重新定义为一种实时、连续的数字乐器控制界面。环形缓冲区是达成这一速度的关键，但也带来了参数传播的固有延迟，必须通过精细的参数分类与状态管理来克服。
对后续研究的启发：
1. 参数传播分类法：论文提出的四类参数传播机制（Per-request, Migrated-schedule, Per-step shared-mutable, Model-weight）可广泛推广至任何流式扩散架构（包括图像和视频），为后续系统的交互设计提供了理论框架。
2. 结合自回归与扩散：当前系统无法无限续写，未来可探索将自回归的“无限推流”能力与扩散模型的“细粒度实时控制”结合的混合架构。
3. 引入更精细的条件控制：当前对音乐结构的控制较粗，未来可接入类似ControlNet的适配器，实现节拍、旋律级别的实时引导，让AI乐器真正具备音符级的掌控力。

#19

cs.SD

Cross-modal characterization of infant cry: validation of a chest-surface accelerometer in extracting acoustic vocal function measures

Winko W. An, Saketh Sundar, Lisa Yankowitz, Daryush D. Mehta, Carol L. Wilkinson

Sound (cs.SD); Medical Physics (physics.med-ph)

📄 Abstract 📥 PDF

查看摘要

Background: Infant cry acoustics provide a promising window into early neurodevelopment and may serve as scalable biomarkers for neurodevelopmental disorders. However, conventional microphone-based recordings are highly susceptible to environmental noise and raise privacy concerns in real-world clinical settings. Chest-surface accelerometers may offer a robust alternative by capturing vibrations directly from the larynx. Methods: We evaluated the validity of a chest-mounted accelerometer (ACC) for infant cry analysis by comparing acoustic features derived from ACC and simultaneously recorded microphone (MIC) signals during routine vaccination visits. The final sample included 85 infants (41 at 4 months; 44 at 12 months) from a diverse pediatric population. Seven vocal measures were extracted from both modalities, including fundamental frequency (F0), jitter, shimmer, cepstral peak prominence (CPP), and harmonics-to-noise ratio (HNR). Agreement and consistency between modalities was assessed using intraclass correlation coefficients (ICCs). Results: F0 demonstrated excellent agreement between ACC and MIC recordings (ICC > 0.94). Jitter measures also showed good-to-excellent agreement, while CPP demonstrated moderate agreement. Shimmer and HNR showed lower absolute agreement and systematic bias between modalities, reflecting possible differences in signal transmission and noise sensitivity. Conclusion: In summary, chest-surface accelerometers can reliably capture several clinically relevant acoustic features of infant cry, particularly temporal measures of F0 and jitter. This approach offers a noise-robust and privacy-preserving alternative to microphone-based recordings, supporting its potential use in scalable clinical and developmental research applications.

📖 深度解读

1. 一句话总结

这篇论文验证了贴在婴儿胸部的加速度计可以替代传统麦克风，在嘈杂的临床环境中可靠地提取婴儿哭声的声学特征（尤其是基频和抖动），从而提供了一种抗噪且保护隐私的早期神经发育筛查新工具。

2. 研究背景与动机

核心问题：如何在实际临床环境中可靠、大规模地采集婴儿哭声声学特征，以作为早期神经发育障碍（如自闭症）的生物标志物？
重要性：婴儿哭声的声学特征（如基频F0）与早期大脑发育密切相关，能够预测语言发育和自闭症等神经发育风险，具有作为无创、可扩展筛查工具的巨大潜力。
现有方法不足：传统麦克风录音在真实临床环境中面临两大痛点：一是极易受环境噪声（如家长说话、医疗设备声）干扰，导致数据可用率低（有研究显示仅65%可用）；二是存在严重的隐私泄露风险（会录下看护人的对话等敏感信息），限制了数据共享和大规模模型开发。

3. 核心方法

提出方法：使用胸部表面加速度计（ACC）替代传统麦克风（MIC）采集婴儿哭声信号，并对比两种模态提取的声学特征一致性。
关键创新点：
1. 跨模态验证：首次系统性地在婴儿群体中验证了胸部加速度计与麦克风在提取哭声声学特征上的一致性。
2. 临床场景适配：利用常规疫苗接种引发疼痛哭声的自然场景，在真实嘈杂的诊所环境中完成验证，贴近实际应用。
3. 解决痛点：提出了一种既抗环境噪声又保护语音隐私的婴儿发声数据采集新范式。
核心思路（直觉解释）：如果把麦克风比作“在房间里听声音”，那加速度计就像是“直接贴在发声乐器上感受震动”。婴儿啼哭时，声带震动会传导到胸壁，加速度计直接捕捉这种机械震动。因为环境噪音（如人说话、机器响）是空气传播的，不会引起胸壁震动，所以加速度计天然“屏蔽”了外界噪音，同时也听不清别人说了什么，从而一举解决了抗噪和隐私问题。

4. 实验与结果

数据集：85名婴儿（41名4个月大，44名12个月大），在波士顿儿童医院常规疫苗接种时采集的同步MIC和ACC录音。
基线方法：以同步录制的高质量麦克风（MIC）信号作为参考基准。
主要实验结果（基于组内相关系数ICC评估）：
基频（F0）：两种模态一致性极佳（ICC > 0.94），这是自闭症等神经发育研究中最核心的指标。
抖动（Jitter，频率微扰）：一致性良好到极佳（ICC约0.82~0.96）。
其他指标：频谱峰突出度（CPP）一致性中等；振幅微扰和谐噪比（HNR）绝对一致性较差，且存在系统性偏差（ACC测出的Shimmer偏低，HNR偏高）。
消融/偏差分析揭示：
Shimmer和HNR的偏差并非随机误差，而是由物理传输机制决定的：ACC捕捉的是组织传导震动，对喉部湍流噪声不敏感，且屏蔽了环境干扰，因此信号显得更“稳”（振幅变化小，噪声比例低），导致Shimmer偏低、HNR偏高。
这种偏差在4个月和12个月大的婴儿中趋势一致，且与成人声学研究的发现相吻合。

5. 优势与局限

主要优势：
1. 抗噪与隐私双重保障：天然免疫空气传播的环境噪声，且不包含可识别的语音信息，非常适合真实临床和家庭环境的大规模部署。
2. 核心特征提取可靠：对于神经发育研究中最受关注的F0及Jitter特征，ACC与金标准MIC高度一致，完全可替代使用。
3. 采集几何位置稳定：不像麦克风会因婴儿移动或家长抱姿导致距离忽远忽近，贴片传感器与皮肤距离恒定，信号幅度更稳定。
局限性：
1. 丢失声道信息：ACC只能测声带震动，无法捕捉口腔、舌头、鼻腔等声道结构对声音的塑造（即无法提取共振峰等高级特征）。
2. 使用门槛略高：相比直接掏出手机录音，ACC需要专用传感器、粘贴操作和配套软件，增加了临床实施的硬件和操作成本。

6. 关键结论与启发

最重要的Takeaway：胸部加速度计是一种有效且可靠的婴儿哭声采集工具，尤其在提取与神经发育障碍高度相关的基频（F0）特征上可完美替代麦克风，同时克服了临床应用中最大的噪声和隐私障碍。
后续研究启发/延伸方向：
1. 传感器位置优化：未来可尝试将传感器贴在颈部更高处或脸颊，看是否能同时捕捉到声道信息（共振峰），弥补ACC的物理盲区。
2. 算法级偏差校正：针对ACC在Shimmer和HNR上存在的系统性偏差，可以构建MIC-ACC配对数据集，训练深度学习模型进行跨模态校准，使ACC数据更贴近传统声学标准。
3. 大规模队列研究：利用该技术低隐私风险的优势，可开展大规模、家庭环境下的纵向婴儿哭声追踪研究，推动自闭症等早期筛查模型的落地。

#20

cs.SD

ByteDance (World Famous IT Company)

From Talking to Singing: A New Challenge for Audio-Visual Deepfake Detection 跨领域

Ke Liu, Jiwei Wei, Wenyu Zhang, Shuchang Zhou, Ruikun Chai 等 (8 人)

Artificial Intelligence (cs.AI); Multimedia (cs.MM); Sound (cs.SD)

Comments: Accepted by ICML 2026

📄 Abstract 📥 PDF

查看摘要

With rapid advances in audio-visual generative models, reliable forgery detection becomes increasingly critical. Existing methods for audio-visual deepfake detection typically rely on cross-modal inconsistencies. In singing, rhythmic vocalization weakens this coupling and introduces a nontrivial domain shift, substantially degrading detection performance. We construct the Singing Head DeepFake (SHDF) dataset using rhythm-aware generative models to fill the gap in singing benchmarks. To cope with cross-scenario domain shifts, we propose a Text-guided Audio-Visual Forgery Detection (T-AVFD) framework that generalizes across both talking and singing scenarios. T-AVFD comprises a facial authenticity pattern learner and a multi-modal differential weight learning module. The pattern learner aligns facial features with multi-granularity textual descriptions to learn generalizable authenticity patterns. The weight learning module preserves intrinsic audio-visual consistency and adaptively integrates it with authenticity patterns via differential weighting. Extensive experiments on multiple talking head deepfake datasets and SHDF show consistent improvements over existing baselines and strong robustness under diverse perturbations.

📖 深度解读

1. 一句话总结

本文将音视频深度伪造检测从“说话”场景扩展到更具挑战性的“唱歌”场景，构建了首个唱歌头像伪造数据集（SHDF），并提出了一种基于文本引导的面部真实性模式学习与多模态差分权重融合的检测框架（T-AVFD），有效解决了从说话到唱歌的跨场景域偏移问题。

2. 研究背景与动机

核心问题：现有的音视频深度伪造检测器高度依赖“唇部动作与语音同步（音画一致性）”这一线索，但在唱歌场景中，由于音乐伴奏和节奏性发声的存在，这种音画耦合关系被显著削弱，导致现有检测器性能急剧下降。
重要性：随着生成式AI的普及，高质量的伪造唱歌视频（如AI歌手）极易被用于制造虚假信息或进行身份欺诈，缺乏针对该场景的检测手段将带来严重的安全隐患。
现有方法不足：
1. 现有数据集几乎全部聚焦于“说话”场景，缺乏对“唱歌”这一高动态、强节奏场景的覆盖。
2. 现有检测方法过度依赖音画对齐作为核心伪造证据，面对唱歌场景带来的巨大域偏移时，真实与伪造样本的异常分数分布严重重叠，几乎失去判别能力（AUC接近50%）。

3. 核心方法

提出框架：Text-guided Audio-Visual Forgery Detection (T-AVFD)。该框架仅使用真实的说话视频进行训练，即可在未见过的说话和唱歌场景中实现泛化检测。
关键创新点：
1. 面部真实性模式学习器 (FAPL)：跳出传统的“音画对齐”思路，转而利用“面部语义丰富度”作为伪造证据。真实人脸的语义特征通常比伪造人脸更丰富、连贯。
2. 多粒度文本对比对齐：引入多粒度（全脸、眼睛、嘴巴）的正负文本提示词（如“真实的眼睛”vs“呆滞的眼睛”），结合Alpha-CLIP提取面部区域特征，通过对比学习将真实面部特征拉向正文本、推离负文本，从而学到不受场景限制的通用真实性模式。
3. 多模态差分权重学习 (MMDWL)：考虑到在不同场景下，音画一致性和面部真实性特征的可靠度不同，设计了自适应权重生成器，并引入人工先验调制向量，动态调整面部真实性特征、视觉特征和音频特征的融合权重。
核心思路直觉解释：传统的检测器像是一个“唇语专家”，只盯着嘴唇和声音是否对得上；但在唱歌时，嘴型和声音的对应关系变得复杂，专家就失效了。T-AVFD则引入了一位“面相专家”，它通过文本描述（如“有神的眼睛”）知道真实的人脸应该长什么样（因为AI生成的人脸往往在局部语义上显得空洞或呆滞），最后再通过一个“裁判”，根据当前是说话还是唱歌，动态决定更该听“唇语专家”还是“面相专家”的判断。

4. 实验与结果

使用数据集：
唱歌场景：本文自建的 SHDF 数据集（包含2600个真实样本，3000个由MEMO/Hallo2/EchoMimic生成的伪造样本）。
说话场景：AVLips, FakeAVCeleb (FKAV), TalkingHeadBench (THB)。
对比基线方法：包括监督方法（CViT, EfficientViT, RealForensics, LipFD）和无监督方法（AVAD, AVH-Align）。
主要实验结果：
跨场景泛化：在SHDF（唱歌）数据集上，所有基线方法的AUC均徘徊在50%左右（近乎瞎猜），而T-AVFD达到了 80.2% AUC 和 85.7% AP；在说话数据集上同样达到SOTA水平（如THB上AUC 93.0%）。
训练数据依赖性：当在唱歌数据上训练并在说话数据上测试时，基线方法AVH-Align性能崩溃（AP 57.7%），而T-AVFD依然保持强劲（AP 80.3%），证明了其跨域强泛化性。
鲁棒性：在6种视觉扰动（模糊、压缩、噪声等）下，T-AVFD在THB和SHDF上的平均AUC分别为84.6%和75.0%，远超基线。
消融实验揭示：
文本提示词的粒度（全脸+眼睛+嘴巴）缺一不可，全脸提示词贡献最大。
Alpha-CLIP比原始CLIP对真假文本的敏感度差异更大（真脸对正文本响应高，假脸对负文本响应高）。
差分权重学习（DWL）对于适应不同模态在未知场景下的可靠度至关重要，去除后性能显著下降。

5. 优势与局限

主要优势：
1. 问题视角新颖：首次系统性地揭示并量化了从“说话”到“唱歌”的域偏移挑战，填补了该领域的空白。
2. 泛化能力极强：仅用真实说话视频训练，即可在未见过的唱歌视频和多种扰动下保持优异性能，极具实用价值。
3. 机制可解释：通过文本引导和面部语义可视化，清晰解释了模型为何能区分真假（真实面部语义更丰富）。
局限性：
1. 人工先验调制：多模态融合中的调制向量 $\alpha$ 是人工设定的（[-0.1, +0.1, +0.1]），虽然论文验证了其有效性，但在更复杂的未知场景下，固定的人工先验可能缺乏适应性。
2. 生成器覆盖度：SHDF数据集虽然选用了当前先进的生成器，但未包含部分计算开销极大的最新模型（如Hallo3、InfiniteTalk），可能无法完全代表未来更极端的生成质量。

6. 关键结论与启发

最重要的Takeaway：在音视频伪造检测中，“音画同步性”是一个脆弱且受场景限制的线索；而“面部语义的丰富度与连贯性”是真实人脸更本质、更通用的特征，能够跨越说话与唱歌等不同场景的域偏移。
对后续研究的启发：
1. 数据集构建方向：深度伪造检测应跳出单一的“新闻播报式”说话场景，向唱歌、情感表达、极端表情等高动态、强解耦场景拓展。
2. 多模态融合策略：在多模态检测中，不应假设各模态的可靠性是一成不变的，差分加权或动态路由机制是应对跨域检测的关键。
3. 结合基础大模型：利用CLIP/LLM等大模型丰富的语义先验（通过文本提示词）来指导伪造特征的学习，是提升无监督/零样本检测泛化能力的有效途径。

#21

cs.SD

Beihang University (985, 211)

MTAVG-Bench 2.0: Diagnosing Failure Modes of Cinematic Expressiveness in Multi-Talker Audio-Video Generation 跨领域

Haitian Li, Yanghao Zhou, Heyan Huang, Liangji Chen, YiMing Cheng 等 (18 人)

Artificial Intelligence (cs.AI); Multimedia (cs.MM); Sound (cs.SD)

📄 Abstract 📥 PDF

查看摘要

In recent years, Multi-Talker Audio-Video Generation (MTAVG) models have shown promising performance on fundamental metrics such as lip-sync and audio-visual alignment. However, these metrics remain insufficient for assessing cinematic expressiveness in scene-level generation. In multi-character scenes, generation models must go beyond audio-visual realism to convey coherent character performance and other higher-level cinematic qualities. To fill this gap, we introduce MTAVG-Bench 2.0, a benchmark for diagnosing failure modes of cinematic expressiveness in multi-talker audio-video generation. Unlike prior settings that mainly focus on the quality of basic multi-turn dialogue, MTAVG-Bench 2.0 targets short-drama and scene-level generation, and establishes a high-level failure taxonomy spanning acting, narrative, atmosphere, and audio-visual language. Based on this taxonomy, we construct more than 10,000 question-answering evaluation instances, together with subsets for short-drama-level assessment and temporal localization of failure modes, to systematically evaluate the ability of omni large language models to diagnose high-level audio-visual failures. Experimental results show that commercial omni models such as Gemini substantially outperform other evaluators, yet even the strongest models continue to struggle with complex failures in our benchmark. These results demonstrate that MTAVG-Bench 2.0 provides a systematic benchmark for failure diagnosis in cinematic multi-talker audio-video generation.

📖 深度解读

1. 一句话总结

本文提出了MTAVG-Bench 2.0，一个专门用于诊断多说话人音视频生成中“电影级表现力”高级故障的基准，揭示了现有模型在口型同步等低级指标上表现良好，但在表演、氛围和镜头语言等高级电影维度上仍存在大量缺陷。

2. 研究背景与动机

核心问题：如何评估和诊断多说话人音视频生成（MTAVG）中“电影级表现力”的高级故障？
重要性：随着生成技术向短剧、多角色交互等场景级应用演进，仅靠口型同步、音画对齐等低级指标已无法判断生成的视频是否具备连贯的叙事、真实的情感和合理的镜头组织。一个看起来“不违和”的对话片段，可能完全缺乏电影级的感染力。
现有方法不足：现有的评估基准（如Harmony-Bench, VABench等）主要关注感知质量、音画对齐等低/中层指标，或者仅针对特定物理规律（如PhyAVBench）进行诊断。它们无法对“表演生硬、氛围割裂、镜头越轴”等高级电影语义故障进行细粒度、可解释的诊断。

3. 核心方法

提出框架：MTAVG-Bench 2.0，一个面向短剧和场景级生成的电影级故障诊断基准。
关键创新点：
1. 构建了电影级故障的三维分类法：将高级故障分为表演、氛围和摄影三大类，并细化为10个子维度和45种细粒度故障模式（如：视线交互失败、情绪动机偏移、越轴等）。
2. 从“质量打分”转向“结构化诊断”：不仅判断视频好坏，还通过1.16万个QA实例（涵盖单选、多选、成对比较和时间定位），要求模型指出具体的故障类别及其发生的时间戳。
3. 严格的多模态反作弊设计：通过消融实验证实，诊断必须依赖音视频的联合理解，模型无法通过单模态捷径（如仅看文本或仅看画面）蒙混过关。
核心思路直觉解释：以前的评估就像只给视频的“清晰度”打分，而MTAVG-Bench 2.0就像请了一位专业的“影评人”来做体检，不仅指出“这处表演像机器人”，还能具体到“在第8秒时，角色的视线没有看对话者，且背景音乐与悲伤的剧情不匹配”。

4. 实验与结果

数据集/基准：MTAVG-Bench 2.0（包含2,466个生成视频，10个子维度，45种故障模式，约11.6K个QA对）。
基线方法：主流的全能大模型，包括商用模型（Gemini 3.1 Pro/Flash等）和开源模型（Qwen 2.5 Omni, MiniCPM-o 2.6, VideoLLaMA 2等）。
主要实验结果：
商用模型碾压开源：Gemini 3.1 Pro以62.16%的平均准确率位居第一，远超最强开源模型Ming Lite Omni 1.5（41.11%）。
表演维度最难诊断：在交互表现（IP）等需要复杂人物关系推理的维度上，所有模型表现均较差。
低级指标与高级诊断脱节：某些视频生成模型（如Grok Video 3）在传统音质、唇同步等低级指标上得分很高，但在本基准的电影级故障率上依然很高，证明低级指标无法替代高级诊断。
消融实验揭示：
模态依赖：去掉视觉输入，诊断能力暴跌至33.10%；去掉音频，降至40.64%。音频不仅影响氛围维度，还严重影响表演和镜头节奏的判断。
时间定位瓶颈：即使是最强的Gemini 3.1 Pro，其生成故障理由的一致性（RC）高达83.8%，但精准定位故障时间戳的准确率（TLA）仅为60.9%，说明模型“懂问题在哪，但不知道具体何时发生”。

5. 优势与局限

主要优势：
1. 填补评估空白：首次将多说话人音视频评估从低层保真度提升到电影级表现力的高度。
2. 诊断极具可解释性：通过细粒度分类法和时间定位，为生成模型的迭代优化提供了明确的反馈方向（如：重点改进越轴问题）。
3. 基准质量高：结合了自动化构建与22人专家团队的交叉验证（一致性达84.1%），确保了数据的可靠性。
局限性：
1. 评估依赖昂贵模型：目前只有顶级的商用全能模型（如Gemini系列）才能勉强胜任该基准的评估，开源模型表现极差，限制了基准的普及和日常使用。
2. 时间定位能力不足：论文自身也揭示，当前模型在细粒度时间戳定位上存在明显瓶颈，导致基准中时间定位子集的评估上限受限。

6. 关键结论与启发

最重要的Takeaway：在多角色音视频生成中，“看起来不假”和“有电影感”是两回事。传统的音画对齐等客观指标已经不足以衡量生成质量，必须引入基于电影语法的结构化诊断。
对后续研究的启发：
1. 生成侧的改进：视频生成模型需要将电影先验（如180度轴线规则、视线匹配、情绪-灯光映射）显式地融入生成过程，而非仅仅依赖数据驱动。
2. 评估侧的演进：亟需研发具备强时间推理能力的开源全能大模型，以支持低成本、细粒度的音视频故障诊断。
3. 基准的扩展：未来可在此基础上进一步引入更长视频的叙事连贯性诊断，或探索从“发现故障”到“自动修复提示词”的闭环优化系统。

#22

cs.SD

Affective Music Recommendation: A Rollout-Based World Model for Offline Preference Optimization 跨领域

Audrey Chan, Aaron Labbé, Jacob Lavoie, Jordan Bannister, Arsène Fansi Tchango 等 (7 人)

Machine Learning (cs.LG); Information Retrieval (cs.IR); Sound (cs.SD)

📄 Abstract 📥 PDF

查看摘要

Functional music applications, from consumer focus and sleep aids to clinical interventions, share a distinctive recommendation problem: success is defined by the listener's affective state, but online experimentation on emotion is ethically constrained, particularly for clinical populations who cannot reliably skip a song or report distress. We describe AMRS, the Affective Music Recommendation System deployed on LUCID's health-and-wellness platforms, which serve clinical users (primarily older adults with neurocognitive conditions) and consumer-wellness users across energize, focus, calm, and sleep modes. AMRS is built around a rollout-based world model: a causal transformer trained on logged listening data to jointly predict engagement, binary rating, and self-reported valence and arousal. The world model serves both as an in-silico simulator for offline policy training and as a stress-testing tool before deployment. A recommender policy initialized by behaviour cloning is fine-tuned offline with Direct Preference Optimization (DPO) against a configurable multi-objective utility function. Under a strict cold-start protocol, the world model predicts both behavioural and affective signals with usable fidelity; DPO improves predicted valence and arousal over the cloned baseline while maintaining a similar diversity profile and avoiding the distributional collapse produced by greedy optimization. We position the work as an early deployed validation of a methodology for affective recommendation when online experimentation is ethically untenable.

📖 深度解读

1. 一句话总结

本文提出了一种基于世界模型和离线偏好优化（DPO）的情感音乐推荐系统（AMRS），在无法进行在线A/B测试的临床伦理约束下，通过“模拟器”安全地优化听众的情感状态，避免了推荐结果的分布崩溃。

2. 研究背景与动机

核心问题：如何为功能性音乐平台（如助眠、缓解焦虑的临床应用）构建以听众“情感状态”为优化目标的推荐系统。
为何重要：对于患有痴呆症等神经认知障碍的老年临床用户，音乐对情绪的影响具有真实的医疗风险。如果推荐了引发负面情绪的音乐，他们可能无法自主切歌或表达痛苦。
现有方法不足：
1. 反馈信号极度稀疏：行为反馈（播放率、点赞）是歌曲级的，相对丰富；但情感反馈（效价、唤醒度）仅在会话开始和结束时采集，极度稀疏。
2. 伦理限制：传统的在线A/B测试在此场景下等同于在脆弱人群上进行未经验证的情绪实验，伦理上不可接受。
3. 曝光偏差：日志数据由固定的生产策略生成，无法反映用户的自由选择，直接学习会继承策略偏差，而部署新策略收集反事实数据又违背伦理。

3. 核心方法

提出框架：AMRS（Affective Music Recommendation System），包含一个基于推演的世界模型和一个基于DPO的推荐策略。
关键创新点：
1. 联合预测的世界模型：首次构建能同时预测稀疏情感信号（效价、唤醒度）和密集行为信号（播放率、评分）的因果Transformer，作为离线模拟器。
2. 安全约束下的离线偏好优化：先用行为克隆复制生产策略，再用DPO进行微调。DPO中的KL散度惩罚项充当“安全带”，防止策略偏离已验证的临床行为过远。
3. 反事实偏好对构建：针对生产策略表现不佳的历史记录，利用世界模型在曲库中寻找能产生更高“情感效用”的替代歌曲，构建偏好对进行DPO训练。
核心思路直觉解释：就像训练一个“数字孪生听众”（世界模型），它能在电脑里模拟出听某首歌后的情绪变化。我们在这个模拟器里不断试错，找到最能安抚情绪的歌单（DPO优化），同时用一条“安全绳”（KL惩罚）拴住旧的安全歌单，确保新歌单不会走向极端。在真正放给脆弱患者听之前，所有测试都在模拟器里完成。

4. 实验与结果

数据集：LUCID平台的真实部署数据（939名用户，57,822次交互，包含临床和消费级健康用户）。
基线方法：Random（随机推荐）、Greedy（贪心选预测效用最高的）、Copycat（行为克隆生产策略）、DPO（本文方法）。
主要实验结果：
世界模型：在严格的冷启动（测试用户完全未见）下，效价$R^2$达42.6%，唤醒度$R^2$达37.9%，证明稀疏情感信号是可预测的；MERT声学嵌入优于CLaMP 3语义嵌入，且不需要位置编码。
推荐策略：DPO在优化目标（效价和唤醒度）上比Copycat相对提升了4.0%和3.7%；同时，未参与优化的行为指标（评分、播放率）仅微小下降（4.2%和5.2%），未发生牺牲行为指标换取情感指标的现象。
避免崩溃：Greedy方法虽然预测情感得分最高，但覆盖率仅0.002，陷入严重的分布崩溃（反复推荐那几首歌）；DPO则保持了与Copycat相近的多样性。
消融实验：移除用户历史或反馈信号会导致预测能力断崖式下跌（接近随机），证明了世界模型的核心地位；而移除歌曲内容嵌入影响较小，说明用户的历史行为信号占主导地位。

5. 优势与局限

主要优势：
1. 伦理安全性：实现了完全离线的训练和压力测试，无需在线试错，对临床脆弱人群极其友好。
2. 多目标平衡：通过可配置的效用函数和DPO的KL惩罚，成功在提升情感目标与保持推荐多样性/行为指标之间取得平衡，避免了贪心优化导致的崩溃。
3. 冷启动适应性：采用内容嵌入和窗口采样策略，天然支持新歌入库和未见用户的推荐。
局限性：
1. 模拟器偏差：DPO的增益是基于世界模型的模拟打分得出的，可能存在“利用模拟器缺陷”而非真实用户情感提升的风险（即过拟合世界模型）。
2. 单平台验证：数据仅来自LUCID单一平台和单一生产策略，跨平台、跨策略的泛化性尚未验证。
3. 缺乏在线验证：虽然离线结果积极，但由于伦理限制，目前仍缺乏真实临床环境下的在线A/B测试结果来作为最终闭环。

6. 关键结论与启发

最重要的Takeaway：在优化目标敏感（如情绪、健康）且在线探索受伦理限制的场景下，构建一个联合预测行为与稀疏情感信号的世界模型，作为离线模拟器和压力测试工具，是可行且必要的范式。
后续研究启发：
1. 动态与序列级优化：当前DPO基于单步偏好对，未来可扩展到多歌曲子序列，以实现具有治疗结构的情绪轨迹规划（如：逐步降低唤醒度以助眠）。
2. 在线验证的探索：如何在严格的临床监管下，设计合规的在线评估方案，是该方法走向真正数字疗法的必经之路。
3. 更丰富的上下文：世界模型可引入时间、生物特征等更丰富的上下文，进一步提升情感预测的保真度。

#23

cs.SD

Cornell University (QS Top 100)

Assessing Factual Music Comprehension in Large Audio Language Models 跨领域

Daniel Chenyu Lin, Michael Freeman, John Thickstun

Sound (cs.SD); Computation and Language (cs.CL); Machine Learning (cs.LG)

Comments: 16 pages; second submission

📄 Abstract 📥 PDF

查看摘要

Large audio language models (LALMs) leverage multimodal representations to generate open-ended answers to natural language queries about audio. In this paper, we (1) provide empirical evidence that assessment of LALMs using the popular MusicQA dataset fails to measure whether a model's responses about music are factually correct, and (2) develop a new protocol for assessing the music comprehension capabilities of LALMs. Specifically, we propose an evaluation protocol that prompts a LALM for factually verifiable information, and parses its open-ended response into a structured format that can be objectively assessed using Precision, Recall, and F1 scores. Using this protocol, we define a benchmark consisting of six factual information retrieval tasks defined on three diverse datasets: MusicNet, the Free Music Archive, and OverClocked ReMix. We benchmark nine recent LALMs, including frontier models like Gemini and the latest open models like Music Flamingo, and release the suite of evaluation scripts at this https URL to facilitate benchmarking of new LALMs.

📖 深度解读

1. 一句话总结

本文指出当前评估大音频语言模型（LALM）的开放式问答方法无法真正衡量模型对音乐的理解能力，并提出了一种基于“事实性问答”的新评估框架，通过将模型的自由文本回答结构化以进行客观打分，从而准确测度模型的真实音乐认知水平。

2. 研究背景与动机

核心问题：如何准确评估大音频语言模型（LALM）是否真正“听懂”了音乐，而不是在胡说八道或依赖语言偏见？
重要性：LALM正成为音乐信息检索（如打标签、字幕生成、交互问答）的通用工具，如果缺乏有效的评估手段，研究界将无法判断模型的真实进展，甚至被模型的“幻觉”误导。
现有方法不足：
1. 开放式问答+文本相似度（如MusicQA+BERTScore）：完全失效。实验表明，给模型播放正确的音乐和播放随机的音乐，模型回答的文本相似度得分几乎没有区别。此外，故意篡改含义的对抗性文本反而能得高分，说明指标只看重语言流畅度，不看重事实对错。
2. 多选题问答（MCQA）：容易受语言考试技巧影响。纯文本模型（不听音频）仅靠猜也能达到56.4%的准确率。
3. LLM-as-a-judge（打分制）：依赖闭源模型打分，可复现性差，且仍倾向于奖励与单一参考答案相似的表述，忽略了音乐描述的多样性。

3. 核心方法

提出框架：事实性问答评估协议。
关键创新点：
1. 事实性探测：摒弃“描述一下这首音乐”这种宽泛提问，转而询问有明确客观答案的事实性问题（如“这首曲子用了什么乐器？”“作曲家是谁？”）。
2. LLM辅助的结构化解析：针对LALM难以严格遵循格式输出的问题，引入一个强大的LLM（如GPT-4.1-mini）作为解析器，在严格规则下（如禁止推理猜测、只提取明确提及的实体）将自由文本转换为结构化标签。
3. 基于集合的客观指标：将解析出的标签与真实标签比对，计算Precision、Recall和F1分数。这不仅能衡量答对多少，还能惩罚模型的“对冲”行为（即为了命中而列举大量答案）。
核心思路直觉解释：就像考试一样，以前的方法是让学生写一篇音乐听后感，然后看词藻是否华丽、和范文像不像，结果发现学生背几套模板就能拿高分；现在的方法是直接考填空题（乐器、流派、作曲家），并且用机器把学生啰嗦的答案提炼成关键词再对标准答案，看它到底是不是真听出来了。

4. 实验与结果

使用数据集：
MusicNet：评估乐器识别、作曲家识别
Free Music Archive (FMA)：评估音乐流派分类
OverClocked ReMix：评估地域风格、情绪和拍号识别
对比基线方法：9个近期的LALM（包括老一代的LTU-AS, MU-LLaMA等，新一代的Qwen2-Audio, Qwen3-Omni, Audio-Flamingo 3, Music-Flamingo，以及闭源的Gemini 3）。
主要实验结果：
有效性验证：在事实性评估框架下，所有模型在听“正确音频”时的F1分数都显著高于听“随机音频”，证明该协议能有效区分模型是否真正理解了音频（而以前的MusicQA做不到）。
模型表现：新一代模型（如Qwen3-Omni, Gemini 3）在乐器和流派识别上远超老模型。但在作曲家识别上，Music Flamingo通过“取巧”（只猜巴赫、贝多芬等高频作曲家）获得了最高分。
拍号识别的“绝望”发现：在拍号任务中，所有模型听正确音频和随机音频的得分毫无差异。原因是数据集中4/4拍占绝大多数，模型干脆“摆烂”，一律无脑预测4/4拍。
消融实验揭示：
解析器鲁棒性：使用GPT和Gemini作为解析器得出的F1分数几乎一致，证明评估结果不依赖于解析器的选择。
提示词敏感性：老模型对提示词措辞极其敏感（换种问法F1波动达0.10），且给选项（List prompt）会导致老模型把选项全选一遍（高召回、极低精度）；新模型则稳定得多。

5. 优势与局限

主要优势：
1. 诊断性强：能够精准定位模型在具体音乐维度（如乐器、情绪）上的真实能力，不被语言生成能力掩盖。
2. 客观可复现：用P/R/F1替代主观打分或模糊的文本相似度，且解析过程对解析器依赖度低。
3. 惩罚投机取巧：通过Precision有效抑制模型“广撒网”列举答案的对冲行为。
局限性：
1. 评估维度的局限：只能评估“事实性”理解，无法衡量模型对音乐更抽象、主观维度的理解（如音乐结构分析、创作意图解读）。
2. 标签本身的模糊性：情绪和地域风格等标签带有社会文化主观性，并非纯粹的声学客观事实，强行映射为单一标签可能存在偏差。
3. 依赖更强的LLM：解析步骤必须依赖一个指令遵循能力强的LLM，对于计算资源受限的环境存在门槛。

6. 关键结论与启发

最重要的Takeaway：当前LALM在开放式音乐问答上的高分往往是“虚假的繁荣”，模型可能在根本没听音频的情况下仅凭语言概率生成看似合理的答案；只有通过事实性约束和结构化提取，才能挤干水分，测出真本事。
对后续研究的启发/延伸方向：
1. 模型训练导向：未来的LALM训练需要更多关注细粒度的事实对齐，而不是仅仅优化文本流畅度；同时需解决模型在长尾分布任务（如拍号识别）上“偷懒”默认高频答案的问题。
2. 评估基准扩展：可以基于OverClocked ReMix等富含文本标注的数据集，构建更复杂的多跳推理音乐评估基准（如“这段音乐适合哪种游戏场景？为什么？”）。
3. 超越事实的评估：如何在保证客观性的前提下，设计出能评估模型“主观与抽象音乐理解力”的新协议，是下一个亟待攻克的难题。

#24

cs.SD

Nanyang Technological University, Singapore (NTU) (QS Top 100)

ChronosAudio: A Comprehensive Long-Audio Benchmark for Evaluating Audio-Large Language Models 跨领域

Kaiwen Luo, Liang Lin, Yibo Zhang, Moayad Aloqaily, Jialiang Tao 等 (11 人)

Sound (cs.SD)

📄 Abstract 📥 PDF

查看摘要

Although Audio Large Language Models (ALLMs) have witnessed substantial advancements, their long audio understanding capabilities remain unexplored. A plethora of benchmarks have been proposed for general audio tasks, they predominantly focus on short-form clips, leaving without a consensus on evaluating ALLMs over extended durations. This paper proposes ChronosAudio, the first multi-task benchmark tailored for long-audio understanding in ALLMs. It encompasses six major task categories and comprises 36,000 test instances totaling over 200 hours audio, stratified into short, middle, and long-form categories to comprehensively evaluate length generalization. Extensive experiments on 16 state-of-the-art models using ChronosAudio yield three critical findings: this http URL Long-Context Collapse: ALLMs exhibit a severe inability to sustain performance, with the transition from short to long contexts triggering a staggering performance degradation of over 90% in specific tasks. this http URL Attention Dilution: Performance degradation stems from a fundamental failure in maintaining temporal locality; attention mechanisms suffer from significant diffusion in later sequences. this http URL Ceiling of Mitigation: Current strategies only offer 50% recovery. These findings reveal significant challenges in long-audio, underscoring the urgent need for approaches to achieve robust, document-level audio reasoning.

📖 深度解读

1. 一句话总结

本文提出了首个专门用于评估音频大语言模型长音频理解能力的多任务基准ChronosAudio，并揭露了当前模型在处理长音频时存在严重的性能崩溃、注意力稀释以及现有缓解策略存在恢复上限等关键问题。

2. 研究背景与动机

核心问题：当前音频大语言模型（ALLMs）在处理长音频（10-20分钟）时的理解能力究竟如何？
重要性：随着ALLMs的快速发展，其在语音识别、翻译、对话等短音频任务上表现优异，但现实场景（如会议记录、播客总结、长视频分析）往往涉及长音频。如果模型无法在长序列中维持注意力和推理能力，将极大限制其实际落地价值。
现有不足：现有的音频基准测试（如AudioBench, AIR-Bench等）绝大多数只关注短音频（平均几秒到几十秒），缺乏对长上下文场景的评估；虽然近期出现了BLAB和AudioMarathon等长音频基准，但它们主要是单一的大规模诊断测试，缺乏多维度、多粒度的任务矩阵来系统剖析模型长上下文崩溃的深层原因。

3. 核心方法

提出框架：ChronosAudio，一个多维度、多任务的长音频理解基准。
关键创新点：
1. 多维度任务设计：将评估分为三大类六项任务——时间感知（听写、定位）、逐字序列生成（转写、多说话人）、高级推理（理解、总结），从低层感知到高层推理全面剖析。
2. 细粒度的时长分层：将音频严格划分为短（30s-5min）、中（5-10min）、长（10-20min）三档，以精准测量模型性能随上下文长度增加的衰减轨迹。
3. 纯合成与自动化评估：基于SQuAD文本使用F5-TTS生成纯净音频，确保了Ground Truth的绝对准确；采用集成LLM-as-a-Judge（三个不同顶尖模型打分取平均）替代传统死板的词法指标，实现语义级别的客观评估。
核心思路直觉解释：就像给学生做听力测试，不仅要看能不能听懂大意（总结），还要看能不能听写细节（逐字生成）、找准时间点（定位），并且测试题量从1分钟逐渐加码到20分钟，以此观察学生是全程专注，还是听到后半段就开始走神、胡编乱造。

4. 实验与结果

数据集：ChronosAudio，包含36,000个测试实例，总时长超200小时，平均时长约6分钟。
基线方法：16个当前最前沿的ALLMs，包括开源模型（Qwen2-Audio, MiniCPM-o, SALMONN等）和闭源模型（GPT-4o-Audio, Gemini系列, Qwen-Omni-Turbo）。
主要实验结果：
断崖式长上下文崩溃：从短音频到长音频，模型性能出现惊人衰退。例如，闭源模型在转写任务上从42.66分暴跌至3.86分；开源模型在总结任务上平均仅14.14分，而闭源模型为59.22分。
“迷失在中间”提前触发：性能并非缓慢下降，而是从短音频过渡到中等音频时发生断崖（如开源模型转写分从28.06暴跌至9.49，降幅66%）。
消融/深入分析揭示：
结构性注意力稀释：通过对注意力权重可视化发现，模型在序列前段能保持良好的局部对齐，但到后段注意力严重发散，无法维持时间局部性。
缓解策略的恢复天花板：测试了稀疏注意力和滑动窗口注意力。稀疏注意力效果最好（如多说话人任务提升15.7分），但即使采用这些策略，在转写等高保真任务中，最多也只能恢复模型短音频能力的50%，存在明显的恢复上限。

5. 优势与局限

主要优势：
1. 填补空白：首个系统化、多任务的长音频理解基准，为社区提供了标准化的长上下文评测工具。
2. 诊断深刻：不仅指出“模型表现差”，还通过注意力可视化和缓解策略实验，从机制层面揭示了“为什么差”（注意力发散）以及“现有修修补补的方法不行”（恢复天花板）。
3. 评估客观：采用集成LLM裁判机制，有效缓解了传统词法评估对长文本生成评价不公的问题。
局限性：
1. 数据域单一：目前基准主要基于英文和相对干净的合成音频，未考虑真实世界的噪音、口音和跨语种泛化问题。
2. 缓解策略探索有限：实验仅测试了基于注意力机制的推理期策略，未探索继续预训练、位置编码插值等训练期改进方案。
3. 黑盒限制：对注意力机制的分析只能局限于开源模型，无法探究GPT-4o等闭源模型内部的崩溃机制。

6. 关键结论与启发

最重要的Takeaway：当前ALLMs在长音频理解上存在根本性的架构缺陷（注意力发散），导致长上下文崩溃，且这种崩溃无法通过简单的注意力修补（如Sparse Attention）来彻底治愈，亟需从底层架构设计新的长序列音频建模方案。
对后续研究的启发：
1. 架构创新：需要设计专门针对连续高维音频特征的长上下文架构，而非简单照搬文本LLM的Transformer架构。
2. 训练范式改进：未来研究可探索针对长音频的持续预训练、频率感知的位置编码等训练期优化方法，以突破当前的“恢复天花板”。
3. 基准扩展：可基于本文思路，进一步构建包含真实环境噪音、多语种和对话重叠的ChronosAudio-Real基准，逼近真实部署场景。

#25

cs.SD

Cornell University (QS Top 100)Stanford University (QS Top 100)

Voice "Cloning" is Style Transfer 跨领域

Kaitlyn Zhou, Federico Bianchi, Martijn Bartelds, Anna Pot, Yongchan Kwon 等 (6 人)

Sound (cs.SD); Artificial Intelligence (cs.AI); Human-Computer Interaction (cs.HC); Machine Learning (cs.LG)

📄 Abstract 📥 PDF

查看摘要

Artificially generated speech is increasingly embedded in everyday life. Voice cloning in particular enables applications where identity preservation is important, such as completing a recording, dubbing in a new language, or preserving the voices of individuals with speech loss. However, in our work, we find that despite the term, voice cloning does not faithfully ''clone'' an individual's voice. Instead, we find that widely-used voice cloning models systematically apply style transfer to source voices. As rated by human annotators, cloned voices are perceived as more authoritative, warm, customer-service-like, and human-like compared to their sources. Human annotators also report greater trust in cloned voices than source voices, and a greater willingness to disclose sensitive personal information to them. Our work furthermore shows that voice cloning leads to homogenization of speaker characteristics, as measured by reduced variance in accent, speaking rate, and the audio embedding space. Together, our results highlight a new set of limitations and risks of voice cloning technology and their potential impact on human behavior.

📖 深度解读

1. 一句话总结

这篇论文揭示了当前的“声音克隆”技术实际上并未忠实复制原声，而是系统性地对声音进行了风格转换和同质化处理，使克隆出的声音听起来更像标准口音、更具权威感且更值得信任，从而可能对个人身份认同和用户行为产生潜在风险。

2. 研究背景与动机

核心问题：当前的零样本声音克隆系统是否真的在“忠实克隆”一个人的声音？
重要性：声音是个人身份的重要标志。在辅助发声、多语言配音、个人数字分身等合法应用场景中，声音的保真度是技术存在的核心价值。如果克隆失真，不仅会抹杀个人的声音特质，还可能带来意想不到的社会影响。
现有不足：以往关于声音克隆风险的讨论几乎全部集中在“恶意滥用”（如诈骗、伪造），而忽略了在用户主动授权使用的场景下，技术本身是否真的能做到“保真”。现有研究缺乏对克隆声音与原声在感知、行为影响及特征分布上的系统性实证对比。

3. 核心方法

提出框架：论文将“声音克隆”重新定义为一种“风格转换”与“同质化”过程，并通过“数据采集-模型克隆-人工标注-声学分析”的流水线进行验证。
关键创新点：
1. 跨句克隆范式：用第N句的音频作为参考，生成第N+1句的克隆音频，确保模型必须提取通用的说话人特征，而不是简单复制音频片段。
2. 感知与行为双重视角评估：不仅评估声音听起来怎么样（权威感、温暖度等），还评估听众的行为倾向（信任度、倾诉意愿）。
3. 迭代克隆实验：对声音进行50轮连续克隆，观察声音特征在嵌入空间中的演化轨迹，证明同质化是方向性的而非随机漂移。
核心思路直觉解释：就像用复印机复印一张带有独特褶皱和笔迹的纸，出来的复印件不仅褶皱变淡了，连字迹都自动被修正成了更标准的印刷体。克隆模型在“脑补”缺失信息时，倾向于使用它见过的最常见、最“标准”的声音特征来填补，导致所有声音都在向同一个“完美客服音”靠拢。

4. 实验与结果

数据集：86名非英语母语者朗读的标准语料（699个有效句子片段），涵盖22种不同的语言背景。
基线模型：ChatterBox, Coqui-XTTS (开源), ElevenLabs V3 (闭源商用SOTA)。
主要实验结果：
感知偏移：克隆声音在1-5分制评分中，比原声显得更温暖（2.8 vs 2.4）、更具权威感、更像客服，甚至更像人类（超现实主义现象）。
行为影响：听众对克隆声音的信任度显著更高，且更愿意向其透露敏感个人信息。
口音同质化：使用CommonAccent模型分析发现，克隆声音被大幅判定为“母语级英语”（尤其是美音、英音等核心圈口音），非母语口音特征被严重抹除。
身份模糊：在声学特征分类实验中，原声的说话人识别准确率达85%，而克隆声音骤降至53%；跨性别误判率翻倍（如女声被误判为男声的比例从7.4%升至17.2%）。
迭代收敛：50轮克隆后，声音在嵌入空间中显著向中心聚拢（边界球半径从366缩至336），音调异常升高，情绪分类向“愤怒”偏移。
消融实验：
增加参考音频长度（从5秒增至37秒），风格转换依然存在。
调整模型参数（如降低表现力、提高相似度），同质化和风格偏移依然无法消除，说明这是模型底层的系统性缺陷。

5. 优势与局限

主要优势：
1. 视角新颖：跳出了传统的“深度伪造滥用”框架，首次从“保真度”和“同质化”角度揭示了声音克隆的隐蔽风险。
2. 论证严密：结合了主观人类感知与客观声学嵌入分析，并通过迭代实验有力证明了偏移的方向性。
3. 现实意义强：指出了这种“听起来更好但不再是本人”的现象对文化多样性和个人身份的侵蚀。
局限性：
1. 受试者局限：原声提供者仅限于非英语母语者，虽然这为观察口音同质化提供了极佳的切入点，但未能验证母语者是否也面临同样的同质化问题。
2. 行为测试场景受限：信任度和倾诉意愿仅基于受试者的自我报告，而非真实交互场景中的实际行为测量。
3. 归因不够深入：论文指出了现象，但对于模型内部机制（如是由于训练数据分布偏差，还是模型架构的归纳偏置导致）缺乏更深层的技术解释。

6. 关键结论与启发

最重要的Takeaway：声音克隆不是“复刻”，而是“滤镜”。它在抹除个人独特声音特征的同时，强加了一套社会偏好属性（标准口音、客服感、高信任度），这是一种技术性的同质化。
后续启发与延伸方向：
1. 技术层面：亟需开发能够真正保持口音、语速和个人瑕疵的“高保真”声音克隆模型，可能需要在训练数据或损失函数中引入反同质化机制。
2. 政策与伦理层面：应强制要求声音克隆服务提供商透明披露这种“风格转换”效应；在医疗辅助或法律取证等对身份保真要求极高的场景中，需谨慎评估克隆声音的适用性。
3. 研究延伸：探究这种“超真实”的克隆声音如何长期影响人机交互中的信任机制，以及是否会导致模型在循环训练下发生模式崩溃。

#26

cs.SD

Alibaba (World Famous IT Company)

PilotTTS: A Disciplined Modular Recipe for Competitive Speech Synthesis 跨领域

Bowen Li, Shaotong Guo, Zhen Wang, Yang Xiang, Mingli Jin 等 (14 人)

Sound (cs.SD); Artificial Intelligence (cs.AI)

📄 Abstract 📥 PDF

查看摘要

Building state-of-the-art text-to-speech (TTS) systems typically demands millions of hours of proprietary data and complex multi-stage architectures, creating substantial barriers for resource-constrained research teams. In this report, we present PilotTTS, a lightweight autoregressive TTS system that achieves competitive performance through minimalist architecture and rigorous data engineering. PilotTTS is trained on only 200K hours of data processed entirely with open-source tools. Specifically, our contributions are: (1) a reproducible multi-stage data processing pipeline covering quality assessment, label annotation, and filtering, and (2) a compact model architecture that employs Q-Former-based conditioning to decouple speaker identity from speaking style via cross-sample paired training. Within a unified framework, PilotTTS supports zero-shot voice cloning, emotion synthesis (11 categories), paralinguistic synthesis (4 categories), and Chinese dialect synthesis (14 dialects). On the Seed-TTS Eval benchmark, PilotTTS achieves the lowest WER of 1.50% on test-en, a CER of 0.87% on test-zh, and the highest speaker similarity on both test sets (0.862 and 0.815), outperforming systems trained on significantly larger datasets. We release the complete data pipeline recipe, pretrained weights, and code at this https URL .

📖 深度解读

1. 一句话总结

PilotTTS通过“极致的数据工程+解耦的轻量级架构”，仅用20万小时数据和开源工具，就打造出了在零样本语音克隆和可控语音合成上超越千万级数据大模型的竞争性TTS系统。

2. 研究背景与动机

核心问题：如何以较低的数据和算力成本，构建出性能媲美甚至超越工业级超大模型的零样本TTS系统？
重要性：当前最先进的TTS系统（如基于LLM或大流量模型的系统）越来越依赖百万小时级的专有数据和极其复杂的多阶段架构，这为资源受限的团队筑起了极高的技术和资源壁垒；而大多数商业落地场景其实更需要轻量、易部署的方案。
现有不足：
1. 数据壁垒：缺乏标准化、开源的数据处理流水线，高质量数据获取成本极高。
2. 架构冗余：多码本量化、多阶段训练等复杂设计增加了工程难度。
3. 功能碎片化：情感、副语言、方言等高级控制能力通常依赖独立系统实现，难以统一。

3. 核心方法

提出框架：PilotTTS，一个基于自回归的轻量级TTS框架。
关键创新点：
1. 全开源的多阶段数据处理流水线：涵盖质量评估与增强、标签标注、质量过滤三大环节，将野生互联网音频转化为高质量训练数据。
2. 解耦的双路径条件机制：通过CAMPPlus提取静态说话人音色，通过Q-Former提取动态说话风格，实现音色与风格的解耦。
3. 跨样本配对训练策略：训练时，用同一说话人的不同语音作为参考音频，强迫模型无法偷懒复制内容，只能提取纯粹的说话人特征。
4. 统一的后训练扩展：在同一框架下，通过少量定向数据微调，解锁情感（11类）、副语言（笑/哭/咳等）和方言（14种）合成能力。
核心思路直觉解释：
数据流水线：就像建一个全自动的净水厂，把泥沙俱下的河水（野生音频）经过沉淀（切分/降噪）、质检（打分/去伪）、过滤（剔除劣质/合成音），最终流出纯净水（高质量训练数据）。
解耦机制：把“谁在说话”（音色，由CAMPPlus负责，像身份证照片）和“怎么说话”（风格/情感，由Q-Former负责，像表情包）分开处理。Q-Former通过“跨样本配对”（听A句话的语气，合成B句话的内容），被迫学会了剥离内容提取风格的绝活。
方言/情感扩展：利用模型在预训练时学到的稳健性，用“普通话音色提示+方言标签”的方式，结合混合提示采样，巧妙解决了方言数据稀缺的问题。

4. 实验与结果

数据集/基准：Seed-TTS Eval基准（零样本评估），以及自建的情感、副语言、方言测试集。
基线方法：Seed-TTS, F5-TTS, CosyVoice 3, MiniMax-Speech, Qwen3-TTS等8个主流系统。
主要实验结果：
零样本克隆：在Seed-TTS上，PilotTTS取得了英文最低WER（1.50%）和中英文最高的说话人相似度（中文0.862，英文0.815），中文CER（0.87%）仅比MiniMax微弱落后0.04%。以1/5甚至更少的数据量，实现了全面领先。
情感控制：主要情感平均成功率88.1%（最高），且在开启情感控制时，音色保持度（SIM=0.7329）下降最小，证明了解耦机制的有效性。
副语言与方言：副语言整体成功率85.1%（优于CosyVoice 3的80.4%）；方言合成中，普通话转方言的准确率达86.46%。
消融实验揭示：
Q-Former条件词元不可或缺：去掉它，内容准确率暴跌（尤其是难例CER相对上升35%），说明其携带的细粒度韵律线索对稳定生成至关重要。
说话人嵌入起互补作用：去掉它，音色相似度明显下降；它的存在还能引导Q-Former更专注于提取与音色无关的风格线索，提升系统鲁棒性。

5. 优势与局限

主要优势：
1. 极高的数据效率与可复现性：用20万小时数据+全开源工具打爆了千万级数据的闭源模型，极大降低了研究门槛。
2. 卓越的音色保真度：解耦条件机制带来了显著的说话人相似度提升。
3. 统一的多维可控性：一套架构通过后训练即可支持情感、副语言、方言的精细控制。
局限性（论文坦诚指出）：
1. 缺乏显式风格建模：当前依赖Q-Former隐式捕捉风格，细粒度表现力的上限受限。
2. 单码本量化天花板：FSQ单码本虽简单，但信息容量有限，难以扩展到唱歌、背景音乐等复杂场景。
3. 有损的Mel谱重建：依赖Mel谱+Vocoder的间接生成路径，可能引入额外失真，不如端到端波形生成干净。

6. 关键结论与启发

最重要的Takeaway：在当前的TTS领域，“严谨的数据工程”比“堆砌模型规模和数据量”性价比更高。通过精耕细作的数据清洗和巧妙的架构解耦设计，轻量级模型同样可以触及SOTA水平。
对后续研究的启发/延伸方向：
1. 数据流水线成为独立研究重点：社区应投入更多精力构建标准化、模块化的TTS数据处理开源框架，而非仅仅卷模型架构。
2. 解耦表示的进一步探索：如何设计更好的显式全局/局部风格编码器，与现有的音色解耦机制结合，是提升表现力的关键方向。
3. 突破单码本瓶颈：探索在保持架构简洁性的同时，如何引入更高容量的量化策略（如更优的多码本或连续潜在表示），以支持歌唱等高信息量音频生成。

#27

cs.SD

Exploration of Perceptual Speech Features for Clinical Decision-Support in Mental Health Care 跨领域

Vassilis Lyberatos, Edmund G. Dervakos, Eleni Adamidi, Athanasios Voulodimos, Giorgos Stamou

Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Sound (cs.SD)

Comments: Accepted to CLPsych 2026, part of ACL 2026

📄 Abstract 📥 PDF

查看摘要

Speech and language technologies offer valuable opportunities for supporting mental health assessment through objective and interpretable cues. We present a systematic feature-based analysis framework leveraging perceptually grounded acoustic and linguistic characteristics, including prosody, vocal quality, semantic coherence, syntactic structure, and sarcasm. Using statistical analysis and interpretable machine learning (XGBoost with SHAP and LIME), we examine associations between speech features and validated symptom measures of depression, anxiety, and ADHD. Evaluated on both controlled benchmark datasets (StressID, DAIC-WOZ, Androids, EATD) and a real-world clinical dataset, the framework reveals stable and consistent relationships between symptom severity and vocal irregularities (e.g., shimmer, jitter), lexical-syntactic patterns, and affective tone. An ablation study conducted across all datasets further identifies the most informative feature groups. This work explores a transparent and clinically interpretable approach to speech-based mental health analysis.

📖 深度解读

1. 一句话总结

本文提出了一种基于可解释感知特征（声学与语言学）的框架，通过结合统计分析和可解释机器学习（XGBoost+SHAP/LIME），在多个数据集上揭示了语音特征与抑郁、焦虑、压力及ADHD症状之间的稳定关联，为心理健康临床决策提供了透明且可解释的辅助工具。

2. 研究背景与动机

核心问题：如何利用语音信号客观、可靠地辅助评估心理健康状况（如抑郁、焦虑、ADHD等），同时保证模型对临床医生是可解释的。
重要性：传统心理健康筛查高度依赖主观访谈和自评问卷，耗时且易受偏见和病耻感影响；语音作为一种非侵入式的自然表达方式，蕴含了丰富的认知、情绪和神经状态信息，是理想的客观辅助指标。
现有方法不足：当前最先进的语音精神分析模型多为“黑盒”深度学习模型，预测过程缺乏可解释性，导致临床医生难以信任，且难以满足医疗领域日益严格的伦理和监管要求。

3. 核心方法

提出框架：一个结合感知声学特征、语言学特征与可解释机器学习的系统性分析框架。
关键创新点：
1. 多维度感知特征融合：不仅提取传统的声学特征，还引入了高级语言学特征（如句法深度、语义连贯性）和心理语言学特征（如情感极性、讽刺概率），共82个具有临床可解释性的标量特征。
2. 多模态讽刺检测：专门训练了一个结合BERT（文本）和Wav2Vec2（音频）的多模态模型来推断讽刺概率，将其作为反映潜在心理风险的新型语用标记。
3. 双重可解释性验证：将传统统计推断（FDR校正的t检验）与可解释机器学习（XGBoost特征重要性、SHAP、LIME）相结合，从群体差异和模型决策机制两个层面交叉验证特征的可靠性。
核心思路直觉解释：就像医生在问诊时不仅听患者“说了什么”（内容是否消极、逻辑是否连贯），还听“怎么说”（声音是否发抖、语速是否迟缓、是否带有讽刺意味）。该框架把这些医生凭直觉感知的线索量化成具体指标，然后用一个“玻璃盒”模型（XGBoost+解释器）来证明：模型判断患者有抑郁倾向，主要是因为他停顿多、声音抖动大且负面情绪词汇多，从而让医生信服。

4. 实验与结果

使用数据集：5个跨越不同语言和场景的数据集，包括实验室压力诱发、半结构化临床访谈、多语言公开抑郁语料库和真实世界数字医疗平台数据。
对比基线：主要与各数据集原论文中提出的深度学习基线（如Wav2Vec+LR, LSTM, GRU）进行对比。
主要实验结果：
StressID：XGBoost达到0.70准确率和0.81的F1分数，优于原论文的Wav2Vec基线（Acc 0.66, F1 0.70）。
ANDROIDS（意大利语抑郁）：表现强劲（AUC 87.6%），接近原LSTM基线（F1 0.83 vs 0.77）。
DAIC-WOZ / EATD / REAL：性能中等（AUC在0.59~0.73之间），虽不及部分深度学习黑盒模型，但提供了临床可解释性。
消融实验揭示：单一特征组不足以支撑预测。其中，韵律特征的独立贡献最大，其次是心理语言学和声学特征；声质特征单独使用时表现最弱。这证明了多特征互补的必要性。

5. 优势与局限

主要优势：
1. 临床可解释性强：摒弃黑盒，通过SHAP/LIME清晰展示了哪些特征驱动了预测（如焦虑与Shimmer相关，ADHD与动词时态切换和重复图特征相关），符合医疗伦理。
2. 跨数据集/跨语言的鲁棒性：在5个不同语境、不同语言的数据集上验证了特定语音特征与精神病理学指标之间的稳定关联（如声质扰动与情绪障碍的关联）。
3. 特征设计的临床契合度：引入的图论句法特征和讽刺概率等，直接对应了精神病学中的“思维散漫”和“防御机制”等临床表现。
局限性：
1. 预测性能并非最优：在部分数据集（如EATD、DAIC-WOZ）上，可解释模型的分类指标（如F1）明显低于现有的深度学习模型，存在性能与可解释性的权衡。
2. 受混淆因素影响大：语音极易受疲劳、环境噪音、录音设备等非疾病因素干扰，真实场景下的泛化能力仍受限。
3. 标签与特征的局限：依赖量表 cutoff 值作为二分类标签，存在测量误差；静态特征无法捕捉症状的动态时序变化；讽刺检测模型本身仅有70%准确率，可能引入噪声。

6. 关键结论与启发

最重要的Takeaway：基于感知的、可解释的语音特征不仅能够有效预测多种心理健康状况，更重要的是，它们揭示了跨疾病的核心语音表型（如：Shimmer指示焦虑/压力，图论重复特征和时态切换指示ADHD，负面情感与实词/虚词比指示抑郁），这为临床辅助决策提供了人类可理解的证据。
后续研究启发：
1. 动态与纵向追踪：未来应从静态特征提取转向时序动态特征，以捕捉症状随时间的变化轨迹。
2. 领域自适应与去偏：需要开发抗噪音、跨设备、跨文化的领域不变特征，以解决真实场景下的泛化难题。
3. 人机协同诊断：此类可解释框架非常适合嵌入临床系统，作为医生的“感知放大器”，引导问诊方向，而非替代医生做出僵化的分类诊断。