arXiv 每日论文精读 — eess.AS / cs.SD

eess.AS

MedASR: An Open-Source Model for High-Accuracy Medical Dictation

Ke Wu, Ehsan Variani, Tom Bagby, Shashir Reddy, Rory Pilgrim

Audio and Speech Processing (eess.AS)

📄 Abstract 📥 PDF

查看摘要

We present MedASR, an open-source 105M-parameter model engineered for high-accuracy medical dictation. Prioritizing a "small, fast, and accurate" design, MedASR addresses 3 core pillars (1) Data: overcoming clinical corpora scarcity and class imbalance; (2) Modeling: efficient long-form training; and (3) Inference: accurate transcription via a pseudo-streaming sliding-window approach. Our evaluation shows that MedASR achieves a 58% relative WER reduction on Eye Gaze compared to Whisper Large-v3. By open-sourcing MedASR, we provide a transparent, high-performance backbone for specialized health-care applications, breaking down the barriers to clinical documentation often obscured by proprietary systems.

📖 深度解读

1. 一句话总结

本文提出了MedASR，一个仅有105M参数的开源医疗语音听写模型，通过解决医疗数据稀缺、长音频训练受限和长音频推理“漂移”三大痛点，以极小的模型体积在医疗场景下击败了Whisper等巨型通用模型。

2. 研究背景与动机

核心问题：如何为高标准的医疗听写场景构建一个既准确、又轻量（可本地部署保护隐私）、且能稳定处理超长音频的ASR模型。
重要性：临床文档的行政负担是导致医生职业倦怠的主要原因；同时，医疗场景对准确率要求极高（如“hypo-”听成“hyper-”即是严重医疗事故），且涉及患者隐私，最好能在本地设备运行。
现有方法不足：
1. 数据层面：高质量医疗音频因隐私限制极度稀缺，且通用数据集与医疗专业词汇、医生口音风格不匹配。
2. 建模层面：临床口述常超过30秒，标准注意力机制处理长序列时面临显存和算力瓶颈。
3. 推理层面：以Whisper为代表的通用大模型在处理长音频时极易出现“漂移”（重复幻听或大段漏音），在医疗场景下不可接受；且现有医疗ASR多为黑盒闭源系统，阻碍了学术审查与安全优化。

3. 核心方法

提出框架：MedASR，基于105M参数的Conformer-L架构，采用CTC损失进行训练。
关键创新点：
1. 两步法数据策略与格式保留：先在保留大小写和标点的非标准化通用数据集（LibriHeavy）上预训练，再在4500+小时的脱敏医疗数据上微调；配合极简的512词表，兼顾格式输出与端侧效率。
2. 迭代式长音频切分训练：为解决长音频训练的显存瓶颈，先训练一个仅用短音频的“种子模型”，然后用它对长音频进行强制对齐，在固定帧数处切分出高质量的“音频-文本”训练对，迭代两次。
3. 时序后验融合的伪流式推理：这是解决长音频推理“漂移”的核心。采用滑动窗口处理长音频，对于同一帧音频，它会被多个窗口以不同的“相对位置”看到（有的左语境多，有的右语境多）。推理时，将这些窗口对该帧的预测概率使用汉宁窗进行加权平均，越靠近窗口中心权重越高，从而融合多视角信息，消除边界不确定性。
直觉解释：时序后验融合就像是用多个手电筒从不同角度照射一个物体，虽然每个手电筒边缘的光线都比较暗（相当于窗口边缘语境不足），但把所有手电筒的光叠加起来，并且给正对着物体的光更高的权重，最终就能得到一个清晰无死角的影像，避免了单一视角看久了“眼花”（模型漂移/幻听）的问题。

4. 实验与结果

数据集/基准：公开测试集 EyeGaze，以及自有的涵盖4个医疗专科（放射科RAD、家庭医学FM、内科IM、普内科GENINT）的内部测试集。
基线方法：OpenAI Whisper (Large-v3)，Google Gemini 2.5 Pro。
主要实验结果：
MedASR (无LM) 在 EyeGaze 上相比 Whisper Large-v3 实现了 58%的相对WER降低（12.5% -> 6.0%）。
相比最新的 Gemini 2.5 Pro，MedASR (无LM) 也有 12%的相对WER降低（5.9% -> 6.0%，且在各专科数据集上优势更明显，如IM上21.3% vs 9.9%）。
加入6-gram语言模型后，MedASR的WER进一步降至5.2%（EyeGaze）。
消融实验揭示：
1. 融合权重选择：使用汉宁窗加权融合优于均匀加权，因为汉宁窗有效降低了窗口边缘（左右语境不足）帧的权重。
2. 步长鲁棒性：在离线推理中，即使滑动窗口的步长拉长到20秒，WER依然保持稳定，证明模型彻底摆脱了长音频“漂移”问题。
3. 流式能力：将步长缩短至320ms进行流式推理时，WER几乎没有显著上升，证明模型可无缝切换为低延迟的实时听写模式。

5. 优势与局限

主要优势：
1. 极致的性价比：仅用105M的小参数量，在医疗垂直领域的表现碾压了参数量大几十倍甚至上百倍的通用大模型，且支持端侧部署。
2. 彻底解决长音频漂移：创新的时序后验融合机制，从根本上消除了医疗长音频听写中的幻听和漏音问题。
3. 灵活的推理范式：同一套模型和机制，只需调整滑动窗口步长，即可在“高精度离线推理”和“低延迟流式推理”间无缝切换。
局限性：
1. 语言限制：目前仅针对英语优化，尚未支持多语言。
2. 微调数据的闭源性：虽然模型开源，但其优异性能高度依赖于4500+小时的私有医疗音频微调，外部研究者难以复现其完整训练过程或在其数据基础上继续迭代。
3. 切分可能破坏词缀：训练时的长音频切分策略虽然对CTC数学上成立，但可能在词边界处切断子词单元，论文未详细评估这种硬切分对极罕见复杂医学术语的潜在负面影响。

6. 关键结论与启发

最重要的Takeaway：在医疗等高壁垒垂直领域，“小而精”的领域特化模型+针对性的推理策略，能够以极低的算力成本战胜“大而全”的通用基础模型，且在长音频稳定性上表现更优。
对后续研究的启发/延伸方向：
1. 推理策略即模型能力：MedASR的时序后验融合表明，通过改进推理阶段的算法（而非单纯堆砌模型参数），可以有效解决大模型固有的长上下文漂移问题，这一思路可迁移至其他模态的长序列生成任务。
2. 开源医疗AI生态：打破了医疗ASR被闭源系统垄断的现状，为后续研究提供了一个透明的基座，未来可在此基础上进行多语言扩展、方言适应或细分专科（如牙科、病理科）的微调。
3. 数据工程的重要性：其“保留标点格式的预训练+迭代对齐切分长音频”的数据工程思路，对其他缺乏高质量长音频标注的垂直领域（如法律、金融口述）具有重要借鉴意义。

eess.AS

A Survey of Advancing Audio Super-Resolution and Bandwidth Extension from Discriminative to Generative Models

Ningyuan Yang, Yize Li, Diego A. Cuji, Ryan M. Corey, Pu Zhao 等 (7 人)

Audio and Speech Processing (eess.AS); Signal Processing (eess.SP)

Comments: Under review

📄 Abstract 📥 PDF

查看摘要

Audio super-resolution (SR), also referred to as bandwidth extension (BWE), aims to reconstruct high-fidelity signals from low-resolution (LR) or band-limited (BL) observations, an inherently ill-posed task due to the ambiguity of missing high-frequency (HF) content. This survey provides a comprehensive overview of the field, with a particular focus on the paradigm shift from discriminative mapping to modern generative modeling. We first review early discriminative deep neural network (DNN) models, which formulate BWE/SR as a deterministic mapping problem and are prone to regression-to-the-mean effects and spectral over-smoothing. We then systematically review generative approaches, including autoregressive (AR) models, variational autoencoders (VAEs), generative adversarial networks (GANs), diffusion and score-based models, flow-based methods, and Schrödinger bridges. Across these approaches, we examine key design aspects, including representation domain, architecture, conditioning mechanisms, and trade-offs among reconstruction fidelity, perceptual quality, robustness, and computational efficiency. Furthermore, we discuss emerging directions involving large language models (LLMs) and multimodal foundation models, and highlight open challenges in perceptual evaluation, phase modeling, and real-world generalization. By providing a structured taxonomy and unified perspective, this survey establishes a comprehensive foundation and offers a practical roadmap for advancing BWE/SR from deterministic point estimation toward distribution-aware generative modeling.

📖 深度解读

1. 一句话总结

这篇综述系统梳理了音频超分辨率与带宽扩展领域从“确定性判别式映射”向“概率性生成式建模”的范式转变，阐明了如何通过生成模型解决高频缺失带来的“一对多”模糊性问题，从而重建更具真实感的高保真音频。

2. 研究背景与动机

核心问题：如何从低分辨率（LR）或带宽受限（BL）的音频观测中，恢复出缺失的高频（HF）成分，重建高保真音频。
为什么重要：该技术在通信、助听器、老旧录音修复等领域有广泛应用，并能显著提升语音识别等下游任务的性能。
现有方法不足：传统的信号处理方法和早期的深度神经网络（判别式模型）将此问题视为确定性的点映射（一对一）。由于低频输入可能对应多种合理的高频输出（一对多的病态问题），判别模型在使用基于距离的损失函数（如MSE）训练时，必然导致“回归到均值”效应，产生频谱过度平滑、高频细节丢失和听感不自然的问题。

3. 核心方法

提出的框架：论文并未提出单一新模型，而是构建了一个统一的分类学框架，将BWE/SR方法按演进路径分为判别式模型和生成式模型两大阵营，并深入剖析了生成式范式的各类分支。
关键创新点（视角创新）：
1. 统一了BWE与SR的定义：澄清了带宽扩展（侧重频谱补全）和超分辨率（侧重时间插值）在数学本质上的等价性——都是病态的逆问题（频谱/时间修补）。
2. 揭示了范式转移的必然性：指出从点估计走向分布匹配是解决高频模糊性的根本途径。
3. 系统化生成模型谱系：将现有的生成方法梳理为AR、VAE、GAN、扩散模型、流模型和薛定谔桥六大类，并对比了它们的条件机制与权衡。
核心思路直觉解释：如果把低频音频比作“人物的剪影”，判别式模型试图找出“最平均的人脸”，结果就是五官模糊；而生成式模型则是在画“符合这个剪影的、真实存在的人脸”，虽然每次画的不一样，但每一张都栩栩如生。扩散模型和流模型等就是通过不断去噪或形变，把简单的随机噪声塑造成符合剪影的高频细节。

4. 实验与结果

(注：由于本文为综述论文，且提供的文本截断未包含具体的实验对比表格，以下基于综述的归纳总结)
- 数据集/基准：语音领域最常用的是VCTK（48kHz，SSR事实标准）和TIMIT；音乐和通用声音领域则使用MUSDB18-HQ、ESC-50等。
- 基线方法：涵盖了从早期的MLP、CNN（如AudioUNet）、RNN，到现代的GAN（如NVSR, EBEN）、扩散模型（如NU-Wave, AudioSR）和流模型等。
- 主要结果/趋势：
- 客观指标上，判别模型在SNR、SI-SDR等波形级指标上往往更好，但听感单薄；
- 生成模型（特别是GAN和扩散模型）在LSD（对数频谱距离）和MOS（主观平均意见分）上表现更优，高频更丰富自然。
- 评估指标的局限性：论文特别指出，SNR/SI-SDR与人类听感存在背离——高频生成具有随机性，即使听感极佳，样本级对齐的分数也可能很低。因此LSD和主观MOS是更合理的指标。
- 消融实验/设计权衡揭示：
- 频谱映射范式：从固定截止频率，发展到多场景，再到最新的“带宽不可知”范式（单一模型处理任意截止频率，如NVSR, AP-BWE），泛化能力显著增强。
- 表示域：从手工特征（LPS, MFCC）演进到端到端波形、复数频谱图，再到最新的神经音频编解码器离散Token。

5. 优势与局限

本文方法（综述框架）的主要优势：
1. 视角高屋建瓴：首次明确界定了BWE与SR的异同，并用“病态逆问题”的数学视角统一了两者。
2. 脉络极其清晰：通过“判别->生成”的主线，将零散的模型整合为有逻辑的进化树，帮助研究者快速定位前沿。
3. 实用性极强：不仅罗列模型，还深入拆解了输入表示、损失函数、条件机制等工程落地的关键设计维度。

当前领域的局限性（论文指出）：
1. 评估体系的错位：现有的客观指标（如SNR）无法准确衡量生成式模型的感知质量，导致“指标高但听感差”或“听感好但指标低”的矛盾。
2. 相位建模依然困难：高频相位的恢复极具挑战，许多方法仍依赖低频相位镜像复制，限制了极端条件下的重建上限。
3. 计算效率与真实泛化：强大的生成模型（如扩散模型）推理延迟高，且在真实世界未知降级（非理想低通滤波）下的鲁棒性不足。

6. 关键结论与启发

最重要的Takeaway：音频超分辨率的本质是条件分布匹配而非确定性映射。生成式建模通过捕捉高频成分的随机性和多样性，从根本上解决了判别式模型的频谱过平滑问题，是当前和未来的绝对主流。
对后续研究的启发/延伸方向：
1. 大语言模型（LLM）与多模态融合：借鉴LLM的序列建模范式，利用离散音频Token进行自回归高频预测，或引入视觉/文本信息作为先验辅助高频生成。
2. 开发感知驱动的评估指标：亟需设计一种能兼顾样本多样性与听觉保真度的新型客观评估标准，以替代传统的SNR。
3. 轻量化与实时性：探索如薛定谔桥、流匹配等少步数生成的先进范式，在保持生成质量的同时满足实时通信和可穿戴设备的算力约束。
4. 盲带宽扩展：摆脱对已知降级过程的依赖，研究在未知噪声和滤波条件下的鲁棒高频恢复。

eess.AS

SemaVoice: Semantic-Aware Continuous Autoregressive Speech Synthesis

Huimeng Wang, Hui Lu, Jiajun Deng, Haoning Xu, Youjun Chen 等 (10 人)

Audio and Speech Processing (eess.AS)

📄 Abstract 📥 PDF

查看摘要

Continuous autoregressive speech synthesis has recently emerged as a promising direction for zero-shot text-to-speech (TTS). However, existing methods still suffer from a fundamental mismatch between semantic-prosodic modeling and reconstruction-driven continuous speech representations. This mismatch causes TTS models to focus excessively on low-level acoustic textures at the expense of high-level semantic coherence, further exacerbating error accumulation in autoregressive generation. To address this challenge, we propose SemaVoice, a semantic-aware continuous autoregressive framework for high-fidelity zero-shot TTS. SemaVoice introduces a Speech Foundation Model (SFM) guided alignment mechanism that refines continuous speech representations to better capture both local semantic consistency and global structural relationships. These representations condition a patch-wise diffusion head within the autoregressive framework for high-quality speech synthesis. Experimental results on the Seed-TTS benchmark show that SemaVoice achieves an English WER of 1.71\% and remains highly competitive with state-of-the-art open-source systems in both objective and subjective evaluations. The effectiveness of SFM guided alignment is further confirmed by significant improvements under varying representation granularities with a fixed information-rate constraint.

📖 深度解读

1. 一句话总结

本文提出了SemaVoice框架，通过引入语音基础模型（SFM）引导的对齐机制，解决了连续自回归语音合成中“重建导向”与“语义建模”不匹配的问题，从而在零样本TTS任务中实现了高保真、高语义连贯性的语音生成。

2. 研究背景与动机

核心问题：在连续自回归语音合成中，用于生成语音的连续表征（通常由VAE提取）与高层语义-韵律建模之间存在根本性的不匹配。
问题重要性：如果不解决这个不匹配，TTS模型会过度关注低级的声学纹理细节，而牺牲了高级的语义连贯性，这会加剧自回归模型中常见的“误差累积”现象，导致生成质量下降（如说话磕巴、乱码）。
现有方法不足：
1. 离散token方法：虽然语义连贯性好，但受限于码本带宽，不可避免地丢失细微声学细节，往往需要级联扩散模型来补全，难以兼顾长程韵律和精细声学特征。
2. 连续表征方法：虽然重建保真度高，但VAE的优化目标是声学重建，缺乏对文本语义的显式对齐，导致自回归生成时语义容易“跑偏”。

3. 核心方法

提出框架：SemaVoice，一个语义感知的连续自回归零样本TTS框架。
关键创新点：
1. SFM引导的对齐机制：在VAE训练时，利用冻结的语音基础模型（WavLM）提取高层语义特征，强制VAE的连续表征在局部帧级别和全局结构级别上与语义特征对齐。
2. 高压缩σ-VAE：采用引入随机方差的σ-VAE，将24kHz波形压缩至15Hz（1600倍下采样），既保留了高保真重建能力，又大幅缩短了序列长度，减轻了自回归建模的负担。
3. 带历史条件约束的Patch-wise扩散头：自回归LLM以Patch为单位预测，每个Patch的生成由一个轻量级扩散模型完成；且扩散模型以前一个生成的Patch作为条件（类似图像外推绘制），增强了局部生成的连贯性。
核心思路直觉解释：
SFM对齐：就像给只懂“描摹字帖”（重建）的学徒请了一位“语文老师”（SFM），不仅要求他画得像，还要求他理解字义（语义对齐），这样他自己写文章（自回归生成）时才不会前言不搭后语。
Patch+历史条件：把语音切成小段生成，且生成下一段时必须看着上一段，就像排队传口令，每个人不仅要知道前面传了什么（LLM上下文），还要紧挨着前一个人（历史Patch条件）来传，保证声音不断层。

4. 实验与结果

数据集/基准：使用15万小时中英双语数据训练；在Seed-TTS基准（含英文、中文及困难子集）上评估。
基线方法：对比了F5-TTS, MaskGCT, CosyVoice2, IndexTTS2, VoxCPM, Qwen2.5-Omni等10余种主流开源SOTA系统。
主要实验结果：
客观指标：SemaVoice在英文测试集上取得了1.71%的极低WER（词错率），在中文测试集CER为1.18%，说话人相似度（SIM）达到0.694（英）/0.754（中），全面超越或匹敌参数量更大、数据量更多的模型（如HiggsAudio-v2, Qwen2.5-Omni）。
主观指标：中文自然度MOS达到4.07（超越真实录音的3.94和所有基线），英文自然度MOS为3.98（接近真实录音4.02）。
消融实验揭示：
去掉SFM对齐：WER从2.97%升至3.40%，SIM下降，证明语义对齐有效。
去掉历史条件约束：WER暴涨至8.46%，证明局部声学连贯性条件至关重要。
粒度影响实验：在固定信息率下，表征越精细（帧率越高，如60Hz），自回归越难。此时SFM对齐的收益急剧放大（60Hz下WER从28.06%降至14.71%），证明在建模难度大时，语义引导是稳定生成的关键。

5. 优势与局限

主要优势：
1. 深刻洞察并解决了连续自回归TTS中“重建”与“语义”不匹配的根本痛点。
2. SFM对齐机制是即插即用的，不改变下游TTS架构和推理流程，无额外推理开销。
3. 在保证极高音质（连续表征优势）的同时，实现了SOTA级别的鲁棒性和智能性（极低的WER）。
局限性：
1. 仅在中英双语上验证，对更多低资源语言和复杂领域的泛化性未知。
2. 作为自回归模型，存在固有的推理延迟（需逐Patch生成）和长序列误差累积风险。

6. 关键结论与启发

最重要的Takeaway：连续语音表征的重建能力不等于生成能力；通过引入自监督语音基础模型的语义先验来约束和重塑VAE的隐空间，可以显著提升自回归生成的鲁棒性，且这种提升在序列建模难度增加时尤为显著。
后续研究启发：
1. 表征学习的新范式：未来语音tokenizer/表征的设计，不应仅以重建损失为唯一目标，而应显式融合语义、韵律等多维度的对齐损失。
2. 连续AR的潜力挖掘：本文证明了连续AR在音质和智能度上可全面媲美甚至超越级联系统，后续可探索更高效的并行采样策略以克服AR的推理延迟缺陷。
3. 跨模态对齐的延伸：SFM引导对齐的思路可推广至多模态大模型中，例如用视觉基础模型去对齐视频VAE，以解决视频生成中的语义漂移问题。

eess.AS

Can Large Audio Language Models Ignore Multilingual Distractors? An Evaluation of Their Selective Auditory Attention Capabilities

Heejoon Koo

Audio and Speech Processing (eess.AS)

Comments: 2 figures, 9 tables, and 12 pages total, with 4 pages of main text

📄 Abstract 📥 PDF

查看摘要

Robust selective auditory attention under multilingual interference is critical for reliable deployment of Large Audio Language Models (LALMs). We introduce MUSA, a cocktail party-inspired multilingual benchmark for source-grounded spoken-language understanding and reasoning. Each item pairs an English target dialogue with a semantically plausible distractor in English, Spanish, Korean, or Chinese, and evaluates models across (1) single, (2) source separation-based two-stage, (3) and end-to-end cocktail party settings under controlled SNRs. Evaluating two closed-source and four open-weight LALMs, we find that strong single performance does not ensure robust selective auditory attention: cocktail party accuracy degrades under severe SNRs, and errors are dominated by distractor-grounded source confusion. In addition, separation reduces acoustic overlap but leaves source attribution unresolved, often yielding confident wrong-stream answers. Data and code will be released upon publication.

📖 深度解读

1. 一句话总结

本文提出了一个名为MUSA的多语言“鸡尾酒会”基准测试，揭示了当前大型音频语言模型在面对多语言干扰语音时，不仅选择性听觉注意力严重下降，而且常常“自信地听错话”——把干扰流的信息当成了目标答案。

2. 研究背景与动机

核心问题：大型音频语言模型（LALMs）在有多人同时说话（鸡尾酒会效应）的场景下，能否准确提取目标语音信息并忽略语义相关的干扰语音？
重要性：在航空、医疗等高风险领域，环境中往往充斥着跨语言或同语言的并发语音。如果模型无法区分目标与干扰（比如把别人的医嘱当成了当前病人的诊断），将导致严重的后果。
现有方法不足：现有的多说话人基准（如CHiME-6）主要关注语音分离或识别的信号质量，不测试模型的“源归属推理”能力；而现有的LALM基准（如AIR-Bench）大多只测试干净的单流音频，缺乏在受控干扰下的语义级评估。简而言之，以前没人测试过模型在“该听谁”这个问题上到底行不行。

3. 核心方法

提出框架：MUSA（Multilingual Selective Attention），一个受鸡尾酒会问题启发的多语言多选问答（MCQ）基准。
关键创新点：
1. 语义对等的多语言干扰设计：每个测试样本包含一段英文目标对话，以及一段在语义上极具迷惑性但任务无关的干扰对话（干扰语言为英、西、韩、中四种），确保模型必须真正理解并区分源流，而非靠语义差异偷懒。
2. 三维诊断错误分类法：将模型的错误精细拆分为“目标误解（Mis，听了对的但想错了）”、“干扰入侵（Int，听了错的流）”、“无据推断（Ung，两边都没依据的胡编）”，直击错误来源。
3. 多维度评估设置：设计了三种测试设定——单流、基于源分离的两阶段（先分离再推理）、端到端鸡尾酒会（直接听混合音），并在不同信噪比（SNR）下进行压力测试。
核心思路直觉解释：就像在嘈杂的跨国派对上，有人用英语告诉你重要信息，旁边还有个人用中文或英语说着极具诱惑力的无关八卦。MUSA不仅看你能不能听清（分离），更看你能不能管住耳朵只信英语目标流（源归属推理），并诊断你到底是没听清，还是被八卦带偏了。

4. 实验与结果

数据集/基准：MUSA基准，包含200个测试用例，覆盖航空、医疗、金融、建筑4个高风险领域，使用TTS合成并混合音频。
对比模型：2个闭源模型（GPT-4o mini Audio, Gemini-2.0-Flash）和4个开源模型（Qwen2-Audio, MERaLiON-2, Audio-Flamingo-3, Qwen2.5-Omni）。
主要实验结果：
单流好≠抗干扰强：所有模型在单流设定下表现尚可，但在0 dB鸡尾酒会设定下准确率暴跌。例如Gemini-2.0-Flash从单流的95.5%骤降至混合流的24.2%。
分离治标不治本：引入语音分离模块后，准确率有所回升，但仍远低于单流水平。更严重的是，模型在选错流时往往表现出极高的自信度（ECE校准误差飙升），即“自信地给出错误答案”。
干扰入侵是主要错误源：在鸡尾酒会设定下，模型错误中高达70%-90%以上是“干扰入侵（Int）”，说明模型被干扰流带偏，而非单纯理解力不足。
消融实验（SNR与语言分析）：
在负SNR（目标音量小于干扰）下，模型几乎完全追随音量大的干扰流；随着目标音量增大，准确率才逐渐恢复。
韩语作为干扰时，模型的抗干扰表现意外地好于其他语言。这并非因为语义差异，而是因为韩语的语音特征差异和时长导致了更少的时序重叠和更易分离的声学特征。

5. 优势与局限

主要优势：
1. 填补空白：首次针对LALMs提出了受控多语言干扰下的“源归属推理”基准，超越了传统的信号级评估。
2. 诊断性强：通过创新的错误分类和流置信度分析，清晰剥离了“声学重叠”与“源归属混淆”两个维度的瓶颈。
3. 揭示隐患：有力证明了当前LALMs存在“自信听错”的致命缺陷，对高风险应用敲响了警钟。
局限性：
1. 规模与生态效度：仅包含200个TTS合成的双说话人样本，缺乏真实环境噪声、自然语调变化和更多说话人的复杂场景。
2. 目标语言单一：目标流仅限英语，未探讨非英语目标或同声同语种极端干扰的情况。
3. 评估格式局限：多选题格式虽然便于归因，但无法反映模型在开放式生成中“缝合”不同流信息的幻觉现象。

6. 关键结论与启发

最重要的Takeaway：当前的LALMs本质上还是“谁响听谁”的声学依赖者，而非“该听谁听谁”的语义主导者。语音分离只能缓解声学重叠，无法解决模型在语义层面的“源归属”认知瓶颈。
对后续研究的启发：
1. 建模方向：必须将“选择性听觉注意力”作为LALMs的一等公民目标，设计专门的架构或训练范式（如引入流级别的对比学习或显式的源归属标签）来增强抗干扰能力。
2. 评估方向：未来的基准应向非英语目标、多说话人、开放式生成以及空间音频（双耳信号）拓展，以更贴近真实的鸡尾酒会场景。
3. 安全部署：在航空、医疗等场景部署LALMs时，必须谨慎对待并发语音输入，不能盲目相信模型的输出置信度。

eess.AS

Robust Soft-Constrained Spatially Selective Active Noise Control for Hearables Under Secondary Path Variations

Tong Xiao, Reinhild Roden, Matthias Blau, Simon Doclo

Audio and Speech Processing (eess.AS); Signal Processing (eess.SP); Systems and Control (eess.SY)

Comments: Submitted to the 19th International Workshop on Acoustic Signal Enhancement (IWAENC 2026)

📄 Abstract 📥 PDF

查看摘要

Spatially selective active noise control (SSANC) hearables aim to attenuate noise from certain directions at the eardrum while preserving desired speech arriving from selected directions. Existing SSANC systems typically assume an accurate estimate of the secondary path from the loudspeaker to the inner error microphone. In practice, however, this path varies across users and device fits, which can degrade performance and compromise system stability. This paper proposes a robust soft-constrained optimization framework that computes a single control filter by minimizing the average cost over a set of secondary path estimates derived from human measurements. Simulations and experiments on a real-time control platform show that the proposed approach slightly reduces mean performance relative to the matched case but substantially narrows the performance spread under secondary path mismatch. The proposed framework therefore provides a practical design strategy when accurate secondary path estimates are unavailable.

📖 深度解读

1. 一句话总结

本文提出了一种鲁棒的软约束空间选择性主动降噪（SSANC）框架，通过在多个次级路径估计上最小化平均代价函数，解决了可穿戴助听设备因用户耳道差异和佩戴松动导致的次级路径失配问题，在略微牺牲平均性能的前提下，大幅提升了系统在不同人耳条件下的稳定性和表现一致性。

2. 研究背景与动机

核心问题：空间选择性主动降噪（SSANC）系统在实际应用中，如何应对次级路径（从设备扬声器到内耳误差麦克风的声学路径）的失配问题。
重要性：SSANC旨在保留特定方向的目标语音同时消除其他方向的噪声，这对助听器和TWS耳机等可穿戴设备至关重要。然而，不同用户的耳道结构不同，且每次佩戴的松紧度也不一样，这会导致真实的次级路径与系统预设的路径产生偏差。
现有方法不足：现有的SSANC系统通常假设次级路径是精确已知的。一旦假设不成立（即发生失配），系统的降噪性能会大幅下降，性能波动剧烈，甚至可能导致系统不稳定（如产生啸叫）。

3. 核心方法

提出框架：鲁棒软约束空间选择性主动降噪优化框架。
关键创新点：
1. 多路径平均优化：不再依赖单一的标称次级路径进行滤波器设计，而是利用从真实人体测量中提取的一组（J个）次级路径估计，通过最小化这组路径上的平均代价函数来求解全局控制滤波器。
2. 软约束与鲁棒性的结合：在原有平衡“降噪”与“语音失真”的软约束基础上，将次级路径的不确定性显式纳入优化目标，确保在多种路径条件下都能维持语音质量与降噪效果的平衡。
3. 离线全局滤波器设计：无需在线实时估计当前用户的次级路径，而是直接部署一个“万金油”滤波器，降低了实时系统的计算负担和潜在的发散风险。
核心思路直觉解释：假设你要为所有乘客设计汽车座椅的舒适度参数。老方法是按照“标准体型”设计，结果偏胖或偏瘦的人坐着都不舒服（失配导致性能下降）。新方法则是收集了大量不同体型的数据，找到一个让所有人坐上去都“勉强及格甚至良好”的折中参数。虽然这个参数对某个特定标准体型来说不是最完美的，但保证了最差情况下的体验不会太糟，消除了“因体型不同而极度不适”的风险。

4. 实验与结果

数据集/基准：
硬件：GRAS KEMAR头模+封闭式助听器（4个外部麦克风，1个内部误差麦克风，1个扬声器）。
声学场景：混响室（T60≈370ms），前方0°为目标语音，60°和245°为飞机客舱噪声，外加12个扬声器产生的弥漫性Pub环境噪声。
次级路径集：基于KEMAR测量响应，叠加从真实人体测量中提取的频谱变异，生成44个不同的次级路径。
基线方法（评估案例）：
Case 1 (Matched/Oracle)：优化和评估使用同一真实路径（性能上界）。
Case 2 (Mismatched)：用某一个路径优化，在其他43个路径上评估（代表传统方法的失配情况）。
Case 3 (Robust)：用44个路径的平均代价优化，在所有路径上评估（本文方法）。
主要实验结果：
降噪（NR）：失配情况下，降噪性能的波动范围（5th-95th百分位）高达约6 dB；而鲁棒方法将这一波动范围大幅收窄，均值与失配情况相当，仅略低于Oracle上界。
语音质量（PESQ）：鲁棒方法同样显著缩小了PESQ提升的波动范围，保证了不同人耳下的语音听感一致性。
语音失真与可懂度（SD_intellig, ESTOI）：这两种指标受次级路径失配影响较小，鲁棒方法与基线表现相当。
实验验证：在dSPACE SCALEXIO实时控制平台上进行了实验，频谱分析证实实时实验结果与仿真高度一致，验证了方法的实际可行性。

5. 优势与局限

主要优势：
1. 极高的鲁棒性：有效抑制了因个体差异和佩戴变化导致的性能剧烈波动，保障了系统的下限表现。
2. 实用性强：无需复杂的在线次级路径辨识算法，避免了辨识失败导致的系统崩溃，适合计算资源受限的实时可穿戴设备。
3. 理论完备：将鲁棒优化巧妙融入软约束SSANC框架，闭式解易于实现。
局限性：
1. 均值性能的妥协：为了换取稳定性，在路径恰好匹配的情况下，其性能不如专门定制的Oracle滤波器（即“万金油”不如“量身定制”完美）。
2. 依赖先验路径集：方法的有效性高度依赖于所采用的44个次级路径估计是否具有代表性。如果实际用户的路径严重偏离该集合，鲁棒效果可能会打折扣。
3. 静态滤波器局限：本文设计的是离线固定滤波器，无法应对设备佩戴过程中的动态松动（如跑步时耳机晃动引起的瞬时路径剧变）。

6. 关键结论与启发

最重要的Takeaway：在SSANC系统中，次级路径失配对降噪性能的破坏远大于对语音失真的破坏；通过在多个可能的次级路径上进行平均代价最小化，可以仅付出极小的均值性能代价，换取系统在真实物理世界中的高度稳定性和一致性。
后续研究启发：
1. 动态自适应鲁棒控制：结合在线自适应算法，当检测到设备佩戴状态改变时，动态调整鲁棒优化中的路径权重，而非使用静态的平均权重。
2. 最坏情况优化：本文采用的是“平均代价”策略，未来可以探索基于“最小化最大代价”的策略，进一步兜底最差情况下的性能。
3. 与虚拟传感技术的结合：将该鲁棒框架扩展到虚拟误差麦克风场景，以同时解决物理路径变化和虚拟位置偏移的双重不确定性。

eess.AS

S2Accompanist: A Semantic-Aware and Structure-Guided Diffusion Model for Music Accompaniment Generation

Huakang Chen, Wenkai Cheng, Guobin Ma, Chunbo Hao, Yuxuan Xia 等 (10 人)

Audio and Speech Processing (eess.AS)

📄 Abstract 📥 PDF

查看摘要

High-fidelity text-to-music generation typically relies on massive proprietary datasets and immense computational resources. Existing models often struggle to generate coherent pure musical accompaniments and lack precise, localized semantic control due to their reliance on coarse, track-level annotations. To address these limitations under constrained data and computing resources, we propose S2Accompanist, a Semantic-Aware and Structure-Guided Diffusion Model developed for the ICME2026 ATTM Grand Challenge. Specifically, we design an automated data pipeline comprising structural segmentation, Large Audio-Language Model driven segment-level captioning, and dual-metric quality grading to overcome the absence of localized metadata in raw datasets. Furthermore, we propose a semantic-aware Variational Autoencoder fine-tuning strategy that explicitly distills foundational LeadSheet structures into the acoustic latent space, effectively improving the overall audio fidelity. Extensive experiments demonstrate that S2Accompanist achieves state-of-the-art objective performance on the ATTM Grand Challenge benchmark across both the Efficiency and Performance Tracks. With only 402M parameters, our model remains competitive compared to larger-scale unconstrained models and secured first place in the Efficiency Track.

📖 深度解读

1. 一句话总结

本文提出了S2Accompanist模型，通过构建结构引导的数据流水线提取细粒度伴奏片段，并采用语义感知的VAE微调策略注入乐谱骨架，在受限数据和算力下实现了高保真、可控的纯音乐伴奏生成。

2. 研究背景与动机

核心问题：如何在受限的数据和计算资源下，生成高保真且具备局部精细语义控制（如特定乐器、情绪转换）的纯音乐伴奏。
重要性：当前主流文本生音乐模型依赖海量私有数据和算力，且主要针对“人声+伴奏”的混合音频优化，导致生成纯伴奏时容易出现人声伪影或结构崩塌；同时，粗粒度的全局描述词使得模型难以对音频的局部段落进行精准控制。
现有不足：1) 现有模型在纯器乐生成上表现不佳；2) 缺乏细粒度的结构化标注，导致局部控制力弱；3) 现有音频VAE在压缩纯伴奏时容易丢失音乐性（如和声与节奏框架）。

3. 核心方法

提出框架：S2Accompanist，一个基于扩散模型的文本生伴奏框架。
关键创新点：
1. 结构引导的数据流水线：不使用随机裁剪，而是通过源分离提取伴奏，利用混合音轨的结构分析时间戳对齐切割出结构离散的片段（如主歌、副歌），并使用大音频语言模型（LALM）生成细粒度描述，最后通过双指标（音频质量+语义相似度）筛选出Top 20%高质量数据用于SFT。
2. 语义感知的VAE微调：将乐谱的骨架信息（和弦、节奏等，由SheetStage模型提取）作为“老师”，通过语义正则化损失蒸馏到音频VAE的潜空间中，迫使潜变量不仅包含声学特征，还包含深层音乐语义。
3. 面向伴奏优化的DiT训练：去除了歌词条件，直接在上述结构化片段上训练；并采用50%文本/50%音频的混合MuLan嵌入策略加速收敛。
核心思路直觉解释：
数据流水线：就像做菜，以前是随便抓一把食材（随机裁剪），现在是按照菜谱的结构（前菜、主菜）精准备料，并让美食评论家（LALM）详细写下每道菜的口味，最后只选用最新鲜的顶级食材（质量分级）来精雕细琢。
语义VAE微调：普通的VAE就像只看像素画画的画师，可能画出发音奇怪的和弦；而语义微调相当于在画师脑子里植入了一本“乐理规则书”（LeadSheet骨架），让他在压缩音频时，潜意识里遵循和声与节奏的规律，从而保证生成的音乐有内在的逻辑和乐感。

4. 实验与结果

数据集/基准：严格受限的MTG-Jamendo数据集（约3.7K小时），ICME2026 ATTM大挑战基准。
基线方法：FluxAudio-S（挑战赛基线）、MusicGen-small/medium、Stable Audio Open，以及挑战赛其他顶尖提交（如p05, e01等）。
主要实验结果：
客观指标：S2Accompanist（402M参数）在FAD（音频保真度）上达到0.417，不仅拿下效率赛道第一，甚至超越了2.4B参数的性能赛道模型（p05, FAD 0.514）和使用5倍数据训练的MusicGen-medium。在细粒度概念覆盖度（CCS）上达到0.867，位列全场最高，证明了其精准的语义控制力。
主观指标：MOS得分3.250（大众）/ 3.186（专家），获效率赛道第一。
消融实验揭示：
语义VAE：将FAD从0.623大幅降至0.367，证明注入乐理骨架对提升音频保真度至关重要。
结构化标注：虽然Track-level标注FAD略低，但Segment-level标注让CLAP和CCS大幅提升（CCS从0.714升至0.793），证明局部结构化条件是实现精细控制的关键。
质量分级SFT：使用Top 20%数据微调全面提升了所有指标，证明过滤分离伪影和幻觉标注能有效拔高生成上限。

5. 优势与局限

主要优势：
1. 极高的资源利用率：以小博大，仅用402M参数和受限数据就超越了大量依赖海量算力和数据的模型。
2. 精细的局部控制力：通过结构化切片和细粒度标注，解决了全局标注下局部音乐元素（乐器、情绪）难以控制的痛点。
3. 音乐内在一致性高：语义VAE的引入从底层潜空间保证了和声与节奏的合理性。
局限性：
1. 依赖外部模型链路过长：数据流水线严重依赖Demucs（源分离）、SongFormer（结构分析）、Gemini（标注）等模型，链路中任何一环的误差（如分离伪影、LALM幻觉）都会影响最终数据质量。
2. CLAP得分相对不突出：在全局文本-音频对齐（CLAP Score）上，论文声称具有竞争力，但绝对数值（0.261）低于部分基线（如MusicGen-small的0.370），说明全局语义匹配仍有提升空间。
3. 主观听感与客观指标的Gap：虽然客观FAD极低，但主观MOS（3.25左右）表明生成质量距离专业制作水平（5分）仍有明显距离。

6. 关键结论与启发

最重要的Takeaway：在生成式AI中，精心的数据工程（结构化切片+细粒度标注+质量分级）和潜空间的语义注入，比单纯堆砌参数和数据量更有效。算法效率可以弥补资源的劣势。
对后续研究的启发：
1. 数据构建范式：未来生音乐研究应摒弃粗放的“随机裁剪+全局标签”模式，转向“结构感知+多维度细粒度标注”的数据构建范式。
2. VAE的乐理对齐：将乐理知识（如LeadSheet）作为先验注入VAE潜空间是一个极具潜力的方向，可扩展至其他模态（如将MIDI符号信息注入音频VAE）。
3. 质量驱动的SFT：在微调阶段“贵精不贵多”，使用双指标严格筛选高质量数据子集，是突破模型生成上限的有效手段。

eess.AS

Audio-Image Cross-Modal Retrieval with Onomatopoeic Images

Keisuke Imoto, Yamato Kojima, Takao Tsuchiya

Audio and Speech Processing (eess.AS)

📄 Abstract 📥 PDF

查看摘要

Finding sound effects or environmental sounds that match a creator's intended impression remains a largely manual process in multimedia production. This is especially relevant for comics and other visual media, where visually stylized onomatopoeic expressions convey auditory impressions through letter shapes, strokes, layouts, and decorative patterns. However, cross-modal retrieval between onomatopoeic images and general sounds has been largely unexplored. This paper thus introduces a bidirectional retrieval framework between onomatopoeic images and the corresponding sound clips. Instead of directly comparing embeddings extracted from pretrained image and audio encoder, we train modality-specific projection heads that re-align the embeddings for visual onomatopoeia and corresponding sounds. We then construct the Multimodal Image-Audio Onomatopoeia dataset (MIAO), which contains paired onomatopoeic images and sound clips across 50 sound event classes. Experimental results show that the proposed method substantially outperforms a zero-shot baseline using pretrained CLIP and CLAP embeddings. These results demonstrate that adapting pretrained representations enables effective retrieval in both directions: from onomatopoeic images to sounds and from sounds to onomatopoeic images.

📖 深度解读

1. 一句话总结

本文提出了一种基于投影头的跨模态对齐框架，实现了漫画风格的“拟声词图像”与“环境声音”之间的双向精准检索，解决了创作者在多媒体制作中难以通过视觉印象高效找音效的痛点。

2. 研究背景与动机

核心问题：如何实现视觉拟声词图像（如漫画中手绘的“轰隆”、“咔嚓”）与对应环境声音之间的双向跨模态检索。
为什么重要：在动画、游戏和影视制作中，创作者通常需要根据脑海中的听觉印象来寻找音效，而视觉拟声词正是这种印象的自然载体。目前这个过程高度依赖人工经验，效率低下。
现有方法不足：
1. 现有的跨模态检索模型（如CLIP和CLAP）分别独立训练，其图像和音频嵌入空间无法直接对齐比较。
2. 现有的拟声词相关研究仅关注文本形式的拟声词，或仅用于声音合成，忽略了视觉拟声词中包含的丰富听觉信息（如字体形状、笔画、布局和装饰图案）。
3. 预训练模型从未见过这种高度风格化的拟声词图像，直接提取特征存在严重的“领域不匹配”。

3. 核心方法

提出框架：基于预训练编码器+轻量级模态特定投影头的跨模态表示学习框架。
关键创新点：
1. 任务定义与数据集构建：首次定义了视觉拟声词与声音的双向检索任务，并构建了包含50类声音事件、850对数据的MIAO数据集。
2. 轻量级投影头重对齐：冻结CLIP和CLAP编码器，仅训练两个两层MLP投影头，将原本不兼容的图像和音频特征映射到共享的联合嵌入空间。
3. 双损失函数设计：同时使用对齐损失（拉近匹配的音图特征）和分类损失（保持声音事件的类别判别力），确保模型既能跨模态匹配，又不会丢失语义区分度。
直觉解释：预训练的CLIP和CLAP就像两个语言不通的人，一个只懂“视觉方言”，一个只懂“听觉方言”。本文的方法不是从头教他们新语言，而是给每个人配了一个“翻译器”（投影头）。在保留他们原本丰富经验（冻结编码器）的前提下，通过少量配对数据训练翻译器，让两人输出的信息能在同一套标准下对上号。

4. 实验与结果

数据集/基准：自建的MIAO数据集（50类，850对），按插画师划分训练/验证/测试集以评估对未见视觉风格的泛化能力。
基线方法：Zero-shot基线（直接将CLIP和CLAP提取的特征进行余弦相似度匹配）。
主要实验结果：
图像到声音检索 (I2A)：mAP从6.77%飙升至61.45%，R@1从2.00%提升至53.60%。
声音到图像检索 (A2I)：mAP从7.82%提升至61.08%，R@1从6.00%大幅提升至64.60%，R@5更是达到88.20%。
这表明直接比较预训练特征完全不可行，而投影头重对齐效果显著。
消融与深入分析：
方向差异：A2I（音找图）的Top-K指标优于I2A（图找音）。原因在于同一类声音的音频特征很集中，但不同插画师画的拟声词图像视觉差异极大（如图像特征分散），导致用图做查询时更容易受风格干扰。
易混淆类别：表现最差的类别（如“相机”、“沸腾”、“海浪”）往往在视觉或听觉上与另一类高度相似（如“键盘敲击”与“相机”、“倒水”与“沸腾”），且这些类别的图像特征离散度远高于音频特征。

5. 优势与局限

主要优势：
1. 高效实用：采用冻结大模型+训练轻量级投影头的范式，以极低的计算成本实现了跨模态空间的有效对齐。
2. 双向赋能：不仅能帮创作者“看图找音效”，还能“听音配特效”，双向检索性能均大幅超越基线。
3. 泛化性设计：按插画师划分数据集，证明了模型能检索出训练中未见过的绘画风格。
局限性：
1. 视觉风格多样性瓶颈：模型对视觉差异极大的拟声词图像（如不同插画师对同一声音的表达）仍容易混淆，缺乏对插画师个体差异的鲁棒建模。
2. 细粒度区分不足：对于声学特征或视觉特征高度相似的声音类别（如机械连续声“电钻”与“电锯”），模型依然容易失误。
3. 数据规模有限：MIAO数据集仅有850对数据，规模较小，可能限制了模型学习更广泛的细粒度对齐能力。

6. 关键结论与启发

最重要的Takeaway：预训练的视觉和音频大模型虽然强大，但无法直接跨模态对接；针对特定跨模态任务（尤其是包含高度风格化信息的模态），轻量级的特征重对齐是必要且极其有效的。
对后续研究的启发：
1. 多模态辅助监督：未来可以引入文本拟声词或声音事件的自然语言描述作为额外的监督信号，帮助模型更好地桥接视觉和听觉。
2. 风格解耦：在特征提取或投影过程中，可以尝试解耦拟声词图像中的“语义内容”和“绘画风格”，以解决当前因插画师风格差异导致的检索性能下降问题。
3. 应用延伸：该框架可扩展至自动为漫画/无声视频生成音效，或为音乐生成视觉化拟声特效等创作场景。

eess.AScs.SD

Robust Audio Tagging under Class-wise Supervision Unreliability 跨领域

Yuanbo Hou, Zhaoyi Liu, Tong Ye, Qiaoqiao Ren, Jian Guan 等 (7 人)

Audio and Speech Processing (eess.AS); Sound (cs.SD)

📄 Abstract 📥 PDF

查看摘要

Weakly labeled datasets such as AudioSet have driven recent progress in audio tagging. However, annotation quality varies across sound classes. Labels may be incomplete, ambiguous, or unreliable, which introduces class-dependent supervision bias during optimisation. The issue becomes harder as real and generated audio are increasingly mixed in training, and generated samples do not always match their intended semantic labels. Prior work mainly addressed unreliable supervision from missing-positive labels, while this paper targets three other sources of unreliable supervision: spurious additions, misassignments between similar classes, and weakened label evidence. These effects introduce class-dependent optimisation bias that is not explicitly modeled by most existing methods. To bridge this gap, the paper proposes a Class-wise Supervision Unreliability (CSU) framework that controls supervision strength at the class level during training. CSU learns a separate unreliability parameter for each class and down-weights less reliable supervision without changing the model architecture or inference process. To support evaluations, this paper also introduces ESC-FreeGen50, a manually verified benchmark of 50 sound classes that combines real and generated audio. Experiments on controlled benchmarks and AudioSet show that CSU improves robustness across different architectures and different sources of supervision unreliability. The results indicate that explicit class-wise modeling of supervision unreliability is an effective and practical strategy for robust audio tagging under large-scale weakly labeled training. Code and data are available at: this https URL

📖 深度解读

1. 一句话总结

本文提出了一种类别级监督不可靠性（CSU）框架，通过为每个声音类别学习一个“不可靠性参数”来自适应降低劣质标签在训练中的权重，从而解决了音频标签中存在的虚假添加、相似类别错标和标签证据减弱等类别依赖的优化偏差问题。

2. 研究背景与动机

核心问题：在大规模弱标签音频数据集（如AudioSet）中，标签质量在不同类别间差异巨大，且随着真实音频与生成音频混合训练的趋势，标签不可靠性进一步加剧。
重要性：不可靠的监督会引入类别依赖的优化偏差，导致模型在特定类别上产生严重的误判或置信度失真，直接影响音频标签系统的鲁棒性。
现有方法不足：
1. 现有弱监督学习多聚焦于“漏标正例”（Type-0），忽视了其他类型的标签腐败；
2. 主流噪声标签学习方法（如损失修正、样本选择）通常在“实例级”操作，但在多声源重叠的弱标签音频中，很难定位到具体哪个片段的哪个标签出了错；
3. 现有方法难以应对真实-生成混合数据带来的异构且复合的标签噪声。

3. 核心方法

提出方法：类别级监督不可靠性框架。该框架不试图识别或修复单条错误标签，而是从宏观上控制每个类别在训练中的“话语权”。
关键创新点：
1. 定义了三种被忽视的标签腐败类型：虚假添加噪声（SAN，无中生有）、错位分配噪声（MAN，张冠李戴）、软标签噪声（SLN，证据减弱），并统一将其建模为类别级优化偏差。
2. 类别级自适应降权机制：为每个类别引入可学习参数 $\sigma_i$，$\sigma_i$ 越大，该类别对模型参数更新的贡献越小（梯度乘以 $1/\sigma_i^2$）。
3. 实用的替代损失函数：设计了与标准BCE兼容的替代目标函数，包含降权项 $1/\sigma_i^2$ 和正则项 $\log(\sigma_i+1)$，无需修改模型架构和推理过程。
核心思路直觉解释：就像在课堂上，如果老师发现某门课的教材（某个类别的标签）错误百出，老师不会逐字去修改教材（实例级修正），而是告诉学生：“这门课的教材不太靠谱，少记点笔记，别太当真”（类别级降权）。教材越不靠谱，$\sigma$ 越大，学生花在这门课上的精力（梯度更新）就越少。同时，为了防止学生完全放弃这门课（$\sigma$ 趋于无穷），加了一个温和的惩罚项。

4. 实验与结果

使用数据集：
ESC-FreeGen50（本文新提出）：包含50个类别的人工校验混合基准（50%真实+50%生成音频），支持受控的SAN/MAN/SLN噪声注入。
AudioSet：大规模真实弱标签数据集，用于验证泛化性。
对比基线方法：Google CNN, MobileNet, ResNet, PANNs, EAT（验证架构通用性）；ASL, APL, SCE, Bootstrapping, UPS, $\rho$-corrected DC（验证方法优越性）。
主要实验结果：
受控环境：CSU在所有腐败类型和比例下均提升基线性能。在50% MAN下，Baseline+CSU的mAP达0.134（Baseline仅0.110）；在50% SLN下，mAP达0.614（Baseline为0.563）。
大规模真实环境：在AudioSet上，EAT-CSU取得了49.61%的mAP（最佳50.04%），优于原版EAT（48.6%）和仅改架构的EAT-CH（49.02%）。
腐败影响排序：MAN破坏力最强（$\sigma$增幅最大），SAN居中，SLN最温和（$\sigma$增幅最小且集中）。
消融实验揭示：
CSU使得损失景观的局部几何形状更平坦、更宽，高损失区域更紧凑。
学习到的 $\sigma$ 分布与腐败机制高度相关：SLN下$\sigma$低且集中，SAN和MAN下$\sigma$高且分散，证明CSU确实学到了与噪声机制匹配的控制信号。

5. 优势与局限

主要优势：
1. 即插即用且推理无损：不改变模型架构，不增加推理复杂度，可无缝嫁接到各种CNN和Transformer架构上。
2. 宏观视角更实用：避开了弱标签多声源音频中“实例级噪声不可观测”的死胡同，用类别级控制代替实例级修复，更符合实际工程场景。
3. 机制自洽：学习到的 $\sigma$ 参数能够真实反映不同类别受噪声影响的程度和机制。
局限性：
1. 粒度较粗：每个类别仅用一个标量 $\sigma$ 控制，无法捕捉同一类别内部不同样本或不同时间帧的细粒度可靠性差异。
2. 依赖类别级差异：如果某个类别的噪声恰好非常均匀且与全局噪声无异，CSU可能难以发挥显著的区分作用。

6. 关键结论与启发

最重要的Takeaway：在弱标签音频任务中，当实例级的标签腐败路径难以追踪时，显式地对“类别级监督不可靠性”进行建模和降权，是一种简单、通用且极其有效的鲁棒训练策略。
对后续研究的启发：
1. 细粒度扩展：可以将类别级的 $\sigma$ 进一步解耦或扩展为时间帧级、实例级的动态可靠性评估，以应对更复杂的音频重叠场景。
2. 跨模态/跨领域应用：这种“不修标签改权重”的宏观控制思路，可推广至视频标签、多模态对齐等同样存在大规模弱标签和生成数据混合的领域。
3. 生成数据评估：随着AI生成内容的普及，如何量化并应对生成数据带来的“软标签噪声”，将是未来数据集构建和模型训练的重要方向。

eess.AS

UrduSpeech: A 156-Hour Urdu Speech Corpus with 12-Dimension Paralinguistic Annotations

Attia Nafees ul Haq, Zeyu Zhu, Jingbin Hu, ChunJiang He, Lei Xie

Audio and Speech Processing (eess.AS)

Comments: 6 pages, 3 figures, 4 tables

📄 Abstract 📥 PDF

查看摘要

Despite 230 million speakers, Urdu remains critically under-resourced in speech technology. We introduce UrduSpeech: a large high-fidelity Urdu corpus comprising 156 hours of audio with 12-dimension paralinguistic metadata, encompassing US-Std, US-CS, US-EngPk. To address Right-to-Left script constraints and frequent code-switching, we developed UrduSpeech, a LLM-driven pipeline to curate data across 12 diverse categories, including news, drama, and rare literary forms like Bait-Bazi. We also release a 9-hour US-Benchmark set, manually corrected by native annotators to serve as a standard. Human quality assessment of the primary 156-hour corpus yielded a Mean Opinion Score (MOS) of 4.6 (std = 0.7) with inter-rater reliability confirmed by a 0.68 Cohen's Kappa, validating our curation pipeline's 97.6% confidence score. The corpus maintains a 60-40 gender balance across 71,792 utterances. Our work represents a significant leap toward linguistic inclusivity in global AI. The corpus and code are open-sourced, and a demo page is available.

📖 深度解读

1. 一句话总结

本文构建了目前最大规模的高保真乌尔都语语音数据集UrduSpeech（156小时），并利用大语言模型驱动的流水线，首次为该语种提供了12维度的副语言标注，有效解决了乌尔都语在语音技术中资源匮乏及语码转换（乌英混杂）的难题。

2. 研究背景与动机

核心问题：乌尔都语在全球拥有2.3亿使用者，但在语音技术（如ASR、TTS）中属于严重低资源语言，缺乏高质量、带细粒度标注的语音数据集。
重要性：乌尔都语具有独特的从右向左（RTL）书写系统，且日常交流中频繁出现乌尔都语-英语语码转换，还常与印地语在声学上混淆。缺乏专门的数据集导致现有模型在处理这些现象时表现极差，阻碍了该语言的AI技术包容性。
现有方法不足：
1. 现有数据集（如Common Voice、FLEURS等）规模小、说话人多样性差（通常不到20个验证说话人），且多为基础文本转录，缺乏副语言信息。
2. 传统ASR模型（如Whisper）在处理乌尔都语时，倾向于将英语翻译或音译成乌尔都文，而不是保留原始的语码转换文本；多语言模型（如OmniASR）则容易出现幻觉和语言混淆（混入阿拉伯语或波斯语）。

3. 核心方法

提出框架：UrduSpeech数据集构建流水线，包含数据收集预处理、LLM提示工程转录与标注、以及以人为中心的质量评估三个阶段。
关键创新点：
1. LLM驱动的双阶段提示工程：利用Gemini 2.5 Pro的语义理解能力，第一阶段强制模型在语码转换时进行“字面转录”（遇到英文切英文，不翻译），并严禁输出印地语脚本；第二阶段提取12维副语言标签（如音高、情绪、口音等），并禁止使用“中性”等模糊词汇。
2. 针对“野生”数据的严格清洗协议：使用Demucs进行音源分离去噪，Pyannote 3.1进行说话人分离，严格剔除短于2秒、单说话人片段，并限制最长35秒以优化下游任务。
3. 高置信度过滤与人工校验闭环：基于模型置信度分数（丢弃低于0.6的数据），结合母语者人工修正9小时基准测试集，确保数据高保真。
核心思路直觉解释：就像要给一个方言极多、中英混杂的群体建语音库，传统方法要么听不懂直接翻译，要么把不同人的声音混在一起。本文的方法是：先用工具把背景音和人声剥离开，切好片段；然后请一个“懂语言规则和声学细节的AI专家”，要求它必须“原汁原味”听写（英文就写英文），还要给每段声音画出“情绪/音色等12项侧写”；最后，本地老练的校对员再把关，把AI写错或标错的地方改过来，确保最终数据库既大又精。

4. 实验与结果

数据集/基准：收集了200小时野生音频（YouTube及巴基斯坦电视档案），最终清洗得到156小时语料库（US-Std, US-CS, US-EngPk三个子集），并构建了9小时人工校验的US-benchmark。
对比基线：Whisper-large-v3、OmniASR-LLM-1B、Gemini 2.5 Pro。
主要实验结果：
转录模型选择：Gemini 2.5 Pro 表现碾压式领先。在包含语码转换(CS)的音频上，Whisper的词错率(WER)高达53.2%，OmniASR为49.9%，而Gemini仅为2.8%。
人工质量评估：156小时主语料库的平均主观意见分（MOS）高达4.64（满分5），92.78%的评分为4或5分；Cohen's Kappa达到0.678，证明了数据的高质量和高一致性。
消融实验/评估揭示：
评估揭示了“Kappa悖论”现象：由于数据质量普遍很高（评分方差小），导致全局Fleiss' Kappa偏低（0.141），但相邻一致性（±1）高达87.67%，说明标注者实际上具有高度共识。
复杂度分层评估显示，短时间标准乌尔都语（MOS 4.92）最易标注，而长时间语码转换（MOS 4.31）难度最大。

5. 优势与局限

主要优势：
1. 规模与多样性突破：156小时数据量远超现有开源乌尔都语数据集，且包含约3000个独特说话人，性别比例平衡（60/40），覆盖12个领域。
2. 细粒度标注：首个提供12维度副语言标注的乌尔都语数据集，为情感识别、说话人画像等副语言研究提供了基础。
3. 精准处理语码转换：有效解决了现有ASR模型将英文翻译或音译的痛点，保留了真实的语码转换现象。
局限性：
1. 说话人ID估算存在误差：由于“野生”录音的过分割问题，Pyannote识别出3000个聚类，但作者保守估计为1000+，精确的全局说话人身份验证尚未完成。
2. 残留噪声：尽管使用了Demucs等工具进行音源分离，部分片段仍保留了次要说话人的声音或环境背景噪声。

6. 关键结论与启发

最重要的Takeaway：对于低资源且具有复杂书写规则和频繁语码转换的语言，利用具备强语义理解能力的LLM（如Gemini）配合精心设计的提示工程，可以低成本、高精度地构建大规模、细粒度标注的语音语料库，其效果远超传统专用ASR模型。
对后续研究的启发/延伸方向：
1. 技术延伸：该流水线（野生数据清洗 + LLM提示转录与副语言标注）具有很强的可复用性，可推广至其他低资源的波斯-阿拉伯语系语言。
2. 下游任务基准：基于该数据集的9小时基准和12维标签，未来可开展更丰富的基准测试，如乌尔都语情感识别、深度伪造检测及带口音英语的识别。
3. 工具完善：论文提到正在开发自定义分词器和强制对齐工具，这将进一步提升该语料库在韵律和声学建模中的价值。

#10

eess.AS

Fractional-Order Subband p-Norm Adaptive Filter via Transformation Nearest Kronecker Product Decomposition for Active Noise Control

Jianhong Ye, Haiquan Zhao, Shaohui Lv, Yang Zhou

Audio and Speech Processing (eess.AS)

📄 Abstract 📥 PDF

查看摘要

The conventional normalized subband p-norm (NSPN) algorithm achieves robustness in $\alpha$-stable noise ($1<\alpha \leq 2$) by utilizing low-order error moments. However, its performance degrades significantly under three scenarios: (1) non-Gaussian inputs, (2) $\alpha$-stable noise with $0<\alpha \leq 1$, and (3) sparse system identification. To address these limitations, this paper proposes a fractional-order NSPN algorithm based on the nearest Kronecker product (NKP) decomposition and fractional-order stochastic gradient descent, termed NKP-FoNSPN. Theoretical bounds for the fractional-order parameter $\beta$ are also derived. Notably, when $\beta=1$, the NKP-FoNSPN reduces to a new NKP-NSPN algorithm, while its non-NKP decomposition variant becomes the fractional-order NSPN (FoNSPN) algorithm. Furthermore, a novel transformation-based NKP (TNKP) decomposition technique is designed, which exhibits lower computational complexity than conventional NKP for specific filter structures. The resulting TNKP-based FoNSPN (TNKP-FoNSPN) achieves lower steady-state misadjustment and multiplication cost compared with the NKP-FoNSPN algorithm. Additionally, complete computational complexity analyses are provided. For active noise control (ANC) scenarios, we develop filtered-x variants: NKP-FxFoNSPN and TNKP-FxFoNSPN. From the former, two additional variants are derived: NKP-FxNSPN and FxFoNSPN. Simulations using diverse noise sources (pink, helicopter, gunshot, pile driver, and traction substation noise) demonstrate the superiority of the proposed algorithms. Finally, we validate their noise reduction performance in a real constructed single-channel duct ANC and a simulated multi-channel ANC systems.

📖 深度解读

1. 一句话总结

本文提出了一种结合分数阶梯度下降与最近Kronecker积（NKP）分解的子带自适应滤波算法（NKP-FoNSPN及其变体），有效解决了传统算法在非高斯输入、极端脉冲噪声和稀疏系统下性能退化的问题，并在主动噪声控制（ANC）中展现了卓越的降噪能力。

2. 研究背景与动机

核心问题：传统的归一化子带p范数（NSPN）算法在处理脉冲噪声时具有鲁棒性，但在三种极端场景下性能急剧下降：1) 输入信号为非高斯信号（如脉冲输入）；2) 噪声的$\alpha$稳定分布特征指数极低（$0 < \alpha \le 1$）；3) 待辨识的系统具有稀疏/低秩特性。
重要性：主动噪声控制（ANC）、声学回声消除（AEC）等实际应用中，经常同时面临极端脉冲干扰和非高斯输入，传统基于均方误差（MSE）或整数阶矩的算法会发散或失效。
现有方法不足：
基于M估计或信息论学习（如MCC）的鲁棒算法，通常假设输入是高斯的，遇到非高斯输入时梯度更新会出错导致发散。
当$0 < \alpha \le 1$时，NSPN的代价函数不可导，传统随机梯度下降法失效。
现有NKP分解技术虽能加速低秩系统收敛并降低计算量，但尚未被引入子带自适应滤波中，且NKP类算法普遍存在稳态失调较高的固有缺陷（无法通过调小步长达到与非NKP算法相同的稳态精度）。

3. 核心方法

提出方法：NKP-FoNSPN（基于最近Kronecker积分解的分数阶归一化子带p范数算法），及其衍生变体（包括TNKP-FoNSPN、NKP-NSPN、FoNSPN，以及ANC场景下的Filtered-x版本）。
关键创新点：
1. 分数阶随机梯度下降的引入：用分数阶导数（$\beta$阶）替代传统的一阶导数更新权重，利用分数阶微分的“记忆效应”和非线性映射，成功突破了$0 < \alpha \le 1$时算法不可导的瓶颈，并赋予算法对非高斯输入的天然鲁棒性。
2. NKP与子带滤波的首次结合：将长滤波器分解为两个短子滤波器的Kronecker积，填补了NKP在子带自适应滤波领域的空白，大幅提升了在稀疏/低秩系统中的收敛速度。
3. TNKP（变换NKP）切换策略：设计了一种动态切换机制——收敛初期使用NKP更新以获取极速收敛，当误差低于阈值后切换为非NKP的全带宽更新，从而完美兼顾了NKP的“快”和非NKP的“稳”。
核心思路直觉解释：
分数阶梯度：就像开车时不仅看眼前的路况（一阶梯度），还参考了之前几秒的行驶轨迹（分数阶梯度的记忆性），因此在颠簸路面（脉冲噪声）上不容易失控。
NKP分解：类似于将一个巨大的$100 \times 100$拼图，拆解为$10 \times 10$和$10 \times 10$两个小拼图的组合，搜索空间呈指数级缩小，因此找起来快得多。
TNKP策略：类似于“先跑后走”，前期用NKP快速逼近目标，后期切换为精细模式微调，避免NKP固有的“跑得快但停不准”的问题。

4. 实验与结果

数据集/基准：
系统辨识（SI）与AEC：使用网络回声路径和声学回声路径，输入包含AR高斯过程和柯西噪声，噪声为不同$\alpha$值的$\alpha$稳定分布。
ANC：使用粉红噪声、直升机、枪击、打桩机及牵引变电所真实噪声，并在真实单通道管道ANC平台和多通道仿真系统中验证。
基线方法：NSPN, FoNLMP, FoMVC, NKP-GHSAF, NKP-RLS, FxLMS, FxGMCC, FxAPLEHS等。
主要实验结果：
极端噪声下的鲁棒性：当$\alpha=0.75$或输入为柯西噪声（$\alpha=1$）时，NSPN和NKP-GHSAF等基线算法发散，而NKP-FoNSPN和TNKP-FoNSPN保持稳定收敛。
收敛速度与稳态误差：TNKP-FoNSPN在所有对比中实现了“双料冠军”——既拥有NKP-FoNSPN的快速收敛，又达到了比NKP-FoNSPN低得多的稳态失调（例如在声学回声路径辨识中，TNKP-FoNSPN稳态NMSD比NKP-FoNSPN低约5-10 dB）。
真实ANC系统：在真实管道降噪平台中，面对牵引变电所脉冲噪声，TNKP-FxFoNSPN的降噪量（ANR）显著优于FxLMS、FxGMCC等算法。
消融实验揭示了：
分数阶参数$\beta$的理论边界（$p - \alpha/2 < \beta \le p$）是准确的，超出此范围算法发散。
NKP分解在非低秩（高秩）系统中反而会导致性能下降，说明NKP技术具有场景依赖性。
在AEC场景下，由于全带宽小步长FoNSPN的稳态性能本身不如NKP-FoNSPN，导致TNKP切换策略失效，说明TNKP并非在所有场景下都绝对优于NKP。

5. 优势与局限

主要优势：
1. 全场景鲁棒性：彻底解决了传统算法在$0 < \alpha \le 1$和非高斯输入下失效的痛点，适用范围极广。
2. 鱼与熊掌兼得：TNKP策略巧妙化解了NKP类算法长期存在的“收敛快但稳态差”的固有矛盾。
3. 理论完备：给出了分数阶参数$\beta$的严格理论收敛边界，并提供了详尽的计算复杂度分析。
局限性：
1. NKP的结构依赖性：在非低秩（高秩）系统中，NKP及TNKP算法性能急剧恶化，应用场景受限。
2. TNKP策略的局限性：在AEC等特定场景下，由于非NKP算法本身的稳态表现不佳，TNKP的切换机制反而会拖累性能，缺乏自适应性。
3. 超参数过多：算法引入了分数阶$\beta$、NKP秩$Q$、切换阈值$\rho$及多步长等大量超参数，实际工程调参成本较高。

6. 关键结论与启发

最重要的Takeaway：分数阶梯度下降与子带NKP分解的结合，是应对极端非高斯噪声和低秩系统辨识的有效范式；而TNKP动态切换机制是解决NKP类算法稳态性能瓶颈的关键钥匙。
对后续研究的启发：
1. 自适应TNKP机制：目前的TNKP切换依赖于预设的阈值$\rho$，未来可探索基于误差统计特性的无参或自适应切换机制，以避免在AEC等场景下的失效。
2. 高秩系统的NKP拓展：研究如何让NKP分解在非稀疏/高秩系统中也能保持优势，例如结合压缩感知或分组分解策略。
3. 分数阶理论的深化：本文对分数阶的实数近似处理（忽略虚部）在理论上不够严苛，后续可探索基于复数域的严格分数阶自适应滤波框架。

#11

eess.AS

Contextual Biasing for Streaming ASR via CTC-based Word Spotting

Kai-Chen Tsai, Tien-Hong Lo, Yun-Ting Sun, Berlin Chen

Audio and Speech Processing (eess.AS)

📄 Abstract 📥 PDF

查看摘要

Contextual biasing is essential to improving the recognition of rare and domain-specific words in an automatic speech recognition (ASR) system. While numerous methods have been proposed in recent years, most of them focus on offline settings and do not explicitly address the challenges of streaming ASR. For example, CTC-based word spotting (CTC-WS) have demonstrated strong performance by directly detecting keywords from CTC log-probabilities, but they are limited to offline processing and require access to the full utterance. In This work, we present a streaming extension of CTC-WS for real-time contextual biasing. Our method maintains active keyword paths across audio chunks using a stateful token passing algorithm, enabling the detection of keywords that span multiple chunks. To ensure low latency and stable output, we introduce an incremental commitment mechanism that only emits segments guaranteed not to be affected by future audio, while deferring uncertain regions. This method naturally integrates with streaming ASR pipelines and does not require modifications to the underlying acoustic model or additional training, making it practical for real-world deployment. Experimental results show that our method reduces overall WER and effectively improves keyword F-score, demonstrating its effectiveness for real-time ASR applications.

📖 深度解读

1. 一句话总结

本文提出了一种流式CTC词 spotting（CTC-WS）方法，通过跨块状态保持和增量提交机制，解决了流式语音识别中关键词被音频切块截断而无法识别的问题，且无需修改底层声学模型或重新训练。

2. 研究背景与动机

核心问题：如何在流式语音识别（ASR）中有效地进行上下文偏置，即提高特定领域罕见词（如人名、地名）的识别准确率。
重要性：在实际应用（如实时字幕、语音助手）中，系统必须低延迟地逐块处理音频，同时准确识别对业务至关重要的特定词汇。
现有方法不足：
1. 深度融合：将偏置信息注入模型内部，需要修改模型架构或额外训练，灵活性差。
2. 浅层融合：在解码阶段调整得分，通常依赖束搜索，在流式场景下会引入高延迟；若用贪心解码则因缺乏多假设而难以挽回错过的关键词。
3. 离线CTC-WS：直接从CTC概率中检测关键词，高效且无需重训，但必须获取完整音频，无法应对流式场景下关键词被切块截断的情况。

3. 核心方法

提出方法：Streaming CTC-WS（流式CTC词 spotting框架）。
关键创新点：
1. 跨块状态保持：将离线的token传递算法改造为有状态算法，跨越音频块保留未匹配完的关键词路径。
2. 增量提交机制：划分“已提交区”和“保留区”，仅输出未来不可能再改变的安全识别结果，将不确定区域挂起等待后续音频。
3. 在线关键词替换：在已提交区内，将检测到的关键词与贪心解码结果按帧重叠度进行融合替换。
核心思路直觉解释：
就像读一本被撕成碎片的书，如果某个关键人名刚好被撕成两半（跨块），你不会把前半截扔掉，而是用书签（跨块状态保持）标记下来，等拿到下一片时继续拼；同时，你只把已经确认绝对不会出错的前文先发出去（增量提交），对于刚读完、可能还会和后续内容拼出关键词的段落先压在手里，直到确认安全为止。

4. 实验与结果

数据集：STOP1（包含大量人名）和 STOP2（包含大量地名）。
基线方法：无偏置基线、GPU-PB（一种基于GPU加速短语提升树的浅层融合方法，在流式中采用贪心模式）。
主要实验结果：
在CTC解码下，Streaming CTC-WS将STOP1的WER从18.36%降至12.83%，F-score从66.84%大幅提升至89.61%；在STOP2上WER从12.09%降至10.48%，F-score从88.26%提升至95.06%。
在RNN-T解码下同样观察到一致的性能提升。
相比GPU-PB，本文方法在所有指标上均占优，主要因为GPU-PB受限于贪心解码的唯一假设，而本文方法能直接从CTC概率中找回被贪心路径错过的词。
消融/分析实验揭示：
切块大小影响：切块越小（如160ms），无偏置基线的F-score暴跌，但本文方法依然能保持较高的F-score，证明了跨块状态保持机制对跨块关键词的有效捕捉。
运行时开销：额外引入的计算开销极小，平均仅占切块时长的3%~4%，P95也低于9%，完全满足实时流式推理需求。

5. 优势与局限

主要优势：
1. 即插即用：无需修改底层ASR模型架构，无需重新训练，可直接应用于现有的流式CTC/RNN-T系统。
2. 低延迟高效率：增量提交机制保证了流式输出的稳定性，且额外计算开销可忽略不计。
3. 抗切块截断：跨块状态保持机制有效解决了小切块场景下关键词被切断的痛点。
局限性：
1. 依赖CTC概率：方法强依赖于ASR模型输出的CTC对数概率，对于纯非CTC架构（如纯注意力机制的端到端模型）不适用。
2. 替换策略较硬：在线关键词替换基于50%的帧重叠度硬阈值，可能无法处理极度不规则的对齐或导致误替换（尽管论文声称减少了误报）。
3. 长尾延迟风险：虽然平均开销低，但在P95指标下，词 spotting耗时可达72ms（1120ms切块），在极端情况下可能对极低延迟场景造成压力。

6. 关键结论与启发

最重要的Takeaway：流式ASR中的上下文偏置不必强行修改模型或依赖复杂的束搜索，通过在CTC概率空间中巧妙地管理“状态记忆”和“输出边界”，就能以极低的成本高效找回被截断的罕见词。
对后续研究的启发：
1. 状态管理的泛化：这种“跨块状态保持+增量提交”的范式可以启发其他流式信号处理任务（如流式翻译中的实体词处理）。
2. 与深度融合的结合：未来可探索将此轻量级外部偏置机制与模型内部的浅层/深度融合相结合，进一步提升上限。
3. 动态偏置列表：当前方法在每段话语开始时加载偏置列表，后续可研究如何在中途动态增删偏置词，以适应多轮对话等更复杂的实时场景。

#12

eess.AS

Flexible Multi-Channel Target Speaker Extraction Using Geometry-Conditioned Spatially Selective Non-linear Filters

Jiatong Li, Wiebke Middelberg, Simon Doclo

Audio and Speech Processing (eess.AS)

Comments: Submitted to IWAENC2026

📄 Abstract 📥 PDF

查看摘要

Recently, a spatially selective non-linear filter (SSF) has been proposed for target speaker extraction, using the target direction-of-arrival (DOA) as a spatial cue. Since learned intermediate features are tied to the microphone geometry, the performance of the SSF degrades significantly when evaluated on mismatched array geometries. In this paper, we propose a geometry-conditioned SSF (GC-SSF), which incorporates a geometry-conditioning branch based on FiLM layers. Furthermore, we propose a feature that jointly encodes the DOA and the microphone positions (DOA-MPE). The conditioning branch modulates the intermediate feature maps of the SSF using the DOA-MPE feature to capture the spatial relationship between the microphone positions and the target speaker. Experimental results across circular, uniform linear, and random microphone arrays show that the proposed GC-SSF generalizes better to mismatched geometries while maintaining high spatial selectivity, demonstrating its ability to effectively adapt the filtering process to different array geometries

📖 深度解读

1. 一句话总结

本文提出了一种几何条件化的空间选择性非线性滤波器（GC-SSF），通过将麦克风位置和目标声源方向的联合特征注入网络，解决了传统目标说话人提取模型在麦克风阵列形状不匹配时性能急剧下降的问题。

2. 研究背景与动机

核心问题：基于到达方向（DOA）的空间选择性非线性滤波器（SSF）在跨阵列几何形状（如从圆形阵列换到线性阵列）时的泛化能力极差。
重要性：在现实场景中，麦克风阵列的形态千差万别（如智能音箱、手机、耳机等）。如果一个语音提取模型只能在特定硬件上工作，其应用范围将受到极大限制。
现有方法不足：
1. 固定阵列训练：传统SSF在特定阵列上训练，学到的空间特征与硬件强绑定，换阵列就“失灵”。
2. 随机阵列训练：虽然用随机阵列训练能勉强适应不同形状，但由于网络无法建立“输入DOA”与“阵列相位关系”的明确映射，导致空间选择性极差，整体性能大幅缩水。
3. 其他方法：元学习需要微调，缺乏扩展性；现有的几何无关方法主要针对降噪或盲分离，不适用于基于DOA的目标说话人提取。

3. 核心方法

提出框架：几何条件化空间选择性滤波器（GC-SSF）。在基线SSF的基础上，增加了一个“几何条件化分支”，将阵列的空间信息作为条件注入到语音提取网络中。
关键创新点：
1. DOA-MPE特征的提出：设计了联合编码麦克风位置和目标DOA的特征。它使用正弦/余弦函数将极坐标（麦克风相对阵列中心的距离和角度，以及目标DOA）映射到高维空间，显式表达了麦克风与目标说话人的空间相位关系。
2. 基于FiLM层的条件注入机制：利用特征线性调制层，将上述DOA-MPE特征通过编码器转化为缩放系数和偏置，对SSF中间层的特征图进行仿射变换，从而“告诉”网络当前的几何状态。
3. 灵活的注入点设计：探索了在SSF网络不同深度（F-LSTM后、T-LSTM后等）注入几何信息的策略，发现中等深度注入效果最佳。
直觉解释：就像给一个听力正常的盲人指路，传统方法只告诉他“目标在你前方30度”（DOA），但他不知道自己身处什么形状的建筑里，无法准确定位；GC-SSF不仅告诉他目标方向，还给了他一张“房间和麦克风布局图”（DOA-MPE），并通过FiLM层让他根据这张图调整自己的“听觉策略”，从而无论在什么形状的房间里都能精准锁定目标。

4. 实验与结果

数据集/基准：使用WSJ0语料库和Pyroomacoustics仿真生成数据。评估涵盖三种4麦克风阵列：圆形、均匀线性（ULA）和随机阵列。
基线方法：
1. SSF-Circ：仅在圆形阵列上训练的基线SSF。
2. SSF-Random：仅在随机阵列上训练的基线SSF。
主要实验结果：
匹配场景：SSF-Circ在圆形阵列上表现最好（PESQ 2.95），但这是以牺牲泛化性为代价的。
不匹配场景：SSF-Circ在线性和随机阵列上彻底崩溃（PESQ甚至低于未处理的混合信号1.38）；SSF-Random虽然不崩溃但性能平庸（PESQ约2.0）。
GC-SSF：在所有几何形状上都表现稳健，PESQ比SSF-Random平均提升约0.45，比不匹配时的SSF-Circ最高提升1.25，成功弥合了泛化性与高性能之间的鸿沟。
消融实验揭示：
1. DOA-MPE > MPE：将DOA与麦克风位置联合编码（DOA-MPE）比仅编码麦克风位置（MPE）效果更好，证明了显式建模“阵列-声源”空间关系的必要性。
2. 注入点选择：在网络中段（POI 2，即F-LSTM与T-LSTM之间）注入几何信息效果最好，太晚注入（POI 3）则网络来不及调整特征表示。
3. 空间选择性分析：SSF-Random对DOA误差极不敏感（说明它没学会用DOA）；GC-SSF在DOA误差小于15度时表现出与SSF-Circ相当的高空间选择性，证明它真正学会了利用DOA信息。

5. 优势与局限

主要优势：
1. 强大的跨阵列泛化能力：一次训练即可适配多种未见过的阵列形状，无需重训或微调。
2. 保持高空间选择性：在获得泛化能力的同时，没有像随机阵列基线那样丧失对目标DOA的敏锐度。
3. 即插即用且轻量：通过FiLM层注入条件，不改变主干网络结构，计算开销小。
局限性：
1. 麦克风数量固定：当前架构仅适用于训练时设定的麦克风数量（如文中的4个），无法直接泛化到不同通道数的阵列。
2. 距离信息缺失：DOA-MPE中仅包含了目标DOA，未包含目标声源到阵列的距离（因实际中难以获取），这可能限制了在近场/远场差异较大场景下的表现。

6. 关键结论与启发

最重要的Takeaway：显式地将阵列几何信息与目标空间信息联合编码，并作为条件注入到深度滤波网络中，是打破空间语音分离模型“硬件绑定”魔咒的有效途径。泛化性和空间选择性可以兼得。
后续研究启发/延伸方向：
1. 突破通道数限制：探索使GC-SSF独立于麦克风数量的架构（如引入注意力机制或排列不变训练），使其能部署在自组织声学传感器网络中。
2. 动态几何与鲁棒性：将当前针对静态阵列的几何编码扩展到动态阵列（如移动的麦克风节点），或研究在麦克风位置存在校准误差时的鲁棒性。
3. 引入距离信息：探索在DOA-MPE中融入声源距离的先验信息，以实现更精细的三维空间声源提取。

#13

eess.AScs.SD

Taming Audio VAEs via Target-KL Regularization 跨领域

Prem Seetharaman, Rithesh Kumar

Sound (cs.SD); Machine Learning (cs.LG); Audio and Speech Processing (eess.AS)

Comments: Accepted at ICASSP 2026 (Barcelona, Spain, 3-8 May 2026). 5 pages, 1 figure, 3 tables

📄 Abstract 📥 PDF

查看摘要

Latent diffusion models have emerged as the dominant paradigm for many generation tasks including audio generation such as text-to-audio, text-to-music and text-to-speech. A key component of latent diffusion is an autoencoder (VAE) that compresses high-dimensional signals into a low frame rate continuous representation that is conducive for downstream prediction. Regularizing these VAEs is challenging, as there is a trade-off between over-regularized (poor output quality) and under-regularized (difficult to predict) latent representations. We propose a framework for studying this trade-off through compression and train Audio VAEs at specific bitrates via target-KL regularization. This allows direct comparison to well-studied discrete neural audio codec models, and the construction of rate-distortion curves for audio VAEs. We evaluate the impact of target-KL regularization on text-to-sound generation and find that sweeping compression rates is helpful in identifying the optimal generation setting.

📖 深度解读

1. 一句话总结

本文提出了一种目标KL散度正则化方法，使得连续音频VAE能够像离散音频编解码器一样在特定比特率下训练，从而系统性地寻找重建质量与潜空间可预测性之间的最佳平衡点，提升了下游音频生成任务的效果。

2. 研究背景与动机

核心问题：在潜扩散模型中，如何平衡音频VAE的重建质量与潜空间的正则化程度？
重要性：VAE的潜空间质量直接决定了下游生成模型的表现。过度正则化会导致音频重建质量差（天花板低）；正则化不足则会导致潜空间崎岖、对扰动敏感，使得扩散模型难以学习。
现有不足：目前训练连续VAE时，通常靠手动调节KL散度的权重（$\lambda$），这像是一门“玄学”，缺乏系统性。而离散编解码器（如EnCodec）可以通过码本大小直接控制比特率，有成熟的率失真权衡框架。连续VAE缺乏类似的框架来量化和控制压缩率，导致模型对比和调优极其困难。

3. 核心方法

提出方法：Target-KL Regularization（目标KL正则化）框架，并基于此构建了DAC-VAE模型。
关键创新点：
1. 比特率与KL的转换公式：从信息论角度将VAE的KL散度解释为编码成本（比特率），推导出 $bps = \frac{S}{\log 2} * KL$（$S$为帧率），使得连续VAE和离散编解码器能在同一标准下比较。
2. Target-KL损失函数：不再手动调参$\lambda$，而是设定一个目标比特率并转换为 $KL_{target}$，通过回归损失 $L = (KL - KL_{target})^2$ 强制模型收敛到指定的压缩率。
3. DAC-VAE架构改进：在原DAC架构基础上，引入CQT判别器提升高频重建，并采用Passthrough策略（训练时25%的数据跳过瓶颈直接做纯自编码），在相同比特率下提升了重建质量。
直觉解释：这就好比给压缩软件设定一个“目标文件大小”。以前调VAE就像盲人摸象，调大调小全凭感觉；现在你可以直接说“我要压缩到50kbps”，模型就会自动在保留足够音质的同时，把潜空间整理得尽可能平滑，让后续的生成模型更容易“下口”。

4. 实验与结果

数据集/基准：AudioSet评估集（压缩对比）、Adobe Audition SFX（文本转音效）、SEED-en（文本转语音）。
基线方法：离散模型（EnCodec, DAC-RVQ），连续模型（Stable Audio VAE, SpectroStream）。
主要实验结果：
率失真曲线：DAC-VAE在所有比特率下都取得了最佳的重建质量（处于帕累托前沿），且连续瓶颈在扩展到高比特率时比离散量化（RVQ）更有效。
文本转音效（T2SFX）：比特率并非越高越好。使用Target-KL=200（约11.56 kbps）的VAE取得了最佳效果（文本-音频相似度70.67，KAD 1.70），过低或过高均表现不佳。
文本转语音（TTS）：低比特率（11.56 kbps）的VAE反而取得了更低的词错率（WER 1.61）和更高的说话人相似度。高比特率虽然有时WER也低，但语音听起来不自然、单调。
消融实验：验证了CQT判别器和Passthrough策略能在保持相近比特率（约19.5 kbps）的情况下，有效降低Mel距离（从0.626降至0.604），提升重建质量。

5. 优势与局限

主要优势：
1. 去玄学化：将VAE的调参从手动调$\lambda$转变为设定目标比特率，系统化且可复现。
2. 统一度量衡：首次让连续VAE和离散Codec能在同一张率失真图表中公平对比。
3. 指导生成：通过扫参比特率，能精准定位下游生成任务的最优压缩点（如本文发现的11.56 kbps）。
局限性：
1. TTS任务中的异常现象未完全解释：高比特率VAE在TTS中表现出的“词错率低但语调不自然”的现象，论文仅做了定性描述，缺乏深入的原因分析和解决思路。
2. 模型容量未探索：所有DAC-VAE实验均采用相同参数量，未研究“固定比特率下，增大模型参数能否进一步提升率失真边界”。
3. 理论比特率与实际的偏差：公式计算的比特率是理论下界，实际信息量可能受限于优化难度（论文也提到需要按维度归一化KL来缓解优化困难）。

6. 关键结论与启发

最重要的Takeaway：对潜扩散模型而言，VAE的压缩率存在一个“甜点”——适度压缩（正则化）带来的潜空间平滑度，比一味追求高保真重建对下游生成模型更有利。
后续研究启发：
1. Scaling Law探索：在固定比特率预算下，研究VAE模型参数量与重建质量/生成质量的Scaling关系。
2. 多维度交互研究：探索潜空间帧率、潜空间维度与压缩率之间的相互作用。
3. 与语义对齐结合：将Target-KL与语义对齐技术（如引入文本对比学习损失）结合，研究如何同时优化VAE的声学保真度和语义可控性。

#14

eess.AScs.SD

Analyzing Error Propagation in Korean Spoken QA with ASR-LLM Cascades 跨领域

Donghyuk Jung, Youngwon Choi

Computation and Language (cs.CL); Sound (cs.SD); Audio and Speech Processing (eess.AS)

Comments: Preprint. Submitted to APSIPA ASC 2026

📄 Abstract 📥 PDF

查看摘要

We analyze how automatic speech recognition (ASR) errors propagate through ASR-LLM cascades in Korean spoken question answering (SQA), focusing on downstream semantic failures that conventional ASR metrics cannot fully capture. Our analysis shows that the relative downstream degradation caused by ASR errors is consistent across LLMs with different absolute performance, suggesting that cascade degradation largely tracks ASR-stage information loss. We further identify single-character Korean ASR errors as a distinct semantic-failure channel, where the gold answer becomes entirely absent from the downstream prediction despite only a minimal transcription difference. Finally, an auxiliary comparison shows that a large audio language model outperforms an ASR-LLM pipeline with a matched language backbone in noisy Korean SQA, indicating the potential of direct audio input to mitigate transcript-induced information loss.

📖 深度解读

1. 一句话总结

这篇论文分析了韩语语音问答中ASR（语音识别）错误如何向下游LLM传播，发现下游性能下降幅度主要取决于ASR阶段的信息丢失，且韩语特有的单字符识别错误极易引发语义彻底失效，而直接输入音频的大模型能有效缓解此问题。

2. 研究背景与动机

核心问题：在ASR-LLM级联系统（语音先转文字，再由大模型处理）中，ASR的转录错误会如何导致下游问答任务的失败？
为什么重要：随着语音交互（如语音助手）的普及，级联系统是最常见的部署方式。然而，ASR的错误不仅仅是拼写错误，它可能直接抹除或扭曲任务所需的关键信息，导致传统字词级别的评估指标（如错字率）无法真实反映下游任务的风险。
现有方法不足：目前关于ASR错误对下游影响的研究主要集中在英语上。然而，韩语具有独特的语言特性（许多汉字词对应的韩语仅表现为单音节/单字符），一个微小的单字符识别错误就可能导致词义完全改变。英语中心的结论无法直接泛化到韩语等语言上。

3. 核心方法

提出框架：构建了一个受控的韩语语音问答（SQA）评估流水线。通过TTS合成问题语音，叠加不同强度的噪声（模拟7个SNR等级，制造0.03~0.50的错字率梯度），经ASR转录后送入LLM进行问答。
关键创新点：
1. 跨模型一致性分析：对比不同绝对性能的LLM在ASR噪声下的相对退化率，定位系统瓶颈。
2. 韩语特有失效通道挖掘：专门提取并量化了“单字符ASR错误”对下游语义的毁灭性影响。
3. 级联与直通架构对比：在控制语言基座相同的前提下，对比了传统“ASR+LLM”与直接接收音频的“音频大语言模型（LALM）”的抗噪能力。
核心思路直觉解释：就像玩“传声筒”游戏，前面的人（ASR）听错了一个字，后面的人（LLM）再聪明也无法猜出原意。论文特别指出，在韩语里，这个“听错的字”哪怕只有一个音节，也可能让整句话的意思南辕北辙（比如把“苹果”听成“水”）；而如果让后面的人直接去听原声（LALM），而不是听前面人的转述，就能避免这种信息丢失。

4. 实验与结果

数据集：基于KorQuAD v1.0构建的韩语SQA数据集（1500个样本），使用MUSAN噪声库生成不同信噪比的测试数据。
基线方法：
ASR：Whisper-large-v3
LLM：Qwen2.5-7B/32B, SOLAR-10.7B, EXAONE-32B
LALM：Qwen2.5-Omni-7B（与Qwen2.5-7B同基座，用于控制变量对比）
主要实验结果：
瓶颈在ASR：无论LLM能力强弱，在相同噪声下，其相对性能下降比例几乎一致（如-10dB时，各模型F1恢复率均约为67%）。说明下游退化主要受制于ASR端的信息丢失，换更强的LLM无法弥补。
单字符的毁灭性影响：在1206个单字符ASR错误案例中，有12.5%（151例）导致了“语义失效”（金标准答案完全从预测中消失）。
LALM的降维打击：在匹配LLM基座的情况下，LALM在所有噪声等级下均优于ASR+LLM流水线，在-10dB极端噪声下，F1得分领先幅度高达+0.112。
消融/额外实验（免责提示词）：测试了在Prompt中提醒LLM“这是ASR输出，可能有错，请推断原意”的效果。结果发现这种提示毫无作用甚至有害（对大模型无影响，对小模型反而降低性能），说明LLM并不能仅靠提示词来弥补ASR造成的信息硬伤。

5. 优势与局限

主要优势：
1. 视角独特：跳出了单纯优化ASR错字率的传统思路，从端到端下游任务失效的角度剖析错误传播机制。
2. 语言特异性洞察：敏锐捕捉并量化了韩语“单字符错误引发语义雪崩”这一独特现象，对其他表音/黏着语系有重要参考价值。
3. 控制变量严谨：在对比LALM和级联架构时，使用了相同的大语言模型基座，确保了比较的公平性。
局限性：
1. 数据生态单一：实验完全基于TTS合成的语音，未在真实人类口语（包含停顿、犹豫、口音等）上验证。
2. 任务局限：仅评估了抽取式问答（KorQuAD），未涉及开放性生成、对话等更复杂的语音理解任务。
3. LALM对比不够充分：仅使用了一个LALM（Qwen2.5-Omni-7B）进行对比，结论的普适性还需更多模型验证。

6. 关键结论与启发

最重要的Takeaway：ASR-LLM级联系统的性能天花板由ASR决定，LLM无法修复它没接收到的信息；在韩语中，微小的转录错误可能带来灾难性的语义偏移，而直接处理音频是更优的解决路径。
后续研究启发：
1. 架构演进：研究应更多转向端到端的音频大语言模型，绕过文本转录这一信息漏斗。
2. ASR优化目标：ASR模型的优化不应只追求字词准确率（CER），而应引入“语义保持”或“下游任务感知”的损失函数，特别是针对韩语等易受单字符干扰的语言。
3. Prompt工程的边界：揭示了Prompt修复信息硬伤的无力感，后续可探索基于纠错模型的软性修复，而非简单的免责提示。

#15

eess.AS

Sometin Beta Pass Notin (SBPN): Improving Multilingual ASR for Nigerian Languages via Knowledge Distillation 跨领域

Sewade Ogun

Computation and Language (cs.CL); Audio and Speech Processing (eess.AS)

Comments: 25 pages

📄 Abstract 📥 PDF

查看摘要

Although modern multilingual Automatic Speech Recognition (ASR) systems support several Nigerian languages, their performance consistently lags behind high-resource languages like English and French. Nigerian languages present unique modelling hurdles, including acute data scarcity, inconsistent orthography, tonal diacritics, diverse accents, frequent code-switching, and localized named entities. To address these challenges, we developed a multilingual ASR framework utilizing a two-stage distillation process. First, we employ student-teacher knowledge distillation from existing monolingual models, conditioned on robust language-specific N-gram language models. Second, we perform iterative self improvement using pseudo-labelled data to further refine accuracy. Our method significantly bridges the performance gap, achieving on average a relative Word Error Rate (WER) reduction of 29 % over monolingual baselines. Our models also outperform state-of-the-art multilingual models across major benchmarks, including Common Voice and Fleurs. We introduce Sometin Beta Pass Notin (SBPN), a foundational multilingual ASR model covering Yorùbá, Hausa, Igbo, Nigerian Pidgin, and Nigerian English. SBPN is released in two sizes: SBPN-Base (120 M parameters) and SBPN-Large (600 M parameters). By releasing these as open foundation models, we aim to provide ASR resources for further research into the rich phonetic and cultural landscape of the region.

📖 深度解读

1. 一句话总结

本文针对尼日利亚语言的语音识别难题，通过“单语教师模型蒸馏+伪标签自我迭代优化”的两阶段方法，训练出了首个专用于尼日利亚五大语言的开源多语言ASR基础模型SBPN，将平均词错率相对降低了29%。

2. 研究背景与动机

核心问题：现有多语言ASR系统在尼日利亚语言上的表现远逊于英语等高资源语言，词错率（WER）通常高于30%。
问题重要性：尼日利亚拥有超500种语言，但许多本土语言正因缺乏数字曝光度而面临消亡风险；此外，这些语言使用人口众多（如豪萨语、约鲁巴语等），提升其ASR性能对保护语言多样性和促进数字包容至关重要。
现有方法不足：
1. 数据稀缺且质量差：现有开源数据多为基于模板的朗读语音，缺乏真实的自发对话数据，且存在标音符号（变音符号）缺失或不一致的问题。
2. 语言特性复杂：频繁的语码转换（如说话时夹杂英语数字）、非标准拼写（如尼日利亚洋泾浜英语的拼写极不统一）以及本土化的命名实体，使得现有模型难以对齐语音与文本。
3. 多语言大模型水土不服：现有的SOTA多语言模型（如Whisper、MMS）由于缺乏针对性的低资源数据训练，在这些语言上表现极差（如Whisper Large在部分语言上WER超过100%）。

3. 核心方法

提出框架：Sometin Beta Pass Notin (SBPN)，一个基于两阶段知识蒸馏的多语言ASR框架。模型架构采用Fast Conformer编码器和RNN-T解码器，并附加CTC辅助头。
关键创新点：
1. 结合N-gram LM的单语到多语蒸馏：利用现有的强单语模型作为“教师”，结合针对5种尼日利亚语言专门构建的5-gram语言模型进行浅层融合，生成高质量的硬伪标签，蒸馏给统一的“学生”多语言模型。
2. 迭代式自我改进：学生模型训练后，再用自身结合N-gram LM生成新一轮的伪标签，通过置信度过滤剔除低质和语种错乱的数据，不断自我迭代精调。
3. 针对洋泾浜英语的文本规范化：针对拼写极不统一的尼日利亚洋泾浜英语，创新性地利用英语ASR与洋泾浜ASR的预测结果进行词聚类，找出同音异形词，并结合N-gram LM概率进行上下文消歧与统一替换（如将"they", "de"统一为"dey"）。
核心思路直觉解释：就像培养一个全科学霸，先让他跟着各个单科的顶尖老师（单语模型）学习，老师们还带着各自的参考答案（N-gram LM）来保证教得准；学霸学成后，自己再去阅读大量未批改的卷子（无标签音频），自己给自己批改（生成伪标签），只保留自己确信做对的题来复习，越练越强。同时，对于拼写混乱的科目（洋泾浜英语），学霸还发明了一种方法，把发音一样的错别字都归成一类，统一成最常见的那种写法，避免自己看晕。

4. 实验与结果

数据集/基准：Fleurs, Common Voice 以及自建的尼日利亚洋泾浜测试集。训练数据包含约4700小时标注数据和10000小时处理后的无标签数据。
对比基线：各语言的单语Teacher模型、AfriHuBERT、mHuBERT-147、Whisper Large、MMS-1B、SeamlessM4T v2。
主要实验结果：
1. 碾压单语模型：SBPN-Large相比单语Teacher基线，平均WER相对降低29%；即使对比带了LM的单语模型，也相对降低16%。
2. 超越SOTA多语言大模型：SBPN-Base (120M) 在Common Voice上比AfriHuBERT平均WER相对降低60%；SBPN-Large (600M) 在Fleurs上比千亿参数级的MMS-1B平均WER相对降低21%。
3. 语种识别能力：SBPN在口语语种识别（SLID）任务上的F1分数几乎达到100%，远超专门的音频/文本语种识别模型。
消融实验揭示：
1. 两阶段贡献：第一阶段（知识蒸馏）贡献了绝大部分性能提升（平均WER相对降26%），第二阶段（自我改进）提升较小（再降3%），但主要改善了变音符号预测、语码转换和长语音的鲁棒性。
2. 变音符号仍是难点：约鲁巴语和伊博语的WER有很大一部分是由变音符号预测错误贡献的（如约鲁巴语加上变音符号后WER激增110%），尽管SBPN已将此差距缩小了76%，但仍是未来亟待解决的瓶颈。

5. 优势与局限

主要优势：
1. 针对低资源语言极其有效：证明了“单语蒸馏+伪标签自迭代”的范式在低资源、多语言场景下能大幅超越直接用大模型微调的方法。
2. 工程与实用价值高：模型尺寸控制得当（120M/600M），可在CPU上推理，降低了非洲本地研究者的算力门槛；且对快速语速的鲁棒性远超单语模型。
3. 巧妙的文本规范化策略：利用跨模型聚类+N-gram消歧解决洋泾浜英语同音异形词的方法，对其他非标准拼写语言具有借鉴意义。
局限性：
1. 变音符号预测能力仍不足：模型在预测约鲁巴语等声调语言的变音符号时错误率依然偏高。
2. 语码转换处理欠佳：伊博语提升最小，作者分析是因为伊博语数据中大量夹杂英语和洋泾浜英语，模型对此类复杂语码转换处理吃力。
3. 语言覆盖面有限：尼日利亚有超500种语言，本文仅覆盖了5种，扩展到更多极低资源语言时可能面临无单语Teacher模型可蒸馏的窘境。

6. 关键结论与启发

最重要的Takeaway：在低资源多语言ASR中，“几个平庸的单语老师教出一个优秀的多语学生”是可行的，且通过外部LM提升伪标签质量、再进行迭代式自我精炼，是突破数据瓶颈的关键组合拳。
对后续研究的启发/延伸方向：
1. 变音符号专门化：未来需要开发专门针对声调/变音符号的建模方法，或者探索更好的LLM提示工程来进行生成式错误纠正（GEC），以弥补当前ASR模型在音调细节上的缺陷。
2. 无教师蒸馏：如何将此框架扩展到连单语Teacher模型都没有的极低资源语言（如其他495种尼日利亚语言），可能需要探索纯自监督学习与多语言迁移的结合。
3. 跨域泛化：SBPN模型在相近的西非洋泾浜英语（如加纳、喀麦隆变体）上表现如何，是否只需少量微调即可泛化，这是一个非常有应用价值的研究方向。

#16

eess.AS

Perceptual implications of automatic anonymization in pathological speech 跨领域

Soroosh Tayebi Arasteh, Saba Afza, Tri-Thien Nguyen, Lukas Buess, Maryam Parvin 等 (14 人)

Audio and Speech Processing (eess.AS); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

📄 Abstract 📥 PDF

查看摘要

Automatic anonymization is increasingly used to enable ethical sharing of clinical speech, yet its perceptual and clinical consequences remain undercharacterized. We present a human-centered evaluation of automatically anonymized pathological speech, using a structured protocol with ten native and non-native German listeners spanning clinical and signal-processing expertise. The cohort comprised 180 German speakers from CLP, Dysarthria, Dysglossia, Dysphonia, and adult and child controls. Each original recording and its automatically-anonymized counterpart was evaluated on four tasks: zero-shot Turing-style discrimination, few-shot discrimination after brief familiarization, 5-point quality rating, and 4-point blinded clinical severity rating by a senior phoniatrician. Listeners detected anonymization at 91% zero-shot and 93% few-shot accuracy, with significant variation across disorders (p=0.008) that attenuated with familiarization. Perceived quality dropped by 30 ppts on a 0-100 scale (p<0.001), reorganizing the perceived-quality hierarchy across groups. Native language modulated detectability but not quality degradation, while domain expertise modulated quality degradation but not detectability, a double dissociation between the two listener attributes; speaker sex and age produced no detectable bias. Clinical severity ratings were preserved at near-perfect agreement in Dysarthria, Dysglossia, and Dysphonia (quadratic-weighted Cohen's kappa 0.87-0.94), with no recording shifting by more than one grade. Crucially, perceptual outcomes were decoupled from the standard computational privacy metric: the pathology with the strongest computational anonymization was the least perceptually conspicuous, and vice versa. These findings argue for disorder-stratified, listener-stratified, clinician-validated evaluation as the minimum standard for licensing anonymized speech for clinical use.

📖 深度解读

1. 一句话总结

这篇论文通过人类听感实验评估了病理语音自动匿名化处理的感知影响，发现尽管匿名化会被听者轻易察觉且显著降低语音质量，但临床严重程度评级得以保留，且感知结果与传统的计算隐私指标完全脱节。

2. 研究背景与动机

核心问题：在临床语音数据共享中，如何平衡患者隐私保护（去除身份信息）与临床诊断效用（保留病理特征）？
重要性：语音既是重要的诊断生物标志物，也是高度敏感的生物识别信息。自动语音匿名化是实现临床数据合规共享的关键前提。
现有不足：目前的语音匿名化研究几乎完全依赖计算指标（如等错误率EER评估隐私，词错率/AUROC评估效用），而忽略了人类听感。特别是对于病理语音，匿名化所修改的声学维度（如共振峰）往往与疾病诊断线索高度重合，但现有研究不清楚：1) 人类能否听出语音被匿名化处理过？2) 匿名化是否让语音听起来极不自然？3) 医生听完匿名化语音还能否做出准确诊断？

3. 核心方法

提出框架：一个以人为中心的病理语音匿名化评估框架，包含四项感知任务，并与计算指标进行对比。
匿名化算法：采用McAdams系数法（通过旋转线性预测极点角度来偏移共振峰，改变声道特性以隐藏身份，但保留声源激励和语言内容）。
关键创新点：
1. 首次系统量化病理语音匿名化的感知代价：从“能否察觉”、“质量下降多少”、“临床诊断是否受影响”三个维度全面评估。
2. 揭示感知与计算指标的脱节：证明计算上隐私保护最强的，感知上反而最不显眼，打破了“EER越高匿名化越彻底且越影响听感”的直觉。
3. 发现听者属性的“双分离”现象：母语背景影响“能否察觉”，专业背景影响“质量下降多少”，两者互不干扰。
核心思路直觉解释：就像给照片打马赛克保护隐私，研究想看看医生能否透过马赛克依然准确判断病情。实验把原始和“打码”后的语音放给不同背景的人听，不仅看机器觉得“码打得有多严”，更看人耳觉得“码有多明显、多难看”，以及医生是否还能看对病。

4. 实验与结果

数据集：来自PEAKS临床语音语料库的180名德语说话人（包含CLP、构音障碍、构音缺陷、发声障碍4个病种，及成人和儿童对照组，每组30人）。
听者面板：10名听者（5名德语母语/5名非母语；4名领域专家/6名非专家）。
基线方法：与先前的计算指标（EER、AUROC）进行对比。
主要实验结果：
高察觉率：听者在零样本（首次听）和少样本（短暂熟悉后）任务中，识别出匿名化语音的准确率高达91%和93%。
质量暴跌：在0-100的质量评分中，匿名化导致质量平均下降30个百分点（97%的说话人质量评分下降）。
临床严重度保留：资深医师的盲评显示，80%的语音严重度评级未变，其余最多只差1个等级。构音障碍、构音缺陷和发声障碍的评分一致性极高（κ值0.87-0.94）。仅有极少数（2/120）病理语音被误判为健康。
感知与计算脱节：计算隐私保护最强（EER最高）的发声障碍，其感知察觉率最低、质量下降最小；而计算隐私保护最弱的唇腭裂，感知代价却很高。
消融实验/细分分析揭示：
病种差异：构音障碍最易被察觉匿名化，发声障碍最难（因为McAdams改的是共振峰，而发声障碍主要是喉部声源问题，两者频谱区域互不干扰）。
听者属性：母语者更容易察觉匿名化，但专家认为质量下降没那么严重（双分离）。
人口统计学：说话人的性别和年龄对匿名化的感知结果没有显著偏见。

5. 优势与局限

主要优势：
1. 填补空白：首次将病理语音匿名化的评估从纯计算层面拓展至至关重要的临床感知层面。
2. 反直觉发现：有力证明了EER等机器指标不能代表人类听感，对现有领域的评估范式提出挑战。
3. 公平性验证：证实了该匿名化方法在不同性别和年龄上没有产生偏见，这对临床应用至关重要。
局限性：
1. 听者与评医规模小：仅有10名听者，且临床严重度评级仅依赖1名资深医师，缺乏多评估者间的一致性验证。
2. 算法与语种单一：仅测试了McAdams这一种信号处理匿名化方法，且数据全为德语，结论能否泛化到深度学习匿名化模型或其他语言尚存疑。
3. 细粒度声学分析缺失：对于需要精确声学参数（如频谱、基频微调）的治疗效果评估，匿名化后的语音显然不再适用，本文虽提及但未深入量化这种损失。

6. 关键结论与启发

最重要的Takeaway：计算上的隐私成功不等于感知上的可接受。仅靠机器指标（EER/AUROC）来批准病理语音匿名化系统的临床使用是不充分且危险的，必须引入基于人类感知和临床医生的盲评验证。
对后续研究的启发/延伸方向：
1. 评估范式标准化：未来的语音匿名化挑战赛（如VoicePrivacy）应将人类听感测试和临床可用性评估纳入强制基准。
2. 病种定制化匿名化：由于不同病理语音的声学基底不同，未来的匿名化算法应针对不同疾病（如声源类疾病vs.声道类疾病）设计定制化的隐私保护策略，以最小化感知代价。
3. 跨算法与跨语言验证：急需将本研究的四任务评估协议应用于基于深度学习的语音转换匿名化方法，并在多语种病理语料上验证“感知-计算脱节”现象的普遍性。

#17

eess.AScs.SD

SeamlessEdit: Background Noise Aware Zero-Shot Speech Editing with in-Context Enhancement 跨领域

Kuan-Yu Chen, Jeng-Lin Li, De-Yan Lu, Jian-Jiun Ding

Audio and Speech Processing (eess.AS); Sound (cs.SD)

Comments: 5 pages, 3 figures accepted to eusipco 2026

📄 Abstract 📥 PDF

查看摘要

With the fast development of zero-shot text-to-speech technologies, it is possible to generate high-quality speech signals that are indistinguishable from the real ones. Speech editing, including speech insertion and replacement, appeals to researchers due to its potential applications. However, existing studies only considered clean speech scenarios. In real-world applications, the existence of environmental noise could significantly degrade the quality of generation. In this study, we propose a noise-resilient speech editing framework, SeamlessEdit, for noisy speech editing. SeamlessEdit adopts a frequency-band-aware noise suppression module and an in-content refinement strategy. It can well address the scenario where the frequency bands of voice and background noise are not separated. The proposed SeamlessEdit framework outperforms state-of-the-art approaches in multiple quantitative and qualitative evaluations.

📖 深度解读

1. 一句话总结

本文提出了SeamlessEdit框架，通过频段感知降噪和上下文内精炼策略，解决了真实场景下带背景噪声的语音编辑难题，使编辑后的语音既能保持清晰自然，又能与原背景音无缝融合。

2. 研究背景与动机

核心问题：如何在存在背景噪声的真实环境（如咖啡馆、街头）下，高质量地进行语音插入和替换编辑。
重要性：语音编辑在播客制作、新闻修正、采访修复等实际应用中需求巨大。现实中的语音大多带有噪声，如果只能处理干净语音，技术落地将大打折扣。
现有方法不足：当前主流语音编辑方法（如FluentSpeech, VoiceCraft）大多假设输入是纯净语音。在噪声环境下，由于语音与噪声在频谱上相互重叠（尤其是高频部分），模型难以提取真实语音特征，导致编辑后的语音质量严重下降、产生明显伪影或与原环境音脱节。

3. 核心方法

提出框架：SeamlessEdit，一个针对噪声环境的鲁棒语音编辑框架。
关键创新点：
1. 频段感知降噪模块：结合稀疏贝叶斯学习（SBL）和巴特沃斯滤波器，精准剥离与语音频谱交织的残留噪声。
2. 上下文内精炼策略：利用降噪后的低频语音作为“提示”，通过多头注意力机制增强分离出的语音特征，修复过度滤波导致的高频丢失。
3. “先分离、后编辑、再加噪”的流程设计：将人声与背景音分离处理，编辑完人声后再将背景音叠加回去，保证环境音的连贯性。
核心思路直觉解释：
想象你要在嘈杂咖啡馆的录音中替换一句话。SeamlessEdit的做法是：先用扩散模型把人声和咖啡店背景音“粗略”撕开；因为两者频谱有重叠，粗略分离的人声仍带杂音，于是用SBL滤波器像“精细镊子”一样剔除残留噪声；但精细剔除又容易把人声的高频细节也剪掉，导致声音发闷；此时，把经过滤波的较干净声音当作“参考答案”（上下文提示），告诉编辑模型“这是这个人说话的底色”，从而让模型在生成时补全丢失的高频音色；最后，把一开始分离出的咖啡店背景音重新铺回去，完成无缝拼接。

4. 实验与结果

数据集：EARS-WHAM（包含886条高质量语音与594种真实噪声，涵盖198种信噪比等级）。
基线方法：FluentSpeech, VoiceCraft（当前SOTA），以及干净条件下的VoiceCraft作为上限参考。
主要实验结果：
在噪声条件下，SeamlessEdit全面超越现有SOTA。相比噪声下的VoiceCraft，SeamlessEdit在插入、短替换、长替换任务上的NMOS（自然度）分别提升了29.01%、22.76%和24.57%，SMOS（相似度）平均提升约24.28%。
人工评测证实，SeamlessEdit生成的音频几乎与真实录音难以区分。
在边界平滑度（PES）上，SeamlessEdit达到0.72，远优于VoiceCraft的1.23，证明其编辑接缝处几乎听不出人工痕迹。
消融实验揭示：
去掉上下文内精炼（ICL）后，NMOS下降，PES上升，证明ICL机制在抑制噪声影响和提升边界自然度上起到关键作用。
频谱分析表明，女性声音因高频成分丰富，更易受噪声干扰和过度滤波影响，而ICL机制能有效恢复这些高频音色特征。

5. 优势与局限

主要优势：
1. 填补现实应用空白：打破了语音编辑仅限干净语音的局限，真正走向“in-the-wild”真实场景。
2. 保真与降噪的精妙平衡：通过SBL滤波+ICL精炼的组合拳，既去除了噪声，又避免了过度滤波导致的声音发闷。
3. 环境音无缝保留：分离并回加背景噪声的策略，确保了编辑区域前后的环境氛围一致。
局限性：
1. 高频重叠分离仍存挑战：论文自身也承认，当女性高频人声与噪声严重交织时，分离和滤波后仍会残留部分频率成分，难以彻底剥离。
2. 流程较为复杂：整体框架串联了扩散分离、SBL滤波、Codec编辑、ICL精炼等多个模块，计算开销和推理延迟可能较大，论文未对实时性进行讨论。

6. 关键结论与启发

最重要的Takeaway：在噪声环境下进行语音编辑，强行让模型在嘈杂信号中直接生成是行不通的；将“人声增强/降噪”与“上下文提示”结合，引导生成模型关注纯净语音特征，才是实现无缝编辑的关键。
后续研究启发：
1. 高频频谱冲突的攻坚：未来研究可以探索更精细的解耦表示（如基于子带或更细粒度的神经编解码器），以解决女性高频音与噪声的频谱重叠难题。
2. 端到端一体化：当前方案是模块化串联，未来能否将降噪、分离与编辑统一在一个生成模型中端到端训练，以减少信息损失和计算冗余。
3. 动态/交互式噪声处理：可探索在编辑时不仅能保留原背景音，还能根据编辑后语音内容的改变，自适应调整背景音（如说话人声音变大时，背景音自动压低）。

#18

eess.AScs.SD

Robust One-step Speech Enhancement via Consistency Distillation 跨领域

Liang Xu, Longfei Felix Yan, W. Bastiaan Kleijn

Audio and Speech Processing (eess.AS); Sound (cs.SD)

Comments: Accepted to IEEE WASPAA 2025. 6 pages, 1 figures

📄 Abstract 📥 PDF

查看摘要

Diffusion models have shown strong performance in speech enhancement, but their real-time applicability has been limited by multi-step iterative sampling. Consistency distillation has recently emerged as a promising alternative by distilling a one-step consistency model from a multi-step diffusion-based teacher model. However, distilled consistency models are inherently biased towards the sampling trajectory of the teacher model, making them less robust to noise and prone to inheriting inaccuracies from the teacher model. To address this limitation, we propose ROSE-CD: Robust One-step Speech Enhancement via Consistency Distillation, a novel approach for distilling a one-step consistency model. Specifically, we introduce a randomized learning trajectory to improve the model's robustness to noise. Furthermore, we jointly optimize the one-step model with two time-domain auxiliary losses, enabling it to recover from teacher-induced errors and surpass the teacher model in overall performance. This is the first pure one-step consistency distillation model for diffusion-based speech enhancement, achieving 54 times faster inference speed and superior performance compared to its 30-step teacher model. Experiments on the VoiceBank-DEMAND dataset demonstrate that the proposed model achieves state-of-the-art performance in terms of speech quality. Moreover, its generalization ability is validated on both an out-of-domain dataset and real-world noisy recordings.

📖 深度解读

1. 一句话总结

本文提出了ROSE-CD框架，通过引入随机轨迹学习和时域辅助损失，从多步扩散模型中蒸馏出单步语音增强模型，在实现54倍推理加速的同时，不仅克服了教师模型的误差偏差，还超越了教师模型的增强性能。

2. 研究背景与动机

核心问题：基于扩散模型的语音增强（SE）方法虽然效果优异，但依赖多步迭代采样（如30-200步），导致计算开销大、延迟高，难以满足实时部署的需求。
重要性：语音增强是语音通信的基础前处理环节，实时性在真实场景（如在线会议、助听设备）中至关重要。
现有方法不足：
1. 现有加速方法（如CRP、StoRM、Thunder）要么单步性能下降严重，要么仍需结合预测模型导致两步推理，未能实现真正的纯单步高效生成。
2. 一致性蒸馏（CD）虽能实现单步生成，但传统CD严格对齐教师模型的ODE轨迹，导致学生模型过度拟合教师的偏差和错误，鲁棒性差。

3. 核心方法

提出框架：ROSE-CD（Robust One-step Speech Enhancement via Consistency Distillation），基于预训练的30步SGMSE+扩散模型进行一致性蒸馏。
关键创新点：
1. 鲁棒一致性蒸馏（RCD）：在蒸馏过程中，对教师模型估计的ODE轨迹注入随机噪声。直觉上，这打破了学生对教师轨迹的“死板模仿”，迫使学生模型在带有扰动的轨迹上学习，从而提升对噪声的鲁棒性，避免继承教师的系统性误差。
2. 时域辅助损失联合优化：在蒸馏损失之外，引入PESQ（感知质量）和SI-SDR（信号保真度）两个时域损失函数。直觉上，这相当于给学生模型开了“双重视角”——不仅看教师怎么走，还直接看干净语音长什么样，从而纠正教师引入的错误。
核心思路：将教师模型仅作为参考路径，通过“轨迹加噪”和“真值监督”双管齐下，让单步学生模型既能学到高效的映射，又能跳出教师的能力天花板。

4. 实验与结果

数据集：
主实验（域内）：VoiceBank-DEMAND (VB-DMD)
泛化实验（域外）：TIMIT+NOISE92
真实场景：DNS Challenge 2020 真实录音
基线方法：预测模型（MetricGAN+, Conv-TasNet等）、纯生成模型（SGMSE+, CDiffuSE, CRP等）、混合模型（StoRM, Thunder等）。
主要结果：
效率：RTF（实时率）为0.048，比30步教师模型（2.60）快54倍，比混合模型Thunder快2倍。
域内性能：在VB-DMD上，ROSE-CD的PESQ达到3.49（若仅加PESQ损失可达3.99，但SI-SDR会崩塌），综合指标（SI-SDR 17.80）全面超越30步教师模型（PESQ 2.90, SI-SDR 16.90）。
泛化性能：在域外和真实噪声数据集上，ROSE-CD的PESQ和WV-MOS均优于教师模型，证明了极强的鲁棒性。
消融实验揭示：
RCD机制对不同的ODE求解器（Euler/Heun）均有显著提升，甚至让较差的Euler求解器超越了无RCD的Heun求解器。
PESQ损失极大提升感知质量但破坏时间对齐（SI-SDR暴跌），SI-SDR损失保证波形保真度但对PESQ提升有限，两者联合优化是达到最佳综合性能的必要条件。

5. 优势与局限

主要优势：
1. 极致的效率-性能权衡：首次在纯生成式语音增强中实现单步推理，且性能反超多步教师模型。
2. 打破蒸馏天花板：通过RCD和辅助损失，成功克服了传统蒸馏中学生无法超越教师的固有缺陷。
3. 出色的泛化能力：对未见噪声和真实复杂噪声表现出强鲁棒性。
局限性：
1. 指标互斥现象：论文实际展示了PESQ与SI-SDR之间存在严重的互斥（单用PESQ损失时SI-SDR降至0.40 dB），说明模型在优化感知质量与波形保真度时仍存在冲突，联合优化只是妥协，未从根本上解决。
2. 依赖预训练教师：框架仍需先训练一个耗时的多步扩散模型作为教师，无法实现完全从零开始的端到端单步训练。

6. 关键结论与启发

最重要的Takeaway：在一致性蒸馏中，学生模型不需要也不应该对教师模型的轨迹“言听计从”。通过引入随机性（RCD）和直接的真实目标监督（辅助损失），单步模型完全可以“青出于蓝而胜于蓝”。
后续研究启发：
1. 损失函数设计：PESQ与SI-SDR的互斥提示后续研究需要设计更内在统一的损失函数，或采用更高级的多目标优化策略，以同时兼顾听觉感知和信号级保真度。
2. 一致性训练（CT）的潜力：既然蒸馏过程中辅助损失能大幅提升性能并摆脱对教师轨迹的依赖，未来可探索直接通过一致性训练（CT）从零训练单步模型，彻底省去预训练教师模型的成本。
3. 轨迹加噪的泛化：RCD这种“给教师轨迹加噪防过拟合”的思路，不仅适用于语音增强，也可推广到图像生成等其他扩散模型加速蒸馏任务中。

#19

eess.AScs.SD

Speak Your Mind: The Speech Continuation Task as a Probe of Voice-Based Model Bias 跨领域

Shree Harsha Bokkahalli Satish, Harm Lameris, Olivier Perrotin, Gustav Eje Henter, Éva Székely

Audio and Speech Processing (eess.AS); Computation and Language (cs.CL); Sound (cs.SD)

Comments: 8 pages, 2 figures, Accepted to Identity-Aware AI LREC Workshop 2026

📄 Abstract 📥 PDF

查看摘要

Speech Continuation (SC) is the task of generating a coherent extension of a spoken prompt while preserving both semantic context and speaker identity. Because SC is constrained to a single audio stream, it offers a more direct setting for probing biases in speech foundation models than dialogue does. In this work we present the first systematic evaluation of bias in SC, investigating how gender and phonation type (breathy, creaky, end-creak) affect continuation behaviour. We evaluate three recent models: SpiritLM (base and expressive), VAE-GSLM, and SpeechGPT across speaker similarity, voice quality preservation, and text-based bias metrics. Results show that while both speaker similarity and coherence remain a challenge, textual evaluations reveal significant model and gender interactions: once coherence is sufficiently high (for VAE-GSLM), gender effects emerge on text-metrics such as agency and sentence polarity. In addition, continuations revert toward modal phonation more strongly for female prompts than for male ones, revealing a systematic voice-quality bias. These findings highlight SC as a controlled probe of socially relevant representational biases in speech foundation models, and suggest that it will become an increasingly informative diagnostic as continuation quality improves.

📖 深度解读

1. 一句话总结

本文首次将“语音续写”任务作为探针，系统评估了语音基础模型中的性别和发声质量偏见，发现模型不仅会过度将女性声音“规范化”为常规发声，还在文本内容上对女性提示音表现出更低的主观能动性和更消极的情感倾向。

2. 研究背景与动机

核心问题：语音基础模型在根据说话人的声音进行内容续写时，是否会因为说话人的性别或声音特质（如气声、气泡音）而产生社会性偏见？
重要性：随着语音生成模型的普及，模型输出的偏见会强化社会刻板印象。例如，如果模型听到女性声音就倾向于生成缺乏主导性或更消极的内容，这在实际应用中会造成严重的公平性问题。
现有方法不足：以往对语音模型偏见的评估多在对话或多选题（MCQA）场景下进行，这些场景受交互对象和提示词框架影响太大，难以剥离出纯粹由“声音”引发的偏见。此外，现有研究忽略了“发声质量”（如气声、气泡音）这一在社会认知中具有强烈性别关联的维度。

3. 核心方法

提出框架：提出基于“语音续写”的偏见评估框架。给定一段语音提示，让模型续写，然后从声学特征和文本内容两个维度评估续写结果是否因提示音的性别/发声质量不同而存在差异。
关键创新点：
1. 引入语音续写作为偏见探针：相比对话场景，续写是单向的，排除了对话者角色的干扰，能更纯粹地回答“拥有这种声音的人，在模型看来会说什么”。
2. 系统引入发声质量变量：除了性别，首次在语音生成模型评估中引入气声、气泡音和句末气泡音三种变体，探究交叉偏见。
3. 多维度偏见量化：结合声学参数（发声质量保留度）和基于LLM评判的文本偏见指标（主观能动性、情感极性等）进行综合评估。
核心思路直觉解释：就像给AI听一段开头语，让它顺着往下说。如果听到的是男性的声音，AI可能续写出“我决定去解决这个问题”；而如果换成女性的声音（哪怕文本一样），AI可能续写出“我感到很无助”。同时，如果给AI听带气泡音的女性声音，AI在模仿时可能会自动把这种“不常规”的声音修饰掉，就像美颜滤镜自动把皮肤磨平一样，这本身就反映了模型对“女性应该怎么说话”的刻板偏见。

4. 实验与结果

数据集：使用 Spoken StereoSet (SSset，含刻板印象语境) 和自建的 Neutral Open-ended Prompts (NOPset，中性开放语境)，并通过语音转换技术为每条语音生成4种发声质量变体，共4784条测试输入。
基线模型：SpiritLM (Base和Expressive), VAE-GSLM, SpeechGPT。
主要实验结果：
声学偏见（发声质量）：模型在续写时存在强烈的“规范化”倾向，会削弱气声和气泡音，且对女性声音的规范化程度显著强于男性，实际上逆转了输入中自然的性别发声差异。
文本偏见（内容生成）：仅在续写连贯性最高的 VAE-GSLM 模型中观察到了显著的性别偏见——女性提示音生成的文本在“主观能动性与能力”和“句子情感极性”上得分显著更低。
模型能力差异：SpeechGPT和SpiritLM Base甚至无法保持输入说话人的身份（直接变成固定的女声/男声），VAE-GSLM是唯一能较好保留说话人身份的模型。
消融实验/变量分析：发声质量（VQ）的操纵在当前模型中并未显著影响文本偏见指标。作者认为这并非因为VQ不引发偏见，而是因为当前模型能力有限，根本没能在续写中有效保留这些VQ特征。

5. 优势与局限

主要优势：
1. 评估范式更纯粹：利用语音续写的独白属性，成功剥离了对话场景中的混杂因素，直接测量“声音身份”对模型生成的影响。
2. 揭示隐蔽的声学偏见：不仅发现了文本内容上的性别偏见，还首次量化了模型在声学层面“抹平女性声音特质”的规范化偏见。
局限性：
1. 受限于模型能力：当前语音模型的续写质量普遍较差（如SpeechGPT连贯性极低，多数模型无法保留说话人音色），导致偏见难以被充分观测，VQ对文本的影响也被掩盖。
2. 评估链路的误差累积：文本评估依赖ASR转写和LLM-as-a-judge，这两者自身可能存在识别偏差或评分偏差；且使用的语音提示均为TTS合成，缺乏真实人类语音的自然变异性。

6. 关键结论与启发

最重要的Takeaway：语音基础模型不仅会在语义内容上对女性产生偏见（如认为女性更被动、更消极），还会在声学特征上对女性施加更强烈的“声音规训”（过度抑制非典型发声）。并且，偏见只有在模型具备足够的生成连贯性时才会浮出水面。
对后续研究的启发：
1. 作为未来模型的标配测试：随着语音模型能力的提升，语音续写任务应成为评估其社会偏见的核心基准，而非边缘测试。
2. 提升VQ保留能力以探究交叉偏见：未来需要开发能更好保留发声质量的模型，以验证气声/气泡音等副语言特征是否会像在人类社会中一样，触发模型的交叉性偏见（如对带气泡音女性的能力贬低）。
3. 去偏见目标的双重性：未来的去偏见研究不仅需要修正模型生成的文本内容，还需要纠正模型在声学特征上对特定群体的“规范化”倾向。

#20

eess.AS

REVERB-FL: Server-Side Adversarial and Reserve-Enhanced Federated Learning for Robust Audio Classification 跨领域

Sathwika Peechara, Rajeev Sahay

Audio and Speech Processing (eess.AS)

Comments: 13 pages, 4 figures, Published in IEEE Transactions on Audio, Speech and Language Processing

📄 Abstract 📥 PDF

查看摘要

Federated learning (FL) enables a privacy-preserving training paradigm for audio classification but is highly sensitive to client heterogeneity and poisoning attacks, where adversarially compromised clients can bias the global model and hinder the performance of audio classifiers. To mitigate the effects of model poisoning for audio signal classification, we present REVERB-FL, a lightweight, server-side defense that couples a small reserve set (approximately 5%) with pre- and post-aggregation retraining and adversarial training. After each local training round, the server refines the global model on the reserve set with either clean or additional adversarially perturbed data, thereby counteracting non-IID drift and mitigating potential model poisoning without adding substantial client-side cost or altering the aggregation process. We theoretically demonstrate the feasibility of our framework, showing faster convergence and a reduced steady-state error relative to baseline federated averaging. We validate our framework on two open-source audio classification datasets with varying IID and Dirichlet non-IID partitions and demonstrate that REVERB-FL mitigates global model poisoning under multiple designs of local data poisoning.

📖 深度解读

1. 一句话总结

本文提出了REVERB-FL框架，通过在服务器端利用少量（约5%）可信预留数据对聚合后的全局模型进行干净数据和对抗数据的重训练，有效解决了联邦音频分类中由数据异构和恶意投毒导致的模型性能下降问题。

2. 研究背景与动机

核心问题：在联邦学习（FL）环境下进行音频分类时，全局模型极易受到恶意客户端的模型投毒攻击以及非独立同分布数据带来的漂移影响。
重要性：音频数据（如语音指令、环境音）包含大量敏感生物特征和上下文信息，天然适合用FL进行隐私保护训练；但音频频谱图的高维特性使其对微小的、人耳不可察的对抗扰动极其敏感，一旦被投毒（如导致语音助手误判），会引发严重的安全问题。
现有方法不足：
1. 基于过滤的鲁棒聚合方法（如Krum, Trimmed Mean）：在数据高度异构时，很难区分“诚实的异构更新”和“恶意更新”，容易误伤有用数据，这在音频领域尤为致命（音频数据收集成本高）。
2. 客户端对抗训练：增加了边缘设备的计算负担，且在non-IID数据下容易导致训练不稳定。
3. 现有音频FL防御：大多只针对推理时的后门触发攻击，缺乏针对训练时基于梯度的投毒攻击的系统性防御。

3. 核心方法

提出框架：REVERB-FL（Reserve-Enhanced Verification and Robustness in Federated Learning），一种轻量级的服务器端防御框架。
关键创新点：
1. 服务器端预留集重训练：在训练前从各客户端分层采样约5%的数据作为服务器端的可信预留集，每轮聚合后用其进行额外SGD更新，纠正投毒和异构带来的偏差。
2. 预留集对抗增强：在服务器重训练时，不仅用干净数据，还对预留集施加对抗扰动（FGSM/PGD/AWGN）生成对抗样本一并训练，提升模型对未知投毒的免疫力。
3. 即插即用与轻量级：不修改客户端本地训练流程，不改变FedAvg聚合规则，完全在服务器端操作，兼容现有FL系统。
核心思路直觉解释：
想象联邦学习是一个“多人传话”游戏，恶意参与者会故意传错话（投毒），而方言差异导致正常人的话也听着别扭。现有方法试图在人群中“揪出”说错话的人，但容易冤枉方言口音重的人。REVERB-FL的做法是：不揪人，而是在每次大家把话汇总后，找一个懂标准语的“裁判”（5%预留集）来重新润色和纠正（重训练）；同时，裁判还会故意模拟各种可能的错话方式（对抗增强），让最终的结果对错话产生“抗体”。

4. 实验与结果

数据集：AudioMNIST, UrbanSound8K（采用STFT频谱特征）。
基线方法：标准FedAvg, USD-FL（基于逻辑分布检测）, Deep SVDD（异常检测）, UDFed（多策略联合防御）。
主要实验结果：
1. IID设定：在AudioMNIST上，面对PGD/FGSM投毒，基线方法准确率大幅下降（如FedAvg降至85%左右），而REVERB-FL各变体均保持在96%以上；在更难的UrbanSound8K上，REVERB-FL比基线高出5-15%。
2. Non-IID设定：数据异构性放大了投毒危害，基线方法出现严重震荡和退化，而REVERB-FL依然稳定收敛在96%-98%（AudioMNIST）和59%-68%（UrbanSound8K）。
3. 混合攻击设定：当恶意客户端每轮随机选择不同投毒方式时，REVERB-FL（尤其是All Adversarial变体）依然保持强鲁棒性，证明其不依赖对攻击类型的先验知识。
消融实验揭示：
1. 单纯的干净预留集重训练已经能提供显著的防御效果和收敛稳定性。
2. 加入与攻击类型匹配的对抗增强能获得最佳效果，但混合对抗增强在未知攻击下泛化性最好。
3. 10折交叉验证的统计检验表明，REVERB-FL的提升极其显著（p<0.0001），且置信区间与所有基线无重叠。

5. 优势与局限

主要优势：
1. 零客户端负担：所有防御计算均在服务器端完成，不增加边缘设备的计算和通信开销。
2. 异构与投毒双重免疫：预留集重训练机制同时缓解了non-IID数据漂移和恶意投毒，且不会丢弃客户端更新。
3. 理论保障：在强凸假设下证明了比标准FedAvg更快的收缩率和更小的稳态误差。
局限性：
1. 预留集的隐私与清洁度假设：框架假设5%的预留集是绝对干净可信的，且需要客户端在训练前上传一次原始数据，这在严格的隐私场景下可能存在争议；若预留集被污染，性能会下降。
2. 封闭集假设：当前框架假设全局标签空间固定且共享，无法处理客户端注入未知类别样本的开集投毒攻击。
3. 未考虑自适应攻击：实验未评估恶意客户端知晓服务器存在预留集防御机制时，可能采取的针对性自适应攻击。

6. 关键结论与启发

最重要的Takeaway：在联邦音频分类中，与其费力在客户端侧检测或过滤恶意/异构更新，不如在服务器侧用极少量的可信数据对聚合模型进行“纠偏”和“对抗免疫”，这能以极低的代价换取极高的鲁棒性。
对后续研究的启发：
1. 动态预留集机制：未来可探索根据每轮攻击强度动态调整预留集大小或重训练步数，平衡计算开销与防御效果。
2. 跨域泛化：该框架本质上操作的是模型参数和频谱特征，可直接迁移至射频信号、生物医学信号等其他敏感信号域的联邦学习中。
3. 隐私增强的预留集：如何利用差分隐私或可信执行环境（TEE）来保护5%预留集的隐私，是将其推向实际应用的关键突破口。

#21

eess.AS

RADAR Challenge 2026: Robust Audio Deepfake Recognition under Media Transformations 跨领域

Hieu-Thi Luong, Xuechen Liu, Ivan Kukanov, Zheng Xin Chai, Kong Aik Lee

Audio and Speech Processing (eess.AS)

Comments: Submitted to APSIPA 2026

📄 Abstract 📥 PDF

查看摘要

RADAR Challenge 2026 is an APSIPA Grand Challenge on Robust Audio Deepfake Recognition under Media Transformations, designed to simulate realistic media conditions in real-world audio distribution pipelines, including compression, resampling, noise, and reverberation. It consists of two phases: an English development phase with labeled data for analysis and paper writing, and a multilingual evaluation phase containing more than 100,000 utterances in English, Singapore English, Mandarin Chinese, Taiwanese Mandarin, Japanese, and Vietnamese. Systems are evaluated using equal error rate (EER) for binary real/fake classification. This paper describes the challenge task, the construction of the data set, the evaluation protocol, and the overall results. During the challenge, 33 teams submitted to the development phase and 22 teams submitted to the final evaluation phase. The reported results highlight the remaining challenges of robust audio deepfake detection under multilingual and media-transformed conditions.

📖 深度解读

1. 一句话总结

本文介绍了RADAR 2026挑战赛，通过构建包含多语言和多种真实媒体降质（如压缩、加噪、重采样等）的音频数据集，推动并评估了音频深度伪造检测系统在真实复杂环境下的鲁棒性。

2. 研究背景与动机

核心问题：音频深度伪造检测系统在真实媒体传输环境下的鲁棒性不足。
重要性：随着语音合成和声音转换技术的飞速发展，伪造音频极易被用于身份冒充、虚假信息传播和欺诈。然而，现有的检测系统如果在实际应用中不堪一击，将无法提供真正的安全防护。
现有方法不足：现有的基准测试（如ASVspoof系列）大多在相对干净或轻微处理的音频上进行评估。但在实际场景中，音频在传输、分享过程中往往会经历压缩、加噪、重采样、混响等“媒体降质”处理。这些处理不仅会抹除伪造音频的瑕疵特征，还会引入干扰性伪影，导致现有模型在实验室表现优异，在真实场景中性能骤降。此外，跨语言泛化能力和面对未知伪造算法的鲁棒性也是现有方法的软肋。

3. 核心方法

提出框架：本文并非提出单一算法模型，而是提出了一套挑战赛框架与基准测试，包含任务定义、数据集构建、媒体降质流水线和评估协议。
关键创新点：
1. 真实媒体降质流水线：设计了一套概率性的音频降质链，模拟真实世界的音频处理流程。音频会按概率依次经过静音裁剪、加混响、加背景音/音效、带宽限制、响度归一化、低码率编解码器压缩（Opus/MP3/AAC）、甚至模拟流媒体丢包和语速扰动。这比以往简单的加噪测试更逼近真实场景。
2. 多语言盲测评估：开发集仅包含英语，而测试集包含超过10万条跨越6种语言/方言（英语、新加坡英语、中文、台湾地区普通话、日语、越南语）的语音，强制考验系统的跨语言泛化能力。
3. 高度多样化的伪造源：测试集涵盖了10种不同的TTS系统（包括商业API如ElevenLabs、OpenAI，和开源模型如CosyVoice、GPT-SoVITS等），防止模型仅靠捕捉单一生成器的特定伪影来作弊。
核心思路直觉解释：就像测试一个防伪钞识别器，不能只在崭新无折痕的假钞上测，还要把它扔进洗衣机洗一洗、揉皱、沾上污渍（媒体降质），并且测试不同国家、不同造假团伙（多语言、多生成器）造出的假钞，看识别器还能不能认出来。

4. 实验与结果

数据集/基准：
开发集：基于LlamaPartialSpoof数据集构建，包含约4.4万条英语语音。
评估集：全新构建，包含约10.27万条语音（5万真实，5.27万伪造），覆盖6种亚太地区主要语言。
基线方法：SSL-AASIST（基于wav2vec 2.0前端和AASIST后端的开源模型，318M参数）。
主要实验结果：
基线模型在干净的开发集上EER就高达37.71%，在多语言降质的评估集上更是达到42.6%，几乎等同于瞎猜，证明了真实降质条件对现有模型的毁灭性打击。
参赛队伍表现：冠军队伍在开发集上达到1.27% EER，但在评估集上退化至5.67% EER；而队伍C在评估集上取得了最佳的5.10% EER。这表明虽然通过强数据增强和模型融合可以大幅提升鲁棒性，但性能下降依然显著。
消融实验/现象揭示：
开发集与评估集的排名错位：Phase 1（英语开发集）的第一名在Phase 2（多语言评估集）仅排第二，而Phase 1的第十名在Phase 2跃升至第三名。这强烈暗示：在单一语言/降质条件下调参过拟合的模型，往往不如采用了更泛化策略（如多语言数据、强鲁棒增强）的模型。

5. 优势与局限

主要优势：
1. 极高的场景还原度：降质流水线设计非常全面，涵盖了从物理环境（混响）到数字传输（编码、丢包）的各类干扰。
2. 填补多语言评测空白：特别关注了亚太地区语言及方言变体，对实际部署极具参考价值。
3. 开放训练政策：允许参赛者使用任何公开数据，鼓励了数据构建、增强策略和模型架构的多元化竞争。
局限性（论文如实说明）：
1. 模拟与真实的鸿沟：降质流水线仍是实验室模拟的，真实社交平台或通讯软件的私有处理链路可能更复杂，模拟无法100%覆盖。
2. 标签污染问题：在极端降质下，真实语音可能被引入类似伪造的伪影，但挑战赛仍强制保留其原始“真实”标签，这可能引入标注噪声。
3. 分析深度不足：目前仅展示了宏观的排行榜EER，由于参赛队伍的系统细节尚未完全公开，无法深入拆解究竟是哪种语言、哪种降质或哪个伪造系统导致了主要的性能损失。

6. 关键结论与启发

最重要的Takeaway：音频深度伪造检测在“干净实验室条件”下的表现具有极大的欺骗性；当面临多语言和真实媒体传输降质时，现有模型的性能会大幅崩塌。鲁棒性不能作为后补，必须在模型设计和训练阶段就被前置考虑。
对后续研究的启发：
1. 降质感知训练：未来的检测模型必须将复杂的媒体降质作为核心考量，开发更强大的数据增强策略或特征解耦方法，使模型能区分“伪造伪影”和“传输降质伪影”。
2. 跨语言与跨域泛化：研究重点应从单一语言转向多语言、零样本泛化，寻找不同语言下伪造语音的共性特征。
3. 分数校准：由于不同语言下的得分分布不同，如何进行全局的分数校准以确定统一的判定阈值，是实际部署中亟待解决的问题。

#22

eess.AScs.SD

AASIST3: KAN-Enhanced AASIST Speech Deepfake Detection using SSL Features and Additional Regularization for the ASVspoof 2024 Challenge 跨领域

Kirill Borodin, Vasiliy Kudryavtsev, Dmitrii Korzh, Alexey Efimenko, Grach Mkrtchian 等 (7 人)

Sound (cs.SD); Artificial Intelligence (cs.AI); Audio and Speech Processing (eess.AS)

Comments: 8 pages, 2 figures, 2 tables. Accepted paper at the ASVspoof 2024 (the 25th Interspeech Conference)

📄 Abstract 📥 PDF

查看摘要

Automatic Speaker Verification (ASV) systems, which identify speakers based on their voice characteristics, have numerous applications, such as user authentication in financial transactions, exclusive access control in smart devices, and forensic fraud detection. However, the advancement of deep learning algorithms has enabled the generation of synthetic audio through Text-to-Speech (TTS) and Voice Conversion (VC) systems, exposing ASV systems to potential vulnerabilities. To counteract this, we propose a novel architecture named AASIST3. By enhancing the existing AASIST framework with Kolmogorov-Arnold networks, additional layers, encoders, and pre-emphasis techniques, AASIST3 achieves a more than twofold improvement in performance. It demonstrates minDCF results of 0.5357 in the closed condition and 0.1414 in the open condition, significantly enhancing the detection of synthetic voices and improving ASV security. \textbf{The new version of the model is publicly available at \href{ this https URL }{\underline{HuggingFace (2026)}}}

📖 深度解读

1. 一句话总结

本文提出了AASIST3模型，通过引入柯尔莫哥洛夫-阿诺德网络（KAN）替换传统激活函数、结合预加重技术和自监督学习特征，显著提升了语音深度伪造的检测性能。

2. 研究背景与动机

核心问题：随着TTS（文本转语音）和VC（语音转换）技术的成熟与开源，自动说话人确认（ASV）系统极易被高质量的合成语音（Deepfake）攻击，如何有效检测这些伪造语音成为亟待解决的问题。
重要性：ASV系统广泛应用于金融交易认证、智能设备解锁和司法取证等安全敏感场景，一旦被攻破将造成严重的安全隐患。
现有方法不足：现有的AASIST等反欺骗模型在特征提取和模型表达能力上仍有提升空间。传统的多层感知机（MLP）使用固定的激活函数（如ReLU），限制了模型拟合复杂声学特征的能力；同时，面对未见过的伪造算法（Open Condition），现有模型的泛化能力往往不足。

3. 核心方法

提出框架：AASIST3。该模型在原有AASIST（音频反欺骗集成频谱-时间图注意力网络）的基础上进行了深度改造。
关键创新点：
1. KAN增强的图注意力机制：将模型中图注意力层（GAT、GraphPool、HS-GAL）的传统激活函数替换为KAN（基于可学习B样条和PReLU的复合函数），使模型能自适应地学习更复杂的非线性特征，而非受限于固定的激活形式。
2. 模型宽度的扩展：通过增加并行的HS-GAL分支（从2分支扩展到4分支）来扩展模型宽度，实验证明横向扩展比纵向加深更有效。
3. 高频预加重：在音频输入前端引入预加重技术（$x_l = x_l - 0.97 \cdot x_{l-1}$），抑制低频并增强高频，帮助模型捕捉伪造语音在高频段易暴露的瑕疵。
4. 双前端与融合策略：Closed条件使用SincConv，Open条件引入强大的自监督学习模型Wav2Vec2 XLS-R作为特征提取器，并对两个不同训练策略的模型进行分数融合。
核心思路直觉解释：如果把传统激活函数比作“标准件扳手”，那么KAN就像是“万能柔性扳手”，它可以根据数据的形状（B样条）自行调整弯曲度，从而更精准地拧紧复杂的“螺丝”（提取真假语音的细微差异）。同时，预加重就像是给音频戴上了“高频放大镜”，让隐藏在高频里的伪造痕迹无处遁形。

4. 实验与结果

数据集/基准：基于ASVspoof 2024挑战赛的数据集和评估标准。
基线方法：原始AASIST模型，以及论文中大量测试的变体（不同编码器、损失函数、优化器等）。
主要实验结果：
Closed Condition（仅限提供数据）：minDCF为0.5357，EER为22.67%。
Open Condition（允许使用外部数据）：minDCF为0.1414，EER为4.89%。
相比原始AASIST（dev集minDCF 0.5671），AASIST3在开发集上达到了0.2657，性能提升超过两倍。
消融实验揭示：
KAN的优越性：对比了Bessel、Chebyshev、Jacobi等多种多项式，4阶B样条效果最好；对比AReLU、SELU等，PReLU结合B样条最鲁棒。
编码器选择：尝试了Res2Net、RawNet3、WaveNet等，发现经典的RawNet2编码器依然是最佳搭档。
“少即是多”的意外发现：大量主流的改进手段（如SAM/ASAM锐度感知最小化、Focal Loss、复杂的Res2Net编码器、多种数据增强组合）在本框架下均未带来提升甚至有害，简单的Adam优化器+普通交叉熵损失+预加重反而效果最好。

5. 优势与局限

主要优势：
1. 创新性结合：首次将KAN的强大函数拟合能力与图注意力网络结合，成功应用于语音防伪领域。
2. 显著的性能提升：在核心指标minDCF上实现了翻倍以上的提升，尤其在Open条件下表现出极强的泛化性。
3. 工程实践价值高：通过详尽的消融实验，排除了许多“理论上应该有效但实际无效”的干扰项，为后续研究避坑。
局限性：
1. Closed条件表现仍需提升：Closed条件下的EER高达22.67%，说明在数据受限情况下，模型对某些未知攻击的防御力依然较弱。
2. 缺乏理论解释：论文展示了KAN有效，但未能深入解释“为什么B样条能捕捉语音伪造特征”，以及为何许多主流正则化和增强方法会失效，更多停留在实验现象的罗列。
3. 计算开销未知：KAN和4分支结构必然带来参数量和推理延迟的增加，但论文未对计算复杂度进行讨论。

6. 关键结论与启发

最重要的Takeaway：在语音深度伪造检测中，用可学习的连续函数（KAN/B-splines）替代固定激活函数，并配合高频增强，是提升模型特征表达能力的有效途径；此外，模型宽度的扩展比深度的堆叠更具性价比。
对后续研究的启发：
1. 重新审视“通用技巧”：本研究表明，在语音防伪领域，许多通用的深度学习Trick（如SAM、复杂Loss）可能并不适用，未来的研究应更关注声学信号本身的特性（如高频瑕疵）。
2. KAN在音频领域的潜力：KAN不仅限于视觉或NLP，在音频图神经网络中替换MLP节点同样具有巨大潜力，后续可探索KAN在端到端原始波形建模中的应用。
3. Closed与Open的鸿沟：Closed和Open条件下性能差异巨大，如何利用少量数据提升Closed条件下的泛化能力（如更高效的Few-shot防伪学习）是未来的关键方向。

#23

eess.AScs.SD

Speech-Hands: A Self-Reflection Voice Agentic Approach to Speech Recognition and Audio Reasoning with Omni Perception 跨领域

Zhen Wan, Chao-Han Huck Yang, Jinchuan Tian, Hanrong Ye, Ankita Pasad 等 (18 人)

Sound (cs.SD); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Multiagent Systems (cs.MA); Audio and Speech Processing (eess.AS)

Comments: Accepted to ACL 2026. Oral Presentation. Code: this https URL OpenClaw Branch: this https URL

📄 Abstract 📥 PDF

查看摘要

We introduce a voice-agentic framework that learns one critical omni-understanding skill: knowing when to trust itself versus when to consult external audio perception. Our work is motivated by a crucial yet counterintuitive finding: naively fine-tuning an omni-model on both speech recognition and external sound understanding tasks often degrades performance, as the model can be easily misled by noisy hypotheses. To address this, our framework, Speech-Hands, recasts the problem as an explicit self-reflection decision. This learnable reflection primitive proves effective in preventing the model from being derailed by flawed external candidates. We show that this agentic action mechanism generalizes naturally from speech recognition to complex, multiple-choice audio reasoning. Across the OpenASR leaderboard, Speech-Hands consistently outperforms strong baselines by 12.1% WER on seven benchmarks. The model also achieves 77.37% accuracy and high F1 on audio QA decisions, showing robust generalization and reliability across diverse audio question answering datasets. By unifying perception and decision-making, our work offers a practical path toward more reliable and resilient audio intelligence.

📖 深度解读

1. 一句话总结

本文提出了Speech-Hands框架，通过让全能语音模型学会“自我反思”（即判断何时该相信自己、何时该听从外部模型、何时该重新推理），解决了多模态融合中模型容易被错误外部建议误导的问题，显著提升了语音识别和音频推理的准确性。

2. 研究背景与动机

核心问题：如何让全能音频模型在同时拥有“自身听觉感知”和“外部模型建议”时，做出可靠的决策，而不是盲目融合导致性能下降？
重要性：人类在感知受限时会主动寻求并参考他人意见，而当前的AI模型往往要么盲目自大（只信自己），要么人云亦云（被外部错误信息带偏）。赋予模型“知之为知之，不知为不知”的自我反思与仲裁能力，是构建可靠音频智能的关键。
现有方法不足：
1. 朴素多模态微调（SFT）失效：直接将音频和外部文本假设一起喂给模型微调，反而会导致性能严重下降（WER从7.17%升至8.44%以上）。
2. 缺乏仲裁机制：现有的生成式错误纠正（GER）方法通常是纯文本的级联，模型根本听不到原声，只能盲目修改文本；而零样本提示的模型在面对冲突时，决策高度依赖提示词，容易崩溃为简单的启发式猜测。

3. 核心方法

提出框架：Speech-Hands，一种可学习的自我反思语音智能体框架。
关键创新点：
1. 将感知决策转化为显式动作预测：引入三个特殊Token（<internal>, <external>, <rewrite>），让模型在生成最终答案前，先显式决定“认知策略”。
2. 基于比较的自动标签构建：通过对比自身预测、外部预测和重写预测的准确率（ASR用WER，QA用对错），自动为训练集生成动作监督标签，无需人工标注。
3. 从感知后反思到感知前仲裁：不同于以往在输出后进行自我修正，本方法在生成初期就进行“感知仲裁”，防患于未然。
核心思路直觉解释：就像一个学生在考试时遇到拿不准的题，他可以先自己做（<internal>），也可以偷看学霸的答案（<external>），或者综合自己的思路和学霸的答案重新推导（<rewrite>）。Speech-Hands就是训练这个学生“判断何时该相信自己，何时该抄学霸，何时该重新算”的能力，而不是把学霸的答案直接硬塞进他的脑子里。

4. 实验与结果

数据集/基准：
ASR：OpenASR排行榜的7个数据集（AMI, Tedlium, GigaSpeech等）。
Audio QA：MD-Audio基准（包含生物声学、声景、复杂QA三个子集）。
基线方法：Whisper-v2-large, Canary-1B, Parakeet-TDT, Qwen2.5-Omni, Phi-4-MM, Gemini-2-Flash, GPT-4o-voice, 以及传统的级联GER方法。
主要实验结果：
ASR：Speech-Hands结合Parakeet模型，在7个基准上取得了5.69%的平均WER，比最强的基线模型（6.14%）相对降低了约7.5%，比朴素多模态GER（8.33%）大幅降低了12.1%的WER。
Audio QA：结合多数采样策略，Speech-Hands达到了77.37%的平均准确率，在复杂QA上达到85.70%，全面超越AudioFlamingo 3等强基线。
消融实验与深入分析：
动作Token预测准确率分析显示，模型对<internal>和<external>的F1分数极高（大多在0.8-0.9以上），证明其学会了可靠的仲裁；但<rewrite>因训练样本极度稀疏，召回率低，不过精确率很高（一旦决定重写，往往是对的）。
案例分析表明，模型能有效避免“外部误导”和“过度纠正”（例如内部预测虽不流畅但正确时，模型选择保留<internal>而不盲目重写）。

5. 优势与局限

主要优势：
1. 打破多模态融合魔咒：成功解决了引入外部信息反而导致性能下降的问题，实现了1+1>2的效果。
2. 统一且可解释：将语音识别和音频推理统一为动作决策框架，决策过程透明可查（可通过Token分析模型行为）。
3. 数据效率高：在ASR任务中，仅使用最多2万条数据微调，就超越了使用全量数据的传统基线。
局限性：
1. Token分布极度不平衡：<rewrite>标签在训练集中占比极少（常低于2%），导致模型难以充分学习何时该重新推理，召回率受限。
2. ASR训练数据受限：受限于计算资源，ASR实验未使用全量数据训练，可能未完全释放模型潜力。
3. 缺乏泛化性与多源扩展验证：未测试训练用A模型作外部参考、测试时换B模型的情况，且目前仅支持单一外部模型输入，未探索多外部模型博弈。

6. 关键结论与启发

最重要的Takeaway：给多模态模型塞更多信息不一定更好，“学会拒绝和仲裁”比“盲目融合”更重要。显式的自我反思动作机制是解决多源信息冲突的有效途径。
对后续研究的启发：
1. 重写机制的增强：未来可通过数据增强、平衡采样或强化学习（如GRPO）来专门攻克<rewrite>触发率低的问题。
2. 主动感知：论文附录中的小实验表明，将动作空间扩展至“调用DSP工具去噪”同样有效，这启发我们可以将“决定如何听（清理音频）”也纳入智能体的动作空间。
3. 多智能体仲裁：从单外部模型扩展到多外部模型，让模型在多个“顾问”之间进行更复杂的置信度评估与选择，是迈向更通用音频智能的潜在方向。

#24

cs.SD

WASIL: In-the-Wild Arabic Spoken Interactions with LLMs

Zien Sheikh Ali, Hamdy Mubarak, Soon-Gyo Jung, Hunzalah Hassan Bhatti, Firoj Alam 等 (6 人)

Sound (cs.SD); Artificial Intelligence (cs.AI); Computation and Language (cs.CL)

Comments: Spoken Prompts, Multilingual LLMs, Speech-based Evaluation, Dialectal Speech, Low-resource Languages, Conversational AI, Speech-to-Text QA, Real-world Interaction, Spoken Language Understanding

📄 Abstract 📥 PDF

查看摘要

Large Language Models (LLMs) voice assistants are commonly built as cascaded Automatic Speech recognition (ASR) to LLM systems, where recognition errors can distort user intent. Dislikes may also arise from ambiguous, out-of-domain, or non-request turns, making it hard to isolate ASR effects. We release WASIL (it denotes connection or linking in Arabic): in-the-wild Arabic spoken interaction prompts with audio, ASR hypotheses, assistant responses, and explicit like/dislike feedback (8,529 turns; 14.2% dislikes), plus a 2,000-turn test set covering Modern Standard Arabic (MSA) and four major dialects with their labels. We provide low-cost gold transcripts via multi-ASR agreement-guided post-editing and annotate answerability (answerable, ambiguous/needs-clarification, unsupported, not-a-request/noise) to separate intrinsic unanswerability from ASR-induced degradation. Finally, we describe scalable reference-free evaluation of responses from ASR vs. gold transcripts using multi-judge LLM scoring.

📖 深度解读

1. 一句话总结

本文发布了首个真实场景下的阿拉伯语语音交互大模型数据集WASIL，通过引入“可回答性”标注和多ASR一致性方法，成功剥离了语音识别错误与用户意图不清对交互失败的混淆影响，并系统评估了级联与端到端语音大模型在方言干扰下的表现。

2. 研究背景与动机

核心问题：在“语音识别(ASR) → 大语言模型(LLM)”的级联语音助手系统中，当用户表达不满时，很难判断这是因为ASR识别错误扭曲了意图，还是用户本身的提问模糊/不可回答，亦或是LLM自身能力不足。
重要性：如果不能剥离这些混淆因素，开发者就无法准确定位系统瓶颈，也难以对语音助手进行针对性的优化。
现有不足：
1. 现有评估多基于受控环境或英语，缺乏真实场景下包含用户显式反馈的语音交互数据，尤其是方言现象复杂的阿拉伯语数据。
2. 现有基准（如VoiceBench）多为任务驱动，缺乏自然交互中的用户偏好信号和细粒度的错误归因标签。
3. 制作高质量语音转录基准成本极高，尤其是阿拉伯语存在大量方言和拼写变体。

3. 核心方法

提出的方法/框架：WASIL数据集构建与评估框架。包含数据收集、低成本金标转录生成、细粒度标注及基于LLM-as-a-judge的无参考评估。
关键创新点：
1. 引入“内在可回答性”标注：将用户输入分为“可回答/清晰”、“模糊/需澄清”、“超出领域/不支持”、“非请求/噪声”四类，从源头剥离因用户表达不清导致的失败。
2. 多ASR一致性驱动的低成本转录：利用多个ASR系统输出的语义相似度作为可靠性代理，高一致性的直接采纳，低一致性的才交由人工后编辑，大幅降低成本。
3. 细粒度的负面反馈归因：对用户点踩的回复进行多维度标注（如事实错误、文化不符、格式不佳等），并映射为5大元维度（有用性、正确性、安全性、沟通质量、文化对齐）。
核心思路直觉解释：就像诊断一个听不清话还经常答非所问的客服，首先得搞清楚是“客户自己没说清楚”（可回答性标注），还是“客服听错了耳朵不好使”（ASR一致性检验），最后才是“客服脑子转不过来”（LLM评估）。多ASR一致性就像是找几个听力不同的人一起听，如果大家都听出一样的结果，那大概率是对的，就不用专家再校对了。

4. 实验与结果

数据集/基准：WASIL数据集（约9.3K轮真实阿拉伯语语音交互，涵盖MSA及4大方言，含点赞/点踩反馈及2K轮金标测试集）。
基线方法：
开源模型：ALLaM-7B, Fanar-2 (基于文本)；Qwen2.5-Omni-3B (端到端音频)。
闭源模型：GPT-5 (文本), GPT-4o Audio (音频), Gemini-2.5 Pro (文本+音频)。
主要实验结果：
1. 闭源模型碾压开源：Gemini-2.5 Pro在金标转录上达到92.44% APR（平均通过率），而最好的开源模型Fanar-2仅47.55%。
2. 端到端音频处理的鸿沟：Gemini-2.5 Pro直接处理音频表现优异（82.01% APR），但GPT-4o Audio（50.56%）和Qwen（3.30%）表现惨淡，说明端到端技术仍极不成熟。
3. ASR对下游的影响不仅是字面错误：从金标降级到ASR转录，模型在“深度”和“具体性”上掉点最严重，而非简单的连贯性受损。
消融实验与深度分析：
1. 方言差异：阿尔及利亚方言在直接音频输入下受损最严重（APR仅62.41%），而埃及方言相对稳健，说明方言距离对语音大模型影响极大。
2. ASR错误与用户反感的关联：被用户“点赞”的输入中，72%具有高ASR一致性；而“点踩”的输入中，这一比例降至52%，证实了识别困难与用户不满强相关。

5. 优势与局限

主要优势：
1. 填补空白：首个针对阿拉伯语真实语音交互场景并包含显式用户反馈的大规模数据集。
2. 问题解耦：通过可回答性标注和多ASR一致性，巧妙解开了“听错”与“答错”的死结。
3. 实用性强：提出的低成本转录策略可直接应用于其他低资源/多方言语言的基准构建。
局限性：
1. 人群覆盖偏差：数据收集仅来自四个阿拉伯国家，可能未充分代表其他方言和使用场景。
2. 反馈信号的局限：点赞/点踩是粗粒度信号，可能过度放大了显眼的错误，且缺乏用户给出反馈的具体理由。
3. 评估依赖LLM裁判：无参考评估受限于裁判模型（Gemini 3 Pro）的能力和提示词理解，可能存在偏差。

6. 关键结论与启发

最重要的Takeaway：在语音级联大模型中，ASR错误对系统的伤害远不止于“词不达意”，它主要削弱了模型回答的深度和具体性；同时，用户的不满往往是由ASR识别困难和用户自身表达模糊共同催生的，必须通过细粒度标注解耦评估。
对后续研究的启发：
1. 动态澄清机制：可以利用多ASR一致性作为运行时的置信度指标，当一致性低时，系统应主动追问或确认，而不是硬着头皮乱答。
2. 方言鲁棒性优化：端到端语音大模型在处理小众方言（如阿尔及利亚方言）时存在严重退化，未来需要在音频预训练阶段加强方言数据的注入。
3. 文化对齐评估：在阿拉伯语境下，安全性与文化/宗教对齐高度耦合，后续对齐工作应将“文化适宜性”作为独立于通用安全的重要维度进行优化。

#25

cs.SD

vega-mir: An information-theoretic Python toolkit for symbolic music, with applications to harmonic graphs and rubato spectra

Fred Jalbert-Desforges

Sound (cs.SD); Data Analysis, Statistics and Probability (physics.data-an)

Comments: 20 pages, 2 figures, companion to arXiv:2605.06685

📄 Abstract 📥 PDF

查看摘要

We present vega-mir, an open-source Python library that bundles nine information-theoretic and statistical metrics for the analysis of symbolic music corpora behind a small, tested, citable API, and demonstrates two of them at corpus scale in case studies not addressed by the upstream Cygnus paper. Of the nine metrics, three (Shannon entropy, Kullback-Leibler divergence, Zipfian fits) were deployed in the companion Cygnus arXiv preprint; two (network analysis on chord-transition graphs and spectral analysis of rubato curves) are deployed in full case studies here; the four remaining (multi-dimensional Gini, chi-squared stationarity, Higuchi fractal dimension, interval distribution) are validated against analytic anchors and exercised as sanity checks on a bundled 8-composer dataset. The two case studies yield two main observations. First, on the fourteen MAESTRO composers with N >= 10 pieces, the PageRank value of the gravity-centre node correlates with the marginal Kullback-Leibler distance at rho = 0.61 (Spearman, composer-level jackknife N = 14); the categorical gravity-centre identity takes five distinct values across the corpus but is not itself correlated with marginal KL (rho = 0.13, p = 0.21). Second, on the 247-piece Bach multi-master corpus (Schiff, Gould, Richter), Gould holds the highest periodicity ratio of the three performers, not the lowest, inverting the cliché that low scalar rubato reads as "metronomic": Gould's rubato is small in amplitude but structured in time, with a median dominant period of 66 beats against Schiff's 102 and Richter's 104.

📖 深度解读

1. 一句话总结

本文发布了vega-mir——一个将9种信息论与统计指标统一起来的Python开源工具包，用于符号音乐分析，并通过两个案例研究证明：和弦转换网络的PageRank值能反映作曲家的和声边际差异，而频谱分析能揭示古尔德的弹性速度虽幅度小但极具周期性结构，颠覆了其“节拍器式”演奏的刻板印象。

2. 研究背景与动机

核心问题：如何降低符号音乐中进行信息论与统计分析的门槛，并挖掘传统标量统计（如均值、方差）所掩盖的音乐深层结构特征？
重要性：信息论指标（如香农熵、KL散度、齐普夫定律等）已成为量化分析音乐风格和结构的标准工具，能够为计算音乐学和音乐信息检索提供客观的数学视角。
现有不足：
1. 工具碎片化：现有研究每次都需要研究者手动拼接scipy、networkx等底层代码，缺乏统一的API、共享的测试套件和参考基准，导致结果难以跨研究复现和对比。
2. 分析扁平化：现有的上游Cygnus等方法主要依赖“边际分布”或“标量均值”（如速度波动的标准差），忽略了音乐转换的网络拓扑结构以及时间序列的频谱色彩（即波动的周期性特征）。

3. 核心方法

提出框架：vega-mir，一个面向符号音乐的Python开源库，打包了9种指标，提供统一的三层API设计（底层概率向量计算 -> 计数便捷函数 -> 序列便捷函数），并附带严格的解析锚点测试与跨平台CI验证。
关键创新点：
1. 工程整合与标准化：将9种分散的数学指标整合为“一行代码可调用”的API，统一了平滑参数（如Laplace $\alpha=0.5$）和对数底数（base 2），提供了不可变类型的结构化输出。
2. 和声网络分析：将和弦转换构建为有向加权图，引入PageRank重心节点作为连续变量，弥补了传统边际KL散度只看和弦频率、不看转换顺序的缺陷。
3. 弹性速度频谱分析：对速度曲线进行FFT频谱分解，提出周期性比率和四分类法（节拍器式、自由、准周期、周期性），从时间维度区分速度波动的“结构”与“幅度”。
核心思路直觉解释：
和声网络：如果把和弦比作城市，边际分布只看每个城市的人口多少，而网络分析看重的是城市之间的航班流向。PageRank重心就是“交通枢纽”——它不一定是人口最多的城市（主和弦），但一定是连接性最强的中转站。
弹性速度频谱：传统方法只看速度波动的“音量大小”（标准差），就像只看股票的波动率；频谱分析则看波动的“周期规律”，就像分辨股票是随机震荡还是有规律的周期波动。幅度小不等于随机，也可能是高频的规律波动。

4. 实验与结果

数据集/基准：
MAESTRO v3.0.0 数据集（14位作曲家，$N \ge 10$ 首作品）。
巴赫多大师语料库（247首作品，包含Schiff, Gould, Richter三位钢琴家的录音转录）。
内置8位作曲家的小型数据集（用于4个目录级指标的健全性检查）。
对比基线：上游Cygnus方法的边际KL散度（和声分析）、标量标准差$\sigma_{BPM}$（速度分析）。
主要实验结果：
案例1（和声网络）：在14位作曲家中，PageRank重心节点的值与边际KL散度呈中度相关（Spearman $\rho = 0.61$），而重心的类别标签（如I, II, i）与KL散度无关（$\rho = 0.13$）。只有莫扎特的重心是主和弦(I)，巴赫等人的重心是上主和弦(II)。
案例2（弹性速度）：古尔德的速度标准差最低（12.12 BPM，常被误认为“节拍器式”），但他的周期性比率最高（0.293，显著高于Schiff的0.204）。古尔德的弹性速度幅度小但结构性强，中位主导周期为66拍，远短于Schiff的102拍。在1955与1981版《哥德堡变奏曲》对比中，1981版幅度显著减小，但频谱色彩（周期性）无显著变化。
消融实验揭示：
在网络特征中，仅使用pr(top)（PageRank最高值）比使用全部5个网络特征的排名相关性更强（0.61 vs 0.53），其他特征（密度、聚类系数等）因在语料库中趋于同质化反而稀释了信号。
阈值敏感性分析表明，“古尔德占据大部分周期性分类”的结论在17种阈值扰动下100%稳健。

5. 优势与局限

主要优势：
1. 开箱即用与高复现性：填补了MIR领域缺乏统一信息论计算工具的空白，严格的测试与CI保障了学术研究的可引用性和结果一致性。
2. 视角的深刻性：两个案例成功证明了网络拓扑和频谱色彩能提取出标量统计完全丢失的关键音乐信息（如古尔德的“微观周期性”）。
3. 严谨的统计态度：论文明确指出了相关性估计的宽置信区间（受门德尔松等个体高杠杆点影响），区分了“定性观察”与“稳定的定量估计”。
局限性：
1. 依赖上游转录：工具本身不处理音频，必须依赖外部管道（如Cygnus）将音频转为符号序列，对音频起点的用户不够友好。
2. 部分指标未经验证：9种指标中有4种（多维基尼系数、平稳性检验、分形维度、音程分布）仅在小型数据集上做了健全性检查，尚未在大型语料库上进行实证研究。
3. 图结构的饱和性：在和声网络案例中，15个符号的字母表导致几乎所有作曲家的图都高度饱和（120条边）、均被判定为小世界网络，使得传统的图级指标失去区分度。

6. 关键结论与启发

最重要的Takeaway：音乐的复杂性无法被单一标量（如均值、方差）完全捕捉。和声的转换结构（网络拓扑）和速度波动的内在时间规律（频谱色彩）包含了边际分布和标量所丢弃的关键风格信息。
对后续研究的启发：
1. 指标的大规模实证：未来需要将目前仅作“健全性检查”的4个指标（特别是分形维度和基尼系数）应用到更大规模语料上，挖掘其在区分音乐风格上的潜力。
2. 高阶网络分析：目前的和声图仅基于bigram（2-gram）构建，未来可扩展至n-gram、动机图或节奏模式图，以突破当前图结构“过度饱和”导致区分度低的问题。
3. 跨工具生态整合：开发与music21、partitura等解析工具的适配器，实现从乐谱解析到信息论分析的无代码缝流水线，进一步降低计算音乐学的门槛。

#26

cs.SD

Voice ''Cloning'' is Style Transfer

Kaitlyn Zhou, Federico Bianchi, Martijn Bartelds, Anna Pot, Yongchan Kwon 等 (6 人)

Sound (cs.SD); Artificial Intelligence (cs.AI); Human-Computer Interaction (cs.HC); Machine Learning (cs.LG)

📄 Abstract 📥 PDF

查看摘要

Artificially generated speech is increasingly embedded in everyday life. Voice cloning in particular enables applications where identity preservation is important, such as completing a recording, dubbing in a new language, or preserving the voices of individuals with speech loss. However, in our work, we find that despite the term, voice cloning does not faithfully ''clone'' an individual's voice. Instead, we find that widely-used voice cloning models systematically apply style transfer to source voices. As rated by human annotators, cloned voices are perceived as more authoritative, warm, customer-service-like, and human-like compared to their sources. Human annotators also report greater trust in cloned voices than source voices, and a greater willingness to disclose sensitive personal information to them. Our work furthermore shows that voice cloning leads to homogenization of speaker characteristics, as measured by reduced variance in accent, speaking rate, and the audio embedding space. Together, our results highlight a new set of limitations and risks of voice cloning technology and their potential impact on human behavior.

📖 深度解读

1. 一句话总结

这篇论文揭示了当前的“声音克隆”技术实际上是在进行“风格迁移”，它并没有忠实复制原声，而是系统性地将声音改造得更权威、更温暖、更像母语者，从而导致声音特征的趋同化，并意外增加了听众的信任感和私密信息泄露倾向。

2. 研究背景与动机

核心问题：现有的“声音克隆”技术是否真的在忠实“克隆”一个人的声音？
重要性：声音是个人身份的重要标志。在辅助发声、多语言配音、个人数字遗产保存等合法应用场景中，声音的保真度是技术存在的核心价值。如果不忠实，可能会抹杀个人的声音特质和文化印记。
现有方法不足：目前关于声音克隆风险的讨论几乎全部集中在“滥用”（如诈骗、伪造、绕过声纹认证），即“克隆得太像了怎么办”，却忽略了在用户主动授权使用的场景下，“克隆得不像”会带来什么后果。现有技术追求“自然”和“像人”，但对其是否保留了原声的独特性缺乏实证检验。

3. 核心方法

提出框架：论文提出将“声音克隆”重新概念化为“风格迁移”和“声音同质化”。
关键创新点：
1. 跨句克隆范式：不使用目标文本的原声作为参考，而是用同一说话人的其他句子作为参考音频生成目标文本，以此测试模型提取泛化声音特征的能力，避免模型“偷看”原声。
2. 多维度感知与行为评估：不仅评估声音的声学特征，还引入人类听感维度（权威感、温暖感、客服感、人类似度）和行为意向维度（信任度、倾诉私密信息的意愿）。
3. 迭代克隆实验：对声音进行50轮连续克隆，观察声音在嵌入空间中的演化轨迹，证明其方向性漂移和收敛性。
核心思路直觉解释：就像用滤镜修图，你以为是在“复刻”自己的脸，实际上系统悄悄给你套上了一个“标准美人”滤镜——磨平了瑕疵（口音、个人独特节奏），加上了讨喜的效果（温暖、专业），最后所有人的脸都长得越来越像。

4. 实验与结果

数据集：86名非英语母语者的699个朗读音频片段（来自22种不同语言背景）。
基线/对比模型：两个开源模型（ChatterBox, Coqui-XTTS）和一个业界最先进的闭源模型。
主要实验结果：
风格迁移：克隆声音在所有听感维度上均显著高于原声。例如，温暖度平均分从原声的2.4升至克隆声的2.8；听众对克隆声音的信任度和进行亲密对话的意愿也显著更高。
口音抹除：克隆声音被大量判定为“英语母语者”，特别是向美式、英式等主流口音集中（Coqui-XTTS的所有克隆音频都被分类为内圈英语口音）。
同质化：在说话人身份分类探针测试中，原声的分类准确率达85%，而克隆声音骤降至53%；跨性别误判率成倍增加（女声误判为男声从7.4%增至17.2%）。
迭代收敛：50轮克隆后，声音在嵌入空间中显著向中心聚拢（边界球半径从366缩至336），音高异常升高，情绪分类中“愤怒”预测增加。
消融实验：
增加参考音频长度（从5秒增至37秒），风格迁移现象依然存在。
调整模型设置（降低表现力、提高相似度），风格迁移现象依然无法消除，说明这是模型内在的系统性偏差，而非参数设置问题。

5. 优势与局限

主要优势：
1. 视角新颖：打破了“克隆=复制”的技术迷思，从“保真度”和“同质化”的社会技术视角切入，填补了该领域的研究空白。
2. 论证严密：从人类主观感知、声学特征分析、机器学习探针到迭代演化实验，形成了完整的证据链。
3. 现实意义强：指出了克隆声音因“超真实”而更容易获得信任，这对防范AI欺诈和隐私保护具有直接的警示作用。
局限性：
1. 人群局限：研究对象仅限于“非英语母语者”，虽然这为观察口音抹除提供了极佳的切入点，但论文未验证这种风格迁移和同质化效应在“英语母语者”身上是否同样强烈。
2. 行为测试的生态效度：关于“信任”和“倾诉意愿”的测量基于受试者的自我报告，而非真实的交互场景。人们在问卷中表示信任，不代表在现实中真的会向AI泄露银行卡密码。
3. 机制解释不足：论文证实了风格迁移现象的存在，但未深入解释其底层机制（是由于训练数据中标准口音占比过大？还是模型架构本身的平滑效应？）。

6. 关键结论与启发

最重要的Takeaway：声音克隆不是一面忠实的镜子，而是一块带有“标准化美颜”效果的滤镜。它在抹除个体声音独特性（尤其是口音和文化特征）的同时，赋予了声音一种虚假的、高度同质化的“完美感”和“可信度”。
对后续研究的启发：
1. 技术层面：未来的TTS/声音克隆模型需要引入“保真度约束”或“反同质化损失函数”，确保在生成自然语音的同时保留个体的非标准特征（如特定口音、语速、音高变化）。
2. 安全与政策层面：由于克隆声音自带“高信任度”加成，监管方应强制要求AI语音产品添加水印或声明，防止利用这种“超真实信任感”进行诈骗或诱导用户泄露隐私。
3. 文化保护层面：需警惕AI技术对语言多样性的侵蚀，避免“标准口音”成为唯一被AI认可的人类声音模板。

#27

cs.SD

Speaker-Disentangled Remote Speech Detection of Asthma and COPD Exacerbations

Yuyang Yan, Sami O. Simons, Visara Urovi

Sound (cs.SD)

📄 Abstract 📥 PDF

查看摘要

Early detection of exacerbations in asthma and chronic obstructive pulmonary disease (COPD) is important for timely intervention. Speech has emerged as a promising tool for continuous, non-invasive respiratory disease monitoring. However, speech signals inherently carry speaker-identifiable attributes that may dominate model predictions, which may compromise both diagnosis performance and patient privacy. Furthermore, the acoustic features associated with respiratory disease and speaker identity remain unclear in respiratory disease monitoring. We propose an adversarial learning architecture that disentangles pathology-related acoustic patterns from speaker-identifiable attributes. The framework optimizes two clinically hierarchical tasks: (i) respiratory status classification (stable vs. exacerbated) and (ii) exacerbation type classification (asthma exacerbation vs. COPD exacerbation). Speaker identity is suppressed through gradient reversal-based adversarial training. To enhance clinical interpretability, we employ SHapley Additive exPlanations (SHAP) to quantify the contributions of acoustic features to pathology-related predictions versus speaker identity. On the TACTICAS dataset, our method outperforms the single-task baseline across both tasks. For the respiratory status task (stable vs. exacerbated), the AUC improves from 0.897 to 0.910. For the exacerbation type task (asthma exacerbation vs. COPD exacerbation), the AUC increases from 0.674 to 0.793. Concurrently, the J-ratio decreases, confirming effective suppression of speaker information. SHAP analysis reveals the contributions of the acoustic features to both tasks. External validation on the Bridge2AI-Voice dataset further demonstrates consistent performance improvement and reduced speaker dependency, confirming cross-dataset generalizability.

📖 深度解读

1. 一句话总结

本文提出了一种基于对抗学习的语音分析框架，在通过语音远程监测哮喘和COPD（慢性阻塞性肺病）急性加重时，成功剥离了与疾病无关的说话人身份信息，从而在提升诊断准确率的同时保护了患者隐私。

2. 研究背景与动机

核心问题：如何利用语音信号准确、无创地远程检测哮喘和COPD的急性加重，并区分这两种疾病的加重类型，同时消除语音中携带的说话人身份信息（如年龄、性别、口音）的干扰。
重要性：哮喘和COPD急性加重是导致急诊和住院的主要原因，早期检测和精准区分（因两者用药不同）对干预治疗至关重要。语音作为一种可随时随地采集的数字生物标志物，为连续、无创的院外监测提供了极佳的途径。
现有不足：
1. 现有的语音监测模型容易“走捷径”，将说话人身份特征作为分类的代理特征（即说话人偏差），这不仅导致模型泛化能力差，还引发了严重的隐私泄露风险。
2. 目前尚不清楚哪些声学特征真正反映呼吸道病理，哪些只是说话人的身份指纹，缺乏模型的可解释性分析。

3. 核心方法

提出框架：一种基于梯度反转的多任务对抗学习架构。
关键创新点：
1. 对抗性解耦：引入梯度反转层（GRL），在训练中最大化“说话人身份分类器”的损失，同时最小化“病理分类器”的损失，迫使模型提取出“只知病理，不知是谁”的特征表示。
2. 临床层级多任务：同时优化两个具有临床逻辑递进关系的任务——任务1区分“稳定期 vs 急性加重期”（初筛），任务2区分“哮喘加重 vs COPD加重”（精准用药）。
3. 可解释性特征归因：利用SHAP值量化对抗训练前后声学特征贡献度的变化，首次明确揭示了哪些特征属于“身份指纹”，哪些属于“病理标志物”。
核心思路（直觉解释）：就像训练一个法医仅凭伤口形状判断凶器，而完全忽略嫌疑人的长相。模型内部有一个“找说话人”的审查员，一旦发现提取的特征能识别出是谁在说话，就给特征提取器一个负反馈（梯度反转），逼迫它只能提取那些与呼吸道阻塞真正相关、且所有人都共有的病理声音特征（如气息不稳、发声颤抖）。

4. 实验与结果

数据集：
主数据集：TACTICAS（荷兰语，56名患者，8704条录音）。
外部验证集：Bridge2AI-Voice（英语，跨数据集泛化性验证）。
基线方法：单任务基线模型（相同架构但不进行对抗学习）、SVM、结合声音转换的SVM（FreeVC）。
主要结果：
任务1（稳定 vs 加重）：AUC从0.897提升至0.909；说话人可分离性指标J-ratio从1.541降至1.515。
任务2（哮喘加重 vs COPD加重）：AUC从0.647大幅提升至0.739；J-ratio从1.034降至0.869。
外部验证：AUC从0.801提升至0.822，J-ratio从2.146降至1.763，证明了跨语种和跨数据集的泛化能力。
消融/验证实验揭示：
声音转换实验：将所有人声音转换为同一个人后，基线模型性能显著下降（任务2 AUC从0.618暴跌至0.457），证实了模型确实存在严重的“说话人偏差”。
SHAP特征分析：对抗训练抑制了音高、共振峰等身份相关特征；放大了Jitter（微扰）、响度标准差、连续沉默次数等与呼吸-发声协调障碍相关的病理特征。有趣的是，F1带宽在任务1中被放大（作为通用加重标志），但在任务2中被抑制（因为哮喘和COPD加重时都有此特征，无法用于区分二者）。

5. 优势与局限

主要优势：
1. 一石二鸟：首次证明剥离说话人信息不仅保护了隐私，还通过消除伪相关切实提高了疾病诊断的准确率。
2. 临床可解释性强：通过SHAP分析将黑盒模型打开，提供了符合生理学逻辑的特征解释，增强了医生对AI的信任。
3. 泛化性佳：在跨语言（荷兰语到英语）的外部数据集上依然有效。
局限性：
1. 语言与人群多样性受限：主数据集仅限荷兰语，且未涵盖多种方言和更广泛的人口学差异。
2. 病种覆盖有限：目前仅针对哮喘和COPD，未包含其他具有类似症状的呼吸道疾病（如支气管扩张），在真实临床场景下的鉴别诊断能力仍需验证。

6. 关键结论与启发

最重要的Takeaway：在医疗语音分析中，隐私保护与诊断性能并非零和博弈。说话人身份信息往往是模型过拟合的“噪声”，通过对抗学习主动剔除这些噪声，可以同时实现隐私保护和模型性能的提升。
后续研究启发：
1. 扩展疾病谱：可将该框架扩展到其他影响发声的疾病（如帕金森、抑郁症），验证“解耦身份信息即提升性能”这一假设的普适性。
2. 端到端大模型结合：当前研究基于手工提取的声学特征，未来可探索在自监督语音大模型（如WavLM, HuBERT）的隐层表征上进行对抗解耦，可能挖掘出更深层的人类无法察觉的病理特征。
3. 实时部署：该框架为开发手机端实时、隐私安全的慢阻肺居家监测APP奠定了算法基础。

#28

cs.SD

MusicSynth: An Automated Pipeline for Generating Violin Fingerboard Animations from Sheet Music Using Optical Music Recognition

Abhimanyu Kaushik

Sound (cs.SD); Artificial Intelligence (cs.AI)

Comments: 12 pages, 4 figures

📄 Abstract 📥 PDF

查看摘要

Learning the violin is harder than it looks. Unlike piano keys or guitar frets, the violin neck has no markings at all, so a beginner cannot tell by looking where to place each finger. MusicSynth is an open-source web tool that tries to fix that: user uploads a photo of any violin sheet music (or a digital score file), and the system automatically produces a video showing a violin fingerboard with each note highlighted at the right moment -- no software to install, no manual note entry required. The system connects three existing open-source tools into one pipeline: an optical music recognition (OMR) library reads the notes from the uploaded image, a MusicXML parser extracts timing information from digital scores, and a video renderer draws the fingerboard frame by frame. The only part built from scratch is the lookup table that maps each musical note to a string and finger position on the violin. Tested across 110 public-domain violin scores, MusicSynth correctly identified 91.2\,\% of notes in clean printed music and assigned the right finger position 99.1\,\% of the time when given a digital score file. To the author's knowledge, no freely available tool currently turns a sheet music image into an animated violin fingerboard tutorial automatically and in a single browser-based step.

📖 深度解读

1. 一句话总结

本文开发了名为MusicSynth的开源网页工具，通过连接光学乐谱识别（OMR）与指法映射表，实现了从小提琴乐谱图片或数字乐谱到指板动画演示视频的自动化生成，解决了初学者找不到手指位置的痛点。

2. 研究背景与动机

核心问题：小提琴指板上没有任何物理标记（不像吉他有品丝、钢琴有琴键），初学者很难直观地知道每个音符对应的手指放置位置，这极大地增加了自学难度。
重要性：识谱和空间定位的双重认知负荷是导致初学者（尤其是没有老师指导时）早早放弃小提琴的主要原因。
现有方法不足：传统教材只提供音符不提供指法视觉引导；Yousician等App只能听音反馈，无法处理任意乐谱并生成指法；现有的OMR工具（如Audiveris）无法生成指板动画；而现有的指板工具又需要手动输入音符。目前没有一款免费工具能实现“上传乐谱图片→自动生成指板动画”的一站式闭环。

3. 核心方法

提出框架：MusicSynth，一个基于浏览器的端到端流水线。用户上传乐谱图片或MusicXML文件，系统自动输出带有指法标记的MP4动画视频。
关键创新点：
1. 首个全链路集成：将现有的OMR引擎、MusicXML解析器和视频渲染器无缝串联，填补了“乐谱图片到小提琴指板动画”的工具空白。
2. 小提琴专属指法映射表：基于传统小提琴教学法，从零构建了覆盖G3-G6音域（第一把位）的“音符-琴弦-手指”查找表，解决了同一音高可在不同琴弦演奏的指法选择问题。
3. 零门槛的Web部署：无需安装任何软件，直接在浏览器中完成全流程操作。
核心思路直觉解释：就像把“文字扫描仪+翻译字典+视频制作软件”连在了一起。扫描仪负责把图片变成数字文本，翻译字典负责把音符翻译成手指该放的位置，最后视频软件一帧帧画出来并合成视频。系统没有重复造轮子，而是做了一名优秀的“集成商”。

4. 实验与结果

数据集/基准：110首公有领域小提琴乐谱，按难度和输入类型分为5组（初级/中级/高级印刷版、铃木扫描版、纯数字MusicXML版）。同时使用铃木小提琴教材1-3册测试指法表覆盖率。
基线方法：与Audiveris、PhotoScore、MuseScore、Yousician等现有工具进行功能特性对比（定性）。
主要实验结果：
数字输入：当直接输入MusicXML时，指板位置分配准确率高达99.1%，处理时间仅需约2秒。
图像输入：在初级印刷乐谱上，音符识别准确率为91.2%，指板准确率为89.7%；但随着乐谱复杂度提升，准确率会明显下降（高级乐谱音符准确率降至76.8%）。
指法表覆盖率：对铃木第1册覆盖率达100%，1-3册整体覆盖率为91%（缺失的均为高把位高音）。
消融实验/错误分析揭示：OMR的四大主要错误源为加线音符（高音E弦常见）、调号升降号误判、密集连音符时长误判、以及超出音域范围。其中OMR环节是整个系统的性能瓶颈（耗时约15秒，占总时间80%以上）。

5. 优势与局限

主要优势：
1. 端到端自动化：真正实现了从图片到动画的一键转换，极大降低了初学者使用门槛。
2. 指法映射可靠：基于教学标准的查找表在数字乐谱输入下达到了99.1%的极高准确率，对初学者极具实用价值。
3. 轻量级易获取：基于Web且完全免费开源，无需硬件辅助（对比AR投影方案）。
局限性：
1. 仅限第一把位：查找表尚未覆盖更高把位，无法满足中高级曲目中换把的需求。
2. OMR鲁棒性有限：对低质量扫描、手写谱或复杂多声部乐谱的识别率较差，且处理速度较慢。
3. 缺乏实时互动：目前只能生成预制视频，无法像Yousician那样跟随用户演奏进行实时高亮反馈。

6. 关键结论与启发

最重要的Takeaway：解决领域痛点不一定需要底层技术的颠覆性创新，将现有的成熟开源工具（OMR、解析器、渲染器）通过领域知识（小提琴指法表）进行巧妙集成，就能创造出极具实用价值且前所未有的应用。
对后续研究的启发/延伸方向：
1. 指法算法升级：从静态的“第一把位查找表”升级为基于上下文动态计算的“最优指法算法”，以支持换把和高阶曲目。
2. 实时交互系统：引入音频实时跟踪技术，从“看视频跟练”进化为“智能实时伴奏纠错”。
3. 多模态增强：在视频中同步生成对应的音频反馈，或结合轻量级AR技术投影到真实指板上，进一步提升学习体验。

#29

cs.SD

A Distribution Matching Approach to Neural Piano Transcription with Optimal Transport

Weixing Wei, Raynaldi Lalang, Dichucheng Li, Kazuyoshi Yoshii

Sound (cs.SD); Multimedia (cs.MM)

Comments: Accepted to ICASSP2026

📄 Abstract 📥 PDF

查看摘要

This paper describes a novel paradigm that formalizes automatic piano transcription (APT) as an optimal transport (OT) problem, not as a frame-level multi-label binary classification problem. Our method learns to minimize the cost of transporting a predicted distribution of note events to the ground-truth distribution over time and frequency. The OT loss can thus accommodate temporal misalignment, leading to perceptually relevant optimization. We also propose a convolutional recurrent neural network (CRNN) with a harmonics-aware attention mechanism to capture the spectro-temporal dependencies inherent in this http URL experiments using the MAESTRO dataset showed that our method attained a state-of-the-art performance in onset detection. We confirmed the versatility of the OT loss in application to existing models.

📖 深度解读

1. 一句话总结

这篇论文将自动钢琴转录重新定义为最优传输（OT）问题，通过计算预测音符分布到真实音符分布的最小“搬运成本”来替代传统的逐帧分类损失，从而有效包容了微小的时序偏差，并在音符起始点检测上达到了SOTA性能。

2. 研究背景与动机

核心问题：自动钢琴转录（APT）旨在从音频中提取出对应的MIDI音符（时间、音高）。传统方法将其视为“逐帧多标签二分类”问题，使用二元交叉熵（BCE）损失进行训练。
问题重要性：钢琴转录是音乐信息检索的基础任务，对乐谱生成、音乐编辑等下游应用至关重要。
现有方法不足：BCE损失将每个时频单元视为独立预测，对时序偏差极度严苛——如果模型预测的音符起始时间与真实标签仅差一帧，BCE就会将其视为完全错误并给予重罚。这种“时间刚性”导致模型对演奏中的微小节奏波动或数据标注的细微误差过度敏感，且容易让模型输出模糊的、跨多帧的“弥散状”激活，必须依赖复杂的后处理（如峰值拾取）才能得到离散音符。

3. 核心方法

提出框架：论文提出了一种基于最优传输（OT）的分布匹配框架，并设计了一个融合谐波感知注意力的时空卷积循环神经网络（SFT-CRNN）。
关键创新点：
1. 将转录建模为OT问题：把模型预测的音符视为时频网格上的“质量分布”，真实标签视为“目标点质量”，训练目标是最小化将预测质量搬运到目标位置的成本。
2. 定制化传输成本函数：规定同音高下的时间偏移成本有上限（防止极端梯度），跨音高的搬运施加极大惩罚（绝不允许把C预测成D），从而在包容时间微偏的同时保证音高准确性。
3. 非平衡最优传输（UOT）与质量惩罚：考虑到真实钢琴谱中音符密度变化大，不强制要求预测与标签的总质量严格相等，而是加入软性的质量惩罚项，提升灵活性。
4. 谐波感知注意力机制：在CRNN架构中引入先验掩码，强制自注意力模块优先学习泛音关系（如基频及其整数倍频率），同时交替使用全注意力捕捉非谐波依赖。
核心思路直觉解释：传统BCE像是一个“死板的考官”，你答早了一秒就算全错；而OT损失像是一个“宽容的物流调度员”，如果你预测的音符位置离真实位置很近，只需付出很小的“搬运费”，只有错得越远代价才越大。这种机制允许模型在时间轴上有微小的合理偏移，同时鼓励模型把预测的概率集中在精准的一帧上（因为分散搬运更费钱），从而自然输出了更锐利、更接近真实离散事件的预测。

4. 实验与结果

数据集：MAESTRO（超过200小时的对齐钢琴录音与MIDI数据集）。
基线方法：Onsets & Frames、HPPNet、hFT-Transformer、Transkun等主流模型。
主要实验结果：
起始点检测：提出的SFT-CRNN+OT损失达到了SOTA，F1分数为98.36%，超越了此前的最佳模型。
起始与结束点检测：F1分数为90.78%，极具竞争力，但略低于Transkun（93.48%）。论文解释这是由于当前模型未显式建模延音踏板，导致释放时间预测受损。
消融实验揭示：
OT损失的普适性与有效性：将BCE替换为OT损失后，SFT-CRNN的Onset F1提升了0.75%，Onset&Offset F1提升了2.20%；在HPPNet上也观察到了类似提升。但在较老的Onsets & Frames模型上提升不明显（受限于模型自身容量瓶颈）。
输出特性的质变：BCE训练的模型输出是弥散的多帧激活，而OT训练的模型输出极其锐利，精准集中在单帧上，大幅减少了后处理的需求。
架构组件的必要性：移除LSTM（时间建模）和谐波注意力（频率建模）分别导致Onset&Offset F1下降4.10%和3.22%，证明两者缺一不可。

5. 优势与局限

主要优势：
1. 理论视角的突破：从分布匹配的角度重新定义了转录问题，提供了更符合人类听觉感知的优化目标。
2. 即插即用：OT损失是模型无关的，可直接替换现有模型的BCE损失，具有极高的工程实用价值。
3. 输出质量高：天然抑制了预测结果的时序弥散现象，输出更锐利，降低了后处理复杂度。
局限性：
1. 偏移预测存在短板：由于未对延音踏板进行显式建模，在包含偏移量的整体音符评估中未能达到最优。
2. 模型容量依赖：消融实验表明，如果基线模型本身表达能力不足（如Onsets & Frames），OT损失带来的增益非常有限。
3. 计算开销隐忧：虽然论文通过约束传输计划简化了OT求解，但求解OT距离本身仍涉及全局的配对计算，相比逐帧BCE在训练时的计算开销可能更大（论文未详细讨论训练耗时）。

6. 关键结论与启发

最重要的Takeaway：在音频事件检测任务中，基于空间距离的最优传输损失比传统的独立分类损失更契合时序信号的物理特性，它能在“容错微小偏移”和“鼓励精准定位”之间找到绝佳平衡。
对后续研究的启发：
1. 踏板机制融合：将延音踏板的检测与OT损失结合，是攻克Offset预测难题的明确方向。
2. 跨任务迁移：这种“容忍时间微偏+鼓励稀疏锐利输出”的OT范式，完全可以迁移到鼓点转录、和弦识别、通用声音事件检测等其他MIR任务中。
3. OT求解优化：未来可探索更高效的近似OT求解算法（如Sinkhorn迭代），以降低该范式在大规模数据上的训练成本。

#30

cs.SD

Profiling the Voice: Speaker-Specific Phoneme Fingerprinting for Speech Deepfake Detection

Jun Xue, Tong Zhang, Zhuolin Yi, Yihuan Huang, Yi Chai 等 (7 人)

Sound (cs.SD)

Comments: Accepted by IJCAI 2026

📄 Abstract 📥 PDF

查看摘要

The rapid advancement of generative AI has made audio deepfakes increasingly indistinguishable from authentic human vocals, posing significant threats to persons-of-interest (POI) such as public figures. Current detection systems primarily rely on generic, black-box models that fail to capture speaker-specific idiosyncratic traits and lack interpretability. In this paper, we propose Phoneme-based Voice Profiling (PVP), a novel personalized defense framework. By shifting the detection paradigm from macro-utterance analysis to micro-phonetic modeling, PVP captures the unique acoustic distributions underlying a POI's habitual articulatory patterns. Specifically, our framework models speaker-specific phonetic realizations using lightweight Gaussian Mixture Models (GMMs) estimated solely from bona fide reference speech. This design enables data-efficient profiling and robust generalization to previously unseen spoofing attacks without requiring heavy spoof-specific training. Furthermore, we introduce the first large-scale Chinese POI deepfake dataset to benchmark speaker-specific detection. Experimental results demonstrate that PVP significantly outperforms state-of-the-art generic detectors in POI spoofing scenarios, achieving substantial EER reductions while providing fine-grained, phoneme-level interpretability for forensic analysis. Code and data are available at: this https URL

📖 深度解读

1. 一句话总结

本文提出了一种基于音素级语音画像（PVP）的个性化深度伪造检测框架，通过为特定说话人建立轻量级的“音素指纹”来捕捉其独特的发音习惯，从而在无需伪造样本训练的情况下，精准且可解释地识别针对该说话人的AI克隆语音。

2. 研究背景与动机

核心问题：如何有效检测针对特定重要人物（POI，如公众人物、政要）的个性化语音深度伪造攻击。
重要性：随着AIGC技术的发展，零样本语音克隆只需少量参考音频即可逼真地模仿目标人物，这类伪造音频一旦流出，可能引发严重的政治、法律或社会危机。
现有方法不足：
1. 泛化性差：现有检测模型多为“说话人无关”的黑盒分类器，依赖数据集级的伪造痕迹（如特定声码器的频谱特征），面对针对特定POI微调的克隆语音时往往失效。
2. 缺乏可解释性：端到端模型只能输出“真/假”的宏观结果，无法指出“哪里假”，难以满足司法取证等需要透明推理的场景需求。
3. 忽视个体特征：现有方法忽略了音素发音受个人生理结构和发音习惯深刻影响这一事实，未能利用音素实现个性化建模。

3. 核心方法

提出框架：Phoneme-based Voice Profiling (PVP)，一种即插即用、基于音素级建模的个性化防伪框架。
关键创新点：
1. 个性化音素画像：将检测视角从“宏观语句”下沉到“微观音素”，用轻量级高斯混合模型（GMM）刻画目标说话人真实发音的声学分布，构建专属“音素指纹”。
2. 分层决策与混合评分机制：设计了从“显著音素”到“通用音素”再到“宽泛音素类”的粗到细分层决策，解决短语音中音素覆盖不全的问题；并融合音素级得分与全局说话人身份得分。
3. 细粒度可解释性：检测不仅能给出真假判断，还能定位到具体哪个音素与目标说话人的习惯不符，提供“音素异常线索”。
核心思路直觉解释：
就像笔迹鉴定一样，每个人发同一个音（如“a”）的口型、气流都有微妙的个人习惯。PVP先听几段目标人物的真话，给每个音素建一个“声学标准像”（GMM分布）。审查时，把待测语音拆解成一个个音素，去和“标准像”比对。如果某个音素偏离了该人物的惯有分布，就亮起红灯，指出造假的蛛丝马迹。由于只依赖真话建模，它不怕没见过的新型造假技术。

4. 实验与结果

数据集：
1. ZH-Famous：本文新构建的大规模中文POI深度伪造数据集（约400小时，10位公众人物，5种现代零样本TTS生成）。
2. EN-Famous：现有的英文POI深度伪造基准数据集。
基线方法：RawNet2, AASIST, XLSR+SLS 等传统黑盒检测模型，以及多种SSL特征提取器（wav2vec2, HuBERT等）。
主要实验结果：
1. 即插即用提升：将PVP接入各种SSL主干网络，在英文数据集上平均EER降低约8.3%，在中文数据集上平均EER降低约12.1%。
2. SOTA对比：PVP在两个数据集上全面超越现有方法，在ZH-Famous上达到AUC 94.56% / EER 11.37%，在EN-Famous上达到AUC 96.61% / EER 7.24%（对比次优方法有极大优势，许多基线在POI场景下EER高达40-60%，近乎随机猜测）。
消融实验揭示：
1. 去掉音素级建模退回语句级建模时，性能下降最明显，证明了微观音素建模对捕捉个人发音习惯的必要性。
2. GMM概率建模和全局说话人嵌入均对最终性能有正向贡献，框架的强大源于各模块的互补配合。

5. 优势与局限

主要优势：
1. 数据高效与泛化性强：仅需1%的真实参考语音即可建库，且无需任何伪造样本参与训练，天然对未知的语音生成算法具有免疫力。
2. 可解释的司法友好性：打破了黑盒预测，能可视化地输出具体音素级别的异常得分，为取证提供直接证据。
3. 跨语言适用：在中英双语数据集上均表现优异，证明了音素画像机制的普适性。
局限性：
1. 依赖音素对齐的准确性：方法前置依赖CTC对齐器提取音素边界，若真实场景中音频质量差导致对齐错误，会直接影响画像和检测精度。
2. 参考语料的纯净度要求高：建库需要纯净的目标人真实语音，若参考数据混入杂音或他人语音，会污染“音素指纹”。
3. 极端短语音的挑战：尽管有分层决策机制，但如果测试语音极短且未覆盖目标人的关键音素，检测效果可能仍会受限。

6. 关键结论与启发

最重要的Takeaway：语音深度伪造检测不应只盯着“伪造算法留下的全局痕迹”，而应回归“人”本身；微观音素发音的个体差异是AI难以完美克隆的生物物理屏障，是实现个性化、可解释防伪的绝佳切入点。
对后续研究的启发/延伸方向：
1. 与大语言模型/多模态结合：PVP提取的音素级异常线索可以作为结构化的中间特征，输入给大模型进行逻辑推理，构建更智能的“AI取证专家”系统。
2. 对齐鲁棒性优化：未来可研究端到端的音素级特征提取与对齐，减少对独立CTC模块的依赖，提升噪声环境下的稳定性。
3. 动态画像更新：人的发音习惯可能随时间或身体状态微调，研究如何在线增量更新“音素指纹”是一个有价值的方向。

#31

cs.SD

Stable Audio 3

Zach Evans, Julian D. Parker, Matthew Rice, CJ Carr, Zack Zukowski 等 (7 人)

Sound (cs.SD); Artificial Intelligence (cs.AI)

Comments: Training code: this https URL Inference and weights: this http URL

📄 Abstract 📥 PDF

查看摘要

Stable Audio 3 is a family of fast latent diffusion models (small, medium, large) for variable-length audio generation and editing. Since our models can generate several minutes of audio, variable-length generations are key to avoid the cost of producing full-length generations for short sounds. We also support inpainting, enabling targeted audio editing and the continuation of short recordings. Our latent diffusion models operate on top of a novel semantic-acoustic autoencoder that projects audio into a compact latent space, enabling efficient diffusion-based generation while preserving audio fidelity and encouraging semantic structure in the latent. Finally, we run adversarial post-training to both accelerate inference and improve generation quality, reducing the number of inference steps while improving fidelity and prompt adherence. Stable Audio 3 models are trained on licensed and Creative Commons data to generate music and sounds in less than a 2s on an H200 GPU and less than a few seconds on a MacBook Pro M4. We release the weights of small and medium, that can run on consumer-grade hardware, together with their training and inference pipeline.

📖 深度解读

1. 一句话总结

Stable Audio 3 提出了一套基于潜在扩散模型的快速音频生成与编辑框架，通过引入语义-声学自编码器、原生变长推理机制和对抗后训练技术，在消费级硬件上实现了不到2秒生成数分钟高保真音乐和音效的SOTA效果。

2. 研究背景与动机

核心问题：如何高效、灵活地生成变长的长音频（如几分钟的音乐），并支持局部编辑（如补全、修改片段），同时保证高保真度和快速推理？
重要性：音频生成在创意工具中需求巨大，但长音频生成通常计算成本高昂，且实际应用中往往只需要短音频或需要对已有音频进行局部修改，灵活性和效率至关重要。
现有方法不足：
1. 固定长度推理：传统潜在扩散模型需按最大长度生成，短音频也要算满全长，导致大量算力浪费在生成静音上；若强行缩短推理长度，质量会严重下降。
2. 推理速度慢：扩散模型通常需要几十步迭代去噪，延迟高。
3. 潜在空间难以兼顾：现有的自编码器要么只关注声学重建（缺乏语义导致扩散模型难优化），要么下采样率低（导致序列过长，显存占用大）。

3. 核心方法

提出框架：Stable Audio 3，包含三个规模（small, medium, large）的潜在扩散模型。
关键创新点：
1. 语义-声学自编码器 (SAME)：实现高达 4096× 的下采样率，极大缩短了潜在序列长度。通过结合频谱重建、对抗损失（保声学 fidelity）和色度/双耳声级差回归、对比对齐损失（引语义结构），让潜在空间既紧凑易生成，又保留高保真和语义。
2. 原生变长训练与推理：训练时引入变长注意力掩码、基于长度的时步偏移（长音频加更多噪声以补偿冗余）和静音增强；推理时根据实际需求时长分配计算，避免算力浪费。
3. 三阶段训练与对抗后训练：依次进行 Flow Matching 预训练、ODE 蒸馏预热、对抗后训练。后训练阶段用相对论对抗损失和 CLAP 语义对齐损失取代均方误差（MSE），克服了 MSE 导致的“回归到均值”问题，使模型在极少步数（8步）下生成细节丰富且文本契合度高的音频。
4. 局部加性条件：将掩码后的原音频与二值掩码拼接后加到 Transformer 每层，实现零初始化的无缝 Inpainting（局部重绘/续写）微调。
直觉解释：
SAME 自编码器就像一个极度压缩的“音频ZIP包”，不仅压缩率高（4096倍），而且解压时连细微音色和宏观旋律都能还原，因为它在压缩时被强迫保留了“乐理特征”（色度）和“空间感”（双耳差）。
变长机制就像买布料，以前不管做短袖还是长裙都得买最长的一匹布（浪费），现在按需裁剪，且通过“时步偏移”确保长布料能被彻底漂白（加噪），短布料则轻柔漂洗。
对抗后训练就像让模型从“描摹老师的平均画法（MSE）”转变为“请严厉的鉴赏家直接评判”，逼迫模型画出锐利、逼真且切题的细节，从而几笔（几步）就成画。

4. 实验与结果

数据集/基准：
音乐：Song Describer Dataset (SDD, 120s/190s)
音效：BBC Sound Effects Dataset (5s/30s/120s等)
基线方法：Stable Audio 2.5, SAO, Woosh, TangoFlux, DiffRhythm 2, ACE-Step 1.5 等。
主要结果：
音乐生成：在 120s 生成任务中，large 和 medium 的 FAD 达到 0.101 和 0.107，音乐性评分（MUS）高达 4.30 和 4.15，全面超越 Stable Audio 2.5 和开源模型；在 H200 上生成 190s 音频仅需不到 1 秒。
音效生成：在 5s 生成任务中，large FAD 为 0.358，CLAP 为 0.370，显著优于 Woosh Flow 等专有模型。
变长推理：对比被“误用”于变长推理的 SA 2.5（20s生成FAD暴跌至0.731），SA3 原生支持变长且质量稳定，20s生成仅需0.2秒左右，比生成全长快数倍。
消融实验揭示：
对抗后训练的必要性：仅用 MSE 蒸馏会导致音频模糊（回归均值），加入对抗损失后恢复了高频细节和文本对齐度。
Ping-pong 采样：单步生成纯噪声到音频仍有挑战，8步的“去噪-再加噪”乒乓采样能自我纠正早期错误，是质量与速度的最佳平衡点。

5. 优势与局限

主要优势：
1. 极致的效率：4096×下采样与对抗后训练结合，在消费级设备（如 MacBook Pro M4）上实现几秒内生成数分钟音频。
2. 原生变长与编辑：无需为短音频支付长音频的计算代价，且通过 Inpainting 自然支持单段/多段编辑和音频续写。
3. 合规与开放：完全基于授权和 CC 数据训练，开源 small 和 medium 权重，消除了版权顾虑。
局限性：
1. 小模型的领域冲突：small 模型由于参数量受限，无法在一个模型中同时兼顾音乐和音效（会互相干扰），被迫拆分为 small-music 和 small-sfx 两个专用模型。
2. 单步生成的局限：尽管进行了对抗后训练，从纯噪声一步生成（$\epsilon \to \hat{x}_0$）依然困难，必须依赖至少 8 步的乒乓采样才能保证高质量。
3. 控制维度有限：目前仅支持基于掩码的 Inpainting 控制，不支持基于指令的编辑、歌词控制或时间动态控制（需后续通过 LoRA 或 ControlNet 拓展）。

6. 关键结论与启发

最重要的 Takeaway：通过构建高压缩率且语义对齐的潜在空间（SAME）配合对抗后训练，扩散模型可以在极少步数内生成极长的高保真音频，且原生变长推理是解决长音频模型落地成本的关键。
对后续研究的启发：
1. 潜在空间设计：未来音频生成自编码器的设计不应仅局限于重建损失，引入多模态对齐（如 CLAP）和音乐属性回归（如 Chroma）能显著提升扩散模型的生成 tractability。
2. 后训练范式：从 MSE 蒸馏转向基于真实数据的对抗后训练，是突破扩散模型速度-质量瓶颈的有效路径，可避免沉重的在线蒸馏开销。
3. 变长建模：借鉴视觉领域的位置编码思路，结合基于长度的噪声调度偏移，可解决音频扩散模型固定长度的死板设定，这一思路可推广至视频等长序列生成领域。

#32

cs.SD

MusicDET: Zero-Shot AI-Generated Music Detection

Chaolei Han, Hongsong Wang, Jie Gui

Sound (cs.SD)

Comments: Accepted by ICML 2026

📄 Abstract 📥 PDF

查看摘要

Detecting AI-generated music is crucial for preserving artistic authenticity and preventing the misuse of generative music technologies. However, existing discriminative detectors typically rely on generated samples during training and often suffer from severe performance degradation when confronted with music produced by unseen generators, which limits their real-world applicability. To address this issue, we formulate a zero-shot setting for AI-generated music detection, where the detector is trained exclusively on real music without access to any generated samples. Under this setting, we propose MusicDET, a generator-agnostic detection framework based on frequency-guided normalizing flows that probabilistically models the distribution of real music features. By evaluating the likelihood of an input sample under the learned real-music distribution, MusicDET enables effective detection of out-of-distribution music signals. Experiments on the FakeMusicCaps and SONICS datasets show that MusicDET consistently outperforms conventional discriminative detectors, particularly when detecting music generated by previously unseen models.

📖 深度解读

1. 一句话总结

本文提出了MusicDET，一个基于归一化流的零样本AI音乐检测框架，仅通过学习真实音乐的频域能量分布，就能精准识别出由未知生成模型伪造的AI音乐。

2. 研究背景与动机

核心问题：如何检测由未见过的AI模型生成的音乐（跨生成器检测）。
重要性：随着AI音乐生成技术的爆发，版权争议、作者身份模糊等乱象频发。可靠的音乐真伪鉴别是维护音乐生态公平的刚需。
现有方法不足：
1. 泛化性差：现有鉴别式检测器通常在训练时依赖特定生成器的伪造样本，导致在面对新模型（开集场景）时性能断崖式下降。
2. 领域错位：直接将语音防伪检测（ADD）方法迁移到音乐上效果不佳，因为音乐具有更丰富的旋律、和声、节奏等复杂结构。

3. 核心方法

提出框架：MusicDET，一个基于频率引导的归一化流框架。其核心思想是“见多识广”：就像音乐家因为熟悉真实音乐的质感，能敏锐察觉AI音乐的违和感一样，MusicDET只学习真实音乐的分布，将偏离该分布的信号判定为AI生成。
关键创新点：
1. 零样本检测设定：训练阶段完全不使用任何AI生成的音乐样本，从根本上解决了对特定生成器的过拟合问题。
2. 频带解耦的归一化流：针对音乐高低频统计特性异质的特点（低频涉节奏/基音，高频涉音色/泛音），将频谱特征按频带分解，由独立的归一化流分别建模，再通过全局流捕捉跨频依赖，提升了分布估计的稳定性。
3. 类条件扩展：在拥有伪造样本的情况下，通过共享流变换但引入类别先验（真实与伪造分别对应不同的高斯分布中心），进一步提升判别力。
直觉解释：把真实音乐的频谱特征比作“健康体征”，MusicDET就是建立了一个详细的“健康标准数据库”。由于AI生成音乐在频谱能量上往往呈现不规则、不连贯的“病态”特征，当输入音乐在“健康标准”下的概率（似然值）极低时，就被诊断为“AI生成”。

4. 实验与结果

数据集：FakeMusicCaps、SONICS（音乐检测）；ASVspoof 2019 LA、CtrSVDD（语音/歌声防伪泛化测试）。
基线方法：AASIST、W2V2-AASIST、MERT-AASIST、WPT-W2V2-AASIST及SpecTTTra系列等。
主要实验结果：
FakeMusicCaps：在零样本设定下，MusicDET平均EER为4.51%，远优于所有基线（最佳基线为11.46%）。类条件版本更是降至0.89%。
SONICS：零样本MusicDET达到2.89% EER，与需要伪造样本训练的SpecTTTra-β（4.02%）相当；类条件版本达到惊人的0.00% EER。
跨生成器泛化：基线模型在训练集外的生成器上EER常飙升至30%-48%，而MusicDET依然保持极低EER，展现出绝对统治力。
消融实验揭示：
频带分解有效：使用2个频带比1个频带效果显著提升。
先验均值影响：增大真实类先验均值能拉开潜空间中真伪样本的距离，降低EER。
鲁棒性短板：对变调、加噪和音频重编码（MP3/AAC等）极其敏感，EER大幅上升，但对时间拉伸和混响相对鲁棒。

5. 优势与局限

主要优势：
1. 极强的跨模型泛化能力：无需预知任何伪造样本即可开箱即用，完美契合生成模型快速迭代的现实。
2. 高效轻量：参数量仅8.13M，远小于需微调大模型的基线（如315.89M），且推理速度和内存占用表现优异。
3. 跨任务迁移性：在语音和歌声深度伪造检测上同样达到SOTA水平，证明了架构的通用性。
局限性：
1. 抗后处理能力弱：面对现实场景中常见的变调、加噪或压缩编码，检测性能大幅衰退（论文如实报告了这一短板）。
2. 类条件设定的现实约束：虽然类条件版本性能极佳，但前提是必须获取到AI生成的训练样本，这在零样本的严格定义下是妥协的。

6. 关键结论与启发

最重要的Takeaway：AI生成音乐在时频能量谱上存在本质的、跨模型的系统性缺陷（不规则、不连贯），通过仅对真实音乐的频谱分布进行精确的概率建模，就能实现比“找茬式”二分类更鲁棒的零样本检测。
对后续研究的启发：
1. 后处理鲁棒性是下一站：如何在频域分布建模中引入抗干扰机制（如对抗训练、频域数据增强），解决变调和压缩导致的分布偏移，是该领域亟待攻克的难关。
2. 生成式检测范式的推广：这种“只学真实分布，把偏离当异常”的生成式/单类分类思路，不仅适用于音频，也可启发图像、视频等模态的AIGC检测器设计。
3. 高低频解耦思想：针对信号不同频段统计异质性的解耦建模策略，可广泛应用于其他具有多尺度结构的时序信号分析任务中。

#33

cs.SD

Sonalyzer-Moz: A Framework for Analyzing the Structure of Mozart's Sonata Form

Jing Zhao, KokSheik Wong, Vishnu Monn Baskaran, Kiki Adhinugraha, David Taniar

Sound (cs.SD)

Comments: 6 pages, 2 figures

📄 Abstract 📥 PDF

查看摘要

The sonata form is a musically rich and hierarchically structured form that poses significant challenges for automatic analysis. While music structure analysis has seen strides of progress in recent years, sonata form analysis remains in its early stages. This is largely due to the time-consuming and high barrier of the music background requirement for annotating classical music structures. To advance research in this area, we curated SoSA-Moz, the first large-scale dataset featuring comprehensive hierarchical structure annotations. This work establishes a foundation for systematic sonata form analysis. Leveraging this newly contributed resource, we further propose Sonalyzer-Moz, a baseline model specifically designed for investigating complex sonata structures. This framework integrates feature aggregation with sequential modeling, enabling it to capture both local feature and upper-level structural dependencies. Experiment results show that Sonalyzer-Moz is capable of identifying the components' boundaries of the upper-level structure that are critical to understanding sonata form. Therefore, this method demonstrates, for the first time, the effectiveness of automatic upper-level analysis of sonata form, and provides a robust baseline for future research in the automatic understanding of sonata form while advancing the study of classical music structure analysis.

📖 深度解读

1. 一句话总结

本文构建了首个专为奏鸣曲式结构分析的大规模多版本音频数据集SoSA-Moz，并提出了首个针对该任务的深度学习基线框架Sonalyzer-Moz，首次实现了对奏鸣曲式高层结构（呈示部、展开部、再现部）边界的有效自动识别。

2. 研究背景与动机

核心问题：如何利用深度学习技术自动分析古典音乐中极具代表性且结构复杂的“奏鸣曲式”的高层结构边界。
重要性：奏鸣曲式是古典音乐中最重要、最丰富的大型结构之一，其自动分析对音乐教育、基于结构的音乐生成与推荐等应用具有重要价值。
现有不足：
1. 数据匮乏：现有古典音乐数据集通常只提供粗粒度标签（如“奏鸣曲”），而少有的BPSD数据集为了跨版本对齐，人为剪切拼接了音乐结构（如将EDR改为EDRDR），破坏了真实的音乐结构，无法用于结构分析。
2. 方法错位：现有音乐结构分析方法主要针对流行音乐设计。流行音乐结构相对扁平，而奏鸣曲式具有强烈的层级性和复杂变奏（如展开部的自由性、再现部的主题倒装等），直接套用流行音乐模型效果极差。

3. 核心方法

提出框架：Sonalyzer-Moz，一个集成了特征聚合与序列建模的深度学习框架，专门用于识别奏鸣曲式的高层（EDR级别）结构边界。
关键创新点：
1. 特征聚合：将细粒度的声学特征按固定窗口（1秒）切片并重塑，迫使模型忽略局部细枝末节（如乐句边界），聚焦于宏观的高层结构特征。
2. 单周期位置编码：为音频帧计算周期性位置编码，隐式地捕捉奏鸣曲式中各组件（E/D/R）在时间分布上的大致比例规律。
3. 动态自相似性矩阵统计特征：计算帧间的动态自相似性，并提取其统计量（和与均值），利用“结构边界处音频相似度通常较低”的先验知识来强化边界特征。
核心思路直觉解释：分析奏鸣曲式就像看一幅巨型油画，如果凑太近看每一笔（局部声学特征），反而看不出画的是啥；必须退后一步，把一片区域的色彩融合在一起看（特征聚合），同时参考画作各部分的相对位置（位置编码）和色彩差异（自相似性），再结合从左到右的阅读顺序（LSTM），才能准确找到各大章节的分割线。

4. 实验与结果

数据集：本文自建的SoSA-Moz数据集（包含35首莫扎特独特作品，582个演奏版本，具有结构和主题功能双层标注）。
基线方法：无监督方法CBM，以及为流行音乐设计的监督学习方法AllInOne、SongFormer。
主要实验结果：
Sonalyzer-Moz在±3秒容差下的F1值（HR3F）达到76.24%。
流行音乐SOTA方法表现惨淡：SongFormer仅为18.12%，AllInOne为46.49%，无监督的CBM最高仅13.03%。这验证了流行音乐模型无法直接迁移到奏鸣曲式分析。
消融实验揭示：
特征聚合至关重要：去掉后F1断崖式下跌至30.38%，证明局部特征无法可靠指示高层边界。
位置编码不可或缺：去掉后F1降至56.72%，暗示奏鸣曲式各部分在实际创作中确实存在相对比例的规律。
LSTM和DSSM统计特征均对捕捉边界过渡和低相似度区域起到积极作用。

5. 优势与局限

主要优势：
1. 填补空白：提供了首个可用且标注可靠的大规模奏鸣曲式数据集，为该领域的数据驱动研究奠定了基础。
2. 针对性强：模型设计紧扣奏鸣曲式的音乐学规律（如重宏观轻微观、利用位置和相似度先验），成功建立了该任务的深度学习基线。
局限性：
1. 性能有待提升：作为基线，76.24%的F1值（在±3秒的宽泛容差下）表明模型仍有较大的误判空间，尚未达到实用级别。
2. 数据多样性受限：数据集仅包含莫扎特的作品，且乐器仅限钢琴和弦乐，对其他作曲家（如贝多芬、勃拉姆斯）或管弦乐作品的泛化能力未经验证。
3. 层级分析未深入：论文虽然标注了低层的“主题功能级”，但当前模型仅解决了高层（EDR）的边界识别，尚未实现对复杂低层结构的联合分析。

6. 关键结论与启发

最重要的Takeaway：奏鸣曲式的自动分析不能简单照搬流行音乐的方法（尤其是基于Transformer的流行架构），必须针对其“层级性”和“宏观性”进行专门的模型设计（如引入特征聚合来模糊局部细节），模型架构的合理性比单纯增大模型参数量更重要。
对后续研究的启发：
1. 架构探索：未来可探索更适合古典音乐长时序和层级关系的网络架构，例如层次化Transformer或图神经网络。
2. 多任务/层级学习：可尝试将高层结构（EDR）与低层主题功能（S1, S2, TR等）联合训练，利用低层细节辅助高层判定，或反之。
3. 跨版本与跨作曲家泛化：利用多版本数据的特性研究模型的鲁棒性，或扩展数据集至更多古典主义及浪漫主义作曲家，推动通用古典音乐结构分析的发展。

#34

cs.SD

SIREM: Speech-Informed MRI Reconstruction with Learned Sampling

Md Hasan, Nyvenn Castro, Daiqi Liu, Lukas Mulzer, Jana Hutter 等 (9 人)

Sound (cs.SD); Computation and Language (cs.CL); Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG); Medical Physics (physics.med-ph)

📄 Abstract 📥 PDF

查看摘要

Real-time magnetic resonance imaging (rtMRI) of speech production enables non-invasive visualization of dynamic vocal-tract motion and is valuable for speech science and clinical assessment. However, rtMRI is fundamentally constrained by trade-offs among spatial resolution, temporal resolution, and acquisition speed, often leading to undersampled k-space measurements and degraded reconstructions. We propose SIREM, a speech-informed MRI reconstruction framework that uses synchronized speech as a cross-modal prior. The central idea is that vocal-tract configurations during speech are correlated with the produced acoustics, making part of the image content predictable from audio. SIREM models each frame as a fusion of an audio-driven component and an MRI-driven component through a spatial weighting map. The audio branch predicts articulator-related structure from speech, while the MRI branch reconstructs complementary content from measured k-space data. We further introduce a learnable soft weighting profile over spiral arms, enabling a differentiable study of how k-space arm usage interacts with speech-informed fusion. This yields a unified multimodal formulation that combines audio-driven prediction, MRI reconstruction, and sampling adaptation. We evaluate SIREM on the USC speech rtMRI benchmark against standard baselines, including gridding, wavelet-based compressed sensing, and total variation. SIREM introduces a speech-informed reconstruction paradigm that operates in a substantially higher-throughput regime than iterative methods while preserving anatomically plausible vocal-tract structure. These results establish an initial benchmark for multimodal speech-informed rtMRI reconstruction and highlight the potential of synchronized speech as an auxiliary prior for fast reconstruction. The source code is available at this https URL

📖 深度解读

1. 一句话总结

本文提出了SIREM框架，通过融合同步语音音频预测的发声器官图像与欠采样MRI数据重建的图像，并引入可学习的螺旋臂采样策略，在保证实时重建速度的同时，提升了语音实时MRI的图像质量。

2. 研究背景与动机

核心问题：语音产生的实时磁共振成像在时间分辨率、空间分辨率和采集速度之间存在固有的物理折中，导致k空间数据严重欠采样，重建图像质量下降（出现伪影）。
为什么重要：rtMRI是无创观察发声器官（舌头、嘴唇、软腭等）动态运动的黄金标准，对语音科学和临床评估（如腭咽闭合不全、构音障碍）至关重要。
现有方法不足：传统的加速重建方法（如并行成像、压缩感知）仅利用了测量域、图像域或时间维度的先验信息，完全忽略了与MRI同步采集的语音音频信号。而语音实际上是声道构型的物理结果，包含了大量关于发声器官位置的结构化信息，这些信息在现有流程中被白白丢弃了。

3. 核心方法

提出框架：SIREM (Speech-Informed MRI Reconstruction)，一个多模态融合重建框架。
关键创新点：
1. 跨模态先验建模：首次将同步语音音频作为辅助先验，显式引入rtMRI的逆问题求解中。
2. 空间自适应融合机制：提出“音频可解释空间权重图”，在像素级别决定更信任音频预测还是MRI测量。
3. 可学习的k空间螺旋臂采样策略：引入可微的软权重曲线，研究在音频先验辅助下，k空间不同螺旋臂的重要性如何变化。
核心思路直觉解释：
想象你在看一部无声的发声器官电影（MRI），画面因为数据不够而模糊不清。此时你打开了同步录音（音频），因为你“听音辨位”的能力很强，大脑能根据声音猜出舌头和嘴唇大概在什么位置。SIREM就是让AI做同样的事：音频分支根据声音“猜”出一张发声器官的图像，MRI分支从有限的扫描数据中重建出另一张图像。然后，权重图像一张智能蒙版，在舌头、嘴唇等与声音强相关的区域多采用音频猜的图，在其他区域多采用MRI扫出的图。同时，AI还在学习如何分配扫描时间（螺旋臂权重），看看在有了音频帮忙后，哪些扫描线可以少花点精力。

4. 实验与结果

数据集：USC语音rtMRI语料库的USC-16子集（包含16名说话人的手动发声器官标注，用于生成权重图）。
基线方法：直接网格化、基于小波的压缩感知、全变分（TV）重建。
主要实验结果：
保真度与效率的权衡：在传统L2范数等失真指标（PSNR, SSIM）上，经典的小波和TV方法依然最强；但SIREM在所有21个指标-目标的对比中，均优于无音频辅助的自身变体（SIREM w/o audio），证明音频先验确实有效。例如，以Gridding为参考时，引入音频使SSIM提升了0.048，PSNR提升了0.96。
速度碾压：SIREM每帧重建耗时约14.6毫秒，比小波（~601.6ms）和TV（~658.1ms）快41-45倍，是唯一满足实时成像要求（<33.3ms/帧）的非平凡重建方法。
消融实验：通过对比SIREM与SIREM (w/o audio)，揭示了同步语音条件在所有评估指标和参考目标下均带来一致的性能提升，尤其是在感知质量指标（如LPIPS降低，VIF提升）上改善明显。

5. 优势与局限

主要优势：
1. 开辟新范式：打破了MRI重建仅依赖自身数据的局限，开创了多模态（音频+MRI）联合重建的新范式。
2. 实时性强：前向推理速度快，远超迭代类压缩感知方法，真正契合实时临床应用需求。
3. 可解释的融合：基于解剖学分割的权重图设计，使得模型在何处依赖音频、何处依赖MRI具有明确的物理和解剖学解释。
局限性：
1. 绝对保真度未超越传统方法：在严格的像素级失真指标上，仍不及迭代优化的小波和TV方法。
2. 权重图非端到端学习：当前权重图是从固定的分割掩码推导而来，而非模型自适应学习得到，限制了模型发现人眼难以察觉的音频-图像关联的能力。
3. 采样策略为回顾性：可学习的螺旋臂权重目前仅是对已有k空间数据的回顾性重加权，尚未在真实的扫描仪前瞻性采集（真正改变扫描轨迹）中验证。

6. 关键结论与启发

最重要的Takeaway：同步语音音频不是MRI的附属品，而是包含丰富解剖信息的结构化先验；将语音rtMRI重建视为多模态估计问题，可以在不牺牲实时性的前提下显著提升重建质量。
对后续研究的启发：
1. 从固定先验到自适应先验：未来可探索端到端学习的动态权重图，让模型自己发现音频能解释的图像区域，甚至超越现有的解剖学认知。
2. 前瞻性主动采集：将回顾性的螺旋臂权重策略推进到前瞻性采集，即让MRI扫描仪根据实时语音的节奏和内容，动态决定下一帧该扫描k空间的哪个区域（即Audio-guided Active Acquisition）。
3. 更强的MRI骨干网络：结合当前先进的深度学习MRI重建网络（如Unroll网络或扩散模型）替代简单的NUFFT，可能会进一步缩小与迭代方法在保真度上的差距。

#35

cs.SD

EnvTriCascade: An Environment-Aware Tri-Stage Cascaded Framework for ESDD2 2026 Challenge

Hengyan Huang, Xiaoxuan Guo, Jiayi Zhou, Yuankun Xie, Jian Liu 等 (8 人)

Sound (cs.SD)

📄 Abstract 📥 PDF

查看摘要

ADD in real-world scenarios has evolved from speech-only spoofing to more challenging component-level settings, where speech and environmental sounds may be independently manipulated. To tackle this, we propose EnvTriCascade, an Environment-Aware Tri-Stage Cascaded framework for the ESDD2 Challenge. First, a mix-consistency detector provides a binary prior to distinguish original recordings from manipulated mixtures, which calibrates the final decisions. Next, two complementary five-class detectors, leveraging SSLAM+XLS-R and EAT-large+XLS-R representations, extract robust multi-branch features integrated via a cross-branch attention-gated classifier. To enhance robustness against diverse mixing conditions, we incorporate RawBoost augmentation. Trained exclusively on the official CompSpoofV2 dataset, our system achieves a Macro-F1 score of 0.8266 on the test set, significantly outperforming the official baseline and ranking second in the challenge.

📖 深度解读

1. 一句话总结

本文提出了一个环境感知的三层级联框架，通过“先粗分再细分”的推理策略和双分支特征融合，有效解决了现实复杂音频中语音与环境声可能被独立伪造的细粒度检测难题。

2. 研究背景与动机

核心问题：现实场景中的音频通常是语音和环境声的混合体，两者可能被独立伪造（例如：真语音+假环境声）。传统的音频深度伪造检测（ADD）主要关注纯语音的真伪，难以应对这种“组件级”的细粒度分类问题。
重要性：随着语音合成和声音生成技术的普及，能够精准定位音频中究竟是哪个组件（语音或环境声）被篡改，对于音频取证和内容安全至关重要。ICME 2026的ESDD2挑战赛正是针对此问题设立，要求将音频分为5类（原始、全真混合、假语音+真环境、真语音+假环境、全假混合）。
现有方法不足：现有的检测模型多为“一锅端”的整体真伪判断，在面对“原始录音”与“全真混合音频”（两者都没有合成痕迹，仅存在物理混合的细微差异）时极易混淆；同时，低能量的环境声伪造痕迹容易被高能量的真实语音掩盖，导致漏检。

3. 核心方法

论文提出了EnvTriCascade框架，核心思路是“分而治之，先粗后细”，具体包含三个级联阶段：
- 阶段1：混合一致性检测器（粗筛）——只做二分类（原始 vs 混合）。利用浅层XLS-R特征和AASIST模型，敏锐捕捉物理混合带来的相位不连续性，为后续判断提供一个“是否为原始录音”的先验保障。
- 阶段2：双分支多类检测器（细分）——构建两个互补的五分类器（B1和B2）。每个分类器都包含一个频谱分支（提取环境声特征）和一个波形分支（提取语音特征），通过跨分支注意力门控机制自适应地决定更依赖频谱还是波形信息。B1和B2的互补性在于：B1使用SSLAM（擅长多声学纹理），B2使用EAT-large（层数更深，擅长捕捉低能量、长周期的环境异常）。
- 阶段3：级联推理校准（决策）——将B1和B2的预测概率取平均，然后用阶段1的先验结果进行逻辑校准：如果阶段1判定为“原始”，则强制输出“原始”；如果阶段1判定为“混合”，但阶段2误判为“原始”，则强制选择阶段2概率第二高的类别。这有效避免了“假阴性”漏报。

关键创新点：
1. 三层级联校准机制：用简单的二分类先验来约束复杂的五分类预测，巧妙解决了“原始”与“全真混合”之间的混淆问题。
2. 动态层-时间融合：不采用静态的层平均，而是通过注意力机制让模型在训练中自适应地聚焦于SSL模型中最具区分力的中间/深层特征，并据此剪枝，提升效率。
3. 异构双分支门控融合：针对语音和环境声的异质性，设计门控机制动态平衡波形特征与频谱特征的权重。

4. 实验与结果

数据集：ESDD2挑战赛的CompSpoofV2数据集（包含约283小时、超25万条音频，分为5类）。
基线方法：官方ESDD2基线模型。
主要实验结果：
最终系统在测试集上达到Macro-F1 0.8266，大幅超越官方基线的0.6327，并在挑战赛中排名第二。
双分支融合（B1+B2）达到0.7707，证明SSLAM和EAT-large的互补性。
引入阶段1校准后（A+B1+B2），F1从0.7707跃升至0.8266，证明了先验校准的巨大作用。
消融实验与错误分析揭示：
混合边界问题：单分支模型极易混淆Class 0（原始）和Class 1（全真混合），阶段1的浅层特征成功解决了此问题。
环境声漏检问题：Class 3（真语音+假环境）比Class 2（假语音+真环境）更难检测，因为背景环境音量低易被掩盖；引入深层的EAT-large分支有效缓解了这一问题。
参数效率：虽然总参数量达540.81M，但由于冻结了所有SSL骨干网络，实际可训练参数仅占1.1%，防止了过拟合和灾难性遗忘。

5. 优势与局限

主要优势：
1. 鲁棒的层级决策：通过“先粗后细”的级联逻辑，用二分类先验兜底，显著降低了细粒度分类中的严重误判（假阴性）。
2. 特征互补性强：结合了语音敏感型（XLS-R）与环境敏感型（SSLAM/EAT）模型，并通过门控机制动态权衡，适应不同类型的篡改。
3. 训练高效：采用冻结骨干+特征融合的策略，在极少可训练参数下实现了SOTA级别的性能。

局限性：
1. EER指标缺失：由于阶段3引入了硬性的逻辑校准（强制覆盖预测结果），破坏了概率输出的单调性，导致系统无法计算标准的等错误率（EER），这在某些需要连续概率评分的实际应用中受限。
2. 推理开销较大：系统需要依次/并行运行1个二分类模型和2个五分类模型，推理计算量和显存占用较高，对实时检测部署不友好。
3. 逻辑校准的硬性规则：阶段3的“若A判混合，B判原始，则取B的第二高概率”是一种启发式硬规则，在某些边界情况下可能会抹杀掉正确判断。

6. 关键结论与启发

最重要的Takeaway：在复杂的组件级音频伪造检测中，“整体判断”容易迷失于细节，而“解耦判断+先验约束”（先判断是否混合，再判断谁被伪造，用前者校准后者）是提升性能的关键范式。
后续研究启发：
1. 软校准机制：未来可以探索可微分的软校准模块来替代当前的硬逻辑规则，从而保留连续的概率分布，使得EER等指标可计算。
2. 轻量化级联设计：能否将阶段1和阶段2整合到一个多任务学习框架中，共享底层特征提取器，以大幅降低推理成本？
3. 低能量异常检测：针对环境声易被语音掩盖的问题，除了使用更深更重的Transformer，还可以探索频域掩码或能量感知的动态加权损失函数。

#36

cs.SD

SAME: A Semantically-Aligned Music Autoencoder

Julian D. Parker, Zach Evans, CJ Carr, Zachary Zukowski, Josiah Taylor 等 (7 人)

Sound (cs.SD); Artificial Intelligence (cs.AI)

📄 Abstract 📥 PDF

查看摘要

Latent representations are at the heart of the majority of modern generative models. In the audio domain they are typically produced by a neural-audio-codec autoencoder. In this work we introduce SAME (Semantically-Aligned Music autoEncoder), an autoencoder for stereo music and general audio that reaches a 4096$\times$ temporal compression ratio while maintaining reconstruction quality and downstream generative performance. We achieve this by combining a tranformer-based backbone with set of semantic regularisation approaches, phase-aware reconstruction losses and improved discriminator designs. The architecture delivers substantial computational cost benefits, through both its high compression ratio and its reliance on well-optimised transformer primitives. Two variants (a large SAME-L and a CPU-deployable SAME-S) are released in open-weights form.

📖 深度解读

1. 一句话总结

本文提出了SAME（语义对齐音乐自编码器），一种基于Transformer的重采样架构和语义对齐策略的立体声音乐自编码器，在实现4096倍极高时间压缩比的同时，不仅保持了高质量的音频重建，还大幅提升了推理速度和下游生成模型的性能。

2. 研究背景与动机

核心问题：如何为音频生成模型（如扩散模型）构建一个既具有极高时间压缩比，又能保证重建质量和生成 tractability（可处理性）的连续潜在空间。
重要性：现代生成模型通常在潜在空间中运行。更高的时间压缩比意味着序列更短，能极大降低下游生成模型的计算成本；但压缩比过高通常会导致音频重建质量严重下降，且潜在空间变得难以被生成模型学习。
现有方法不足：当前主流的神经音频编解码器（如EnCodec等）多基于卷积网络和VQ-VAE架构，压缩比通常在1024-2048左右。若强行提高压缩比，重建质量会受损；且传统的VAE瓶颈在高压缩比下难以维持良好的潜在空间几何结构，不利于下游生成。此外，基于卷积的下采样/上采样机制在处理长序列时计算效率受限。

3. 核心方法

提出模型：SAME（Semantically-Aligned Music autoEncoder），包含编码器-瓶颈-解码器结构，并辅以多种辅助损失。
关键创新点：
1. 基于Transformer的重采样块（TRB）：摒弃了传统的步进卷积或池化，通过在输入序列中交错插入可学习的输出嵌入，并利用自注意力机制进行下采样（编码）和上采样（解码）。这既实现了极高压缩比，又充分利用了现代硬件优化的Transformer算子。
2. 软归一化瓶颈与双重KL正则：不使用传统的VAE，而是用运行方差进行归一化，并在时间和通道两个维度独立施加KL正则，防止潜在空间出现漂移和异常值，使其更适合扩散模型生成。
3. 语义与生成对齐的辅助损失：联合训练一个小型扩散模型（Flow-matching对齐损失）以塑造潜在空间的几何结构；引入线性回归器预测色度和双耳声级差（ILD）以保留音高和空间信息；引入跨模态对比损失（音频-文本-特征对齐）以注入高级语义。
4. 改进的频谱与相位重建损失：提出了有界对称的频谱对比度损失、自适应对数幅度损失，以及基于复数相量的相位导数损失，有效解决了传统STFT损失在低幅值处梯度爆炸和相位不连续的问题。
核心思路直觉解释：如果把音频压缩比作“把衣服塞进箱子”，传统方法是用大力气硬塞（高压缩比卷积），容易把衣服弄皱（失真）；SAME则是先把衣服按特定规则折叠整齐（TRB和软归一化），并在箱子上贴好标签说明里面是什么衣服、怎么搭配（语义对齐和生成对齐损失），这样不仅塞得多，以后拿出来穿（重建）或搭配新穿法（下游生成）都更方便。

4. 实验与结果

数据集：训练使用Audiosparx数据集（约19500小时），评估使用Song Describer Dataset (SDD)的446个音频片段。
基线方法：Stable Audio Open (SAO), ϵar-VAE, CoDiCodec, ACE-Step 1.5。
主要实验结果：
重建质量：SAME-L在客观指标上与当前最强的ϵar-VAE持平或更优（MELlog1p显著领先），且在MUSHRA主观听感测试中以82.2分位居第一（ϵar-VAE为76.5分）。
推理速度：尽管SAME-L参数量达852M，但由于依赖优化的Transformer算子，其推理速度比卷积基线快约2倍；蒸馏出的轻量版SAME-S（108M参数）速度更是比卷积基线快6-7倍，可在CPU上实时运行。
压缩比优势：SAME实现了4096×的时间压缩比（基线多为1024-2048），这意味着下游生成模型处理的序列长度大幅缩短。
消融实验揭示：
单纯使用软归一化替代VAE会降低生成指标，但加入生成对齐损失（$L_{diff}$）后，生成指标不仅恢复且超越了VAE基线。
加入语义回归和对比对齐损失（$L_{sem}, L_{con}$）后，下游生成质量（MuQEval分数从3.340跃升至3.870）大幅提升，证明语义对齐是高压缩比下维持生成能力的关键。
高压缩比+大隐层维度（4096/256）在生成质量上优于低压缩比+小隐层维度（1024/64），即便后者的重建质量更好。

5. 优势与局限

主要优势：
1. 极高的压缩效率与速度：4096×压缩比大幅降低了下游生成模型的计算负担，且Transformer架构带来了卓越的推理速度。
2. 生成友好的潜在空间：通过创新的辅助损失组合，证明了无需传统的VAE，仅靠轻量级瓶颈+语义/生成正则化，就能获得对扩散模型更友好的潜在空间。
3. 出色的主观音质：在极高压缩比下，主观听感（MUSHRA）依然超越了现有的强基线。
局限性：
1. 论文未明确探讨在极低码率或极端复杂音频（如极端嘈杂的混合音效）下的表现，测试主要偏向音乐和一般音频。
2. SAME-L模型参数量高达852M，虽然推理快，但训练和部署的显存门槛较高（必须依赖蒸馏出SAME-S才能在CPU运行）。
3. 多阶段训练和复杂的损失函数组合（多达十几种损失）增加了训练调参的难度和工程复杂度。

6. 关键结论与启发

最重要的Takeaway：在音频自编码器中，高压缩比与语义对齐是相辅相成的。高压缩比需要更大的隐层维度来保留信息，而更大的隐层维度必须配合显式的语义和生成对齐损失，才能将潜在空间塑造成下游生成模型易于学习的形态；软归一化+辅助损失可以替代传统的VAE。
对后续研究的启发：
1. 架构转移：TRB（基于注意力的重采样）的成功表明，音频编解码器可以完全摆脱步进卷积，全面转向Transformer原生架构，以更好地利用硬件加速。
2. 损失函数设计：自适应对数幅度损失和复数相量相位损失为解决频谱损失中的梯度异常和相位不连续提供了新思路，可广泛应用于其他音频重建任务。
3. 跨模态对齐下放：将文本-音频对比对齐直接作为自编码器的正则项，意味着可以在编码阶段就注入高层语义，这为提升后续生成模型的可控性（如文本到音频生成）提供了新的优化方向。

#37

cs.SD

WavFlow: Audio Generation in Waveform Space

Feiyan Zhou, Luyuan Wang, Shoufa Chen, Zhe Wang, Zhiheng Liu 等 (9 人)

Sound (cs.SD); Computer Vision and Pattern Recognition (cs.CV)

Comments: Code: this https URL

📄 Abstract 📥 PDF

查看摘要

Modern audio generation predominantly relies on latent-space compression, introducing additional complexity and potential information loss. In this work, we challenge this paradigm with WavFlow, a framework that generates high-fidelity audio directly in raw waveform space without intermediate representations. To overcome the inherent difficulties of modeling high-dimensional and low-energy signals, we reshape audio into 2D token grids through waveform patchify and introduce amplitude lifting to align signal scales, enabling stable optimization via direct x-prediction in flow matching. To capture complex semantic alignment and temporal synchronization, we leverage an automated data pipeline to curate 5 million high-quality video-text-audio triplets, allowing the model to learn fine-grained acoustic patterns from scratch. Experimental results show that WavFlow achieves competitive performance on the video-to-audio benchmark VGGSound (FD_PaSST: 59.98, IS_PANNs: 17.40, DeSync: 0.44) and the text-to-audio benchmark AudioCaps (FD_PANNs: 10.63, IS_PANNs: 12.62), matching or exceeding the performance of established latent-based methods. Our work demonstrates that intermediate compression is not a prerequisite for high-quality synthesis, offering a simpler and more scalable alternative for multimodal audio generation.

📖 深度解读

1. 一句话总结

WavFlow提出了一种直接在原始波形空间生成高保真音频的框架，通过波形分块、振幅提升和大规模数据策展，成功去除了对音频压缩编码器（如VAE）的依赖，并在视频生音频和文本生音频任务上达到或超越了现有的隐空间生成方法。

2. 研究背景与动机

核心问题：现代音频生成是否必须依赖隐空间压缩（即先编码再生成、最后解码的传统范式）？
重要性：当前主流方法依赖预训练的音频分词器或VAE将长音频压缩为隐变量，这不仅增加了流程的复杂性，更致命的是，生成音频的质量被死死限制在编码器的重建保真度上限内，高频细节和相位信息极易在压缩瓶颈中丢失且无法恢复。
现有不足：直接在原始波形空间建模面临三大挑战：1) 原始音频维度极高，计算开销大；2) 音频振幅动态范围大且集中在零附近，信噪比极低，导致流匹配优化极不稳定；3) 缺乏大规模高质量的音视频配对数据，而原始波形建模无法像隐空间那样利用预训练编码器的先验知识，对数据规模和质量更为饥渴。

3. 核心方法

提出框架：WavFlow，一个基于多模态扩散Transformer（MMDiT）的直接波形生成框架。
关键创新点：
1. 波形分块：将1D长波形重塑为2D Token网格（类似ViT对图像的处理），无需学习型编码器，且重塑过程完全无损。实验发现分块维度$D=200$是计算效率与生成质量的黄金平衡点。
2. 振幅提升：针对原始音频能量低易被噪声淹没的问题，采用RMS归一化加全局缩放（3.0倍），将信号幅度拉升至与高斯先验匹配的范围，保障流匹配训练的稳定性。
3. x-prediction流匹配：采用预测干净信号（x-prediction）而非预测噪声或速度，使网络更聚焦于恢复低维数据流形，结合v-loss取得了最佳的高频保真度与多样性平衡。
4. 自动化数据策展：构建了多阶段过滤与平衡流水线，从海量媒体中提炼出500万高质量视频-文本-音频三元组，弥补了波形空间端到端学习对海量数据的渴求。
核心思路直觉解释：传统方法像是在画草图（隐变量）再放大上色（解码器），草图细节决定了上限；WavFlow则是直接在巨幅画布上作画，为了手不抖（振幅提升）、眼睛看得全（波形分块变成2D网格），并准备了海量的参考图集（大规模数据），从而一笔成型，省去了草图到成品的失真环节。

4. 实验与结果

数据集/基准：VGGSound (视频生音频 VT2A), AudioCaps (文本生音频 T2A), MovieGen-Audio-Bench (泛化性测试)。
对比基线：Frieren, V2A-Mapper, HunyuanVideo-Foley, MMAudio, AudioLDM 2, TANGO 2等主流隐空间方法。
主要实验结果：
VT2A (VGGSound)：WavFlow-L-16kHz在分布保真度上超越MMAudio-L-44.1kHz（FDPaSST 59.98 vs 60.60），且在音画同步上打平（DeSync 0.44）。WavFlow-L-44.1kHz更是取得了最佳的FDPaSST（55.82）。
T2A (AudioCaps)：仅用中等规模参数（624M），WavFlow就取得了最低的FDPANNs（10.63）和最高的ISPANNs（12.62），超越了所有专用T2A模型。
消融实验揭示：
分块维度与数据规模的博弈：数据量小时，需要更细粒度的分块（小D）来抓细节；数据量大时，可以弥补粗粒度（大D）的不足，但D=512存在容量瓶颈，D=200是饱和点。
预测目标：x-prediction全面优于v-prediction，且配合v-loss对高频保真度（FDPaSST）提升显著。
噪声偏移无效：与图像生成不同，音频生成中增加训练噪声水平只会让微弱的信号更难恢复，百害无一利。

5. 优势与局限

主要优势：
1. 去瓶颈化：彻底移除了预训练音频编码器/解码器，打破了重建保真度的理论上限，保留了更锐利的声学瞬态细节。
2. 架构极简：无需复杂的神经声码器后处理，波形分块与重组完全参数免费且无损。
3. 多模态通用：同一模型通过简单的条件置零，即可无缝切换VT2A和T2A任务，且均达到SOTA水平。
局限性：
1. 缺乏语音/歌声生成能力：当前生成的发声不构成有意义的语言，缺乏细粒度的语言先验和对应的大规模语音数据。
2. 数据依赖极重：由于没有预训练编码器的归纳偏置，模型必须从海量高质量数据中从零学习声学结构，数据门槛极高。

6. 关键结论与启发

最重要的Takeaway：中间隐空间压缩并非高质量音频生成的必选项。只要处理好信号尺度对齐、序列降维（分块）并提供充足的数据，端到端的原始波形生成完全可以匹敌甚至超越基于VAE的范式。
对后续研究的启发：
1. 向语音领域延伸：未来可引入细粒度文本对齐和大规模语音数据，将此框架扩展为环境音与人类语音的统一生成模型。
2. 生成范式的反思：在其他模态（如视频生成）中，是否也存在类似的“去隐空间化”潜力？直接在像素空间生成是否也能通过类似的数据与预处理策略实现突破？
3. 数据质量重于模型技巧：论文证明了在原始空间建模中，扩大高质量数据规模可以弥补模型分块带来的信息密度压力，这为后续数据驱动的生成研究指明了方向。

#38

cs.SD

FSD50K-Solo: Automated Curation of Single-Source Sound Events 跨领域

Ningyuan Yang, Sile Yin, Li-Chia Yang, Bryce Irvin, Xiao Quan 等 (7 人)

Audio and Speech Processing (eess.AS); Sound (cs.SD)

Comments: Accepted to EUSIPCO 2026. 5 pages, 3 figures

📄 Abstract 📥 PDF

查看摘要

High-quality training datasets are essential for the performance of neural networks. However, the audio domain still lacks a large-scale, strongly-labeled, and single-source sound event dataset. The FSD50K dataset, despite being relatively large and open, contains a considerable fraction of multi-source samples where background interference or overlapping events could limit the usefulness of the data. To address this challenge, we introduce a data curation framework designed for large-scale open audio corpora. Our approach leverages a generative diffusion model to synthesize clean single-class events to construct controlled noisy mixtures for supervision. We subsequently employ a pre-trained audio encoder coupled with a discriminative classifier to automatically identify and filter out multi-source samples. Experiments show that our framework achieves strong performance on a human expert-curated test set. Finally, we release FSD50K-Solo, a model-curated subset of FSD50K containing single-source audio samples identified by our method. Beyond FSD50K, our method establishes a scalable paradigm for curating open source audio corpora.

📖 深度解读

1. 一句话总结

本文提出了一个基于生成式扩散模型和预训练音频编码器的自动化数据清洗框架，成功从包含大量多源噪声的FSD50K数据集中筛选出高质量的单声源音频子集FSD50K-Solo，解决了音频深度学习中缺乏大规模强标签纯净数据的痛点。

2. 研究背景与动机

核心问题：如何在大规模、弱标签的开源音频数据集中，自动且精准地识别并过滤掉包含背景干扰或声音重叠的“多声源”样本，只保留纯净的“单声源”样本。
重要性：高质量的训练数据是神经网络性能的基石。许多音频任务（如目标声音提取、声音事件定位、可控音频合成等）都需要纯净的单声源数据作为输入或监督目标；使用多声源混杂的数据会导致标签噪声，严重影响模型训练。
现有方法不足：
1. 人工标注不可靠且成本高：如FSD50K中的人工评分（PP评分）主观性强且容易出错（例如把包含语音和音乐的片段标为纯净），且无法扩展到更大规模的数据集。
2. 现有自动过滤方法局限：语音领域的过滤方法（如基于信噪比统计的WADA）依赖人声特性，无法迁移到多样化的环境声；其他多模态数据集的过滤往往只看时长，不关注音频内容的实际声学质量。

3. 核心方法

提出框架：一个结合生成式合成数据与判别式分类的自动数据清洗框架，并基于此构建了FSD50K-Solo数据集。
关键创新点：
1. 用生成模型解决“鸡生蛋”问题：现实中缺乏大量纯净的单声源数据来训练分类器，本文巧妙利用Stable Audio Open扩散模型，通过特定提示词（Prompt）合成高质量的纯净单声源音频作为训练参考。
2. 可控的混合数据增强：将合成的纯净音频与干扰音、背景噪声按不同条件（不同信噪比、不同干扰源数量）混合，构造出1:1的正负样本对，为分类器提供丰富且标签绝对可靠的训练数据。
3. 预训练模型+时序聚合的判别架构：利用在大规模数据上预训练的BEATs音频编码器提取声学特征，结合Bi-LSTM捕捉时序上下文，实现对未知真实音频的单/多声源二分类。
核心思路直觉解释：就像我们要训练一个AI区分“独唱”和“合唱”，但手里没有干净的独唱录音。于是我们先用一个高级的“虚拟歌手”（扩散模型）生成绝对纯净的独唱，再人为地把这些独唱和杂音混在一起变成“合唱”。让AI通过这种“找茬”游戏学会区分后，再去真实世界里挑出真正的独唱录音。

4. 实验与结果

数据集/基准：
训练与验证：基于扩散模型生成的数据集（105类，单源与多源1:1）。
测试集1：生成的测试集。
测试集2：BSE数据集（由人类专家精心标注的约20小时真实音频，作为核心基准）。
应用对象：FSD50K数据集。
基线方法：本文主要将FSD50K原有的人工PP评分作为对比基线，并引入Audiobox Aesthetics预测器作为质量评估的辅助验证工具。
主要实验结果：
在人类专家标注的BSE测试集上，分类准确率高达95.51%，精准率达98.58%，证明模型在真实数据上泛化极佳，误判率极低。
成功从FSD50K中筛选出FSD50K-Solo，其中开发集有69.17%被判定为单声源（比原数据集人工PP评分保留的60.58%多挖掘了近10%的可用数据）。
质量评估指标显示，筛选出的单声源样本具有更低的复杂度（PC分数低）和更高的音频质量（PQ分数高），与生成数据和专家数据的趋势完全一致。
消融实验/分析揭示：
对比FSD50K人工标注与模型预测的流转情况发现，模型不仅修正了人工将多声源误判为单声源的错漏，还挽救了部分人工无法达成共识但实际纯净的音频。
类别分布分析表明，像“动物”、“液体”、“人类群体活动”这类天然容易混杂多声源的类别，在过滤后数量大幅减少，符合物理直觉。

5. 优势与局限

主要优势：
1. 高度可扩展：无需昂贵且易错的人工标注，整个流程（生成数据->训练分类器->过滤）可轻易扩展到比FSD50K大得多的开源音频语料库。
2. 精准且保守：在真实专家数据集上达到98.58%的精准率，意味着它极少将多声源误判为单声源，保证了筛选出数据的极高纯度。
3. 数据利用率提升：相比主观且保守的人工PP评分，模型保留了更多真正可用的单声源数据。
局限性：
1. 未见类别的泛化性未经验证：模型仅在FSD50K的105个单声源类别生成的数据上训练，对于完全未见过的新型声音事件，其判断能力仍是未知数。
2. 生成数据的领域差距：训练数据依赖扩散模型合成，虽然实验证明泛化良好，但合成音频与真实音频的分布差异仍可能限制模型在某些极端真实场景下的表现。
3. 零样本能力缺失：当前框架不支持零样本应用，面对新类别仍需重新生成数据并微调。

6. 关键结论与启发

最重要的Takeaway：利用生成式AI合成高质量、强监督的训练数据，是解决音频领域“数据质量瓶颈”和“标签噪声”问题的一条可行且高效的路径。合成数据不仅能做数据增强，更能作为数据清洗的“锚点”。
对后续研究的启发/延伸方向：
1. 跨域与零样本迁移：未来可探索如何将此类清洗框架转化为零样本任务，例如结合CLAP等语言-音频模型，通过文本语义直接判断音频是否为单声源，从而摆脱对特定类别生成数据的依赖。
2. 更细粒度的时序清洗：当前方法主要做片段级判断，未来可延伸至帧级别，精准切割并提取音频中短暂出现的单声源片段，进一步变废为宝。
3. 通用音频语料库清洗范式：该范式可推广至AudioSet等超大规模弱标签数据集，为音频大模型的预训练提供更干净的数据基石。

#39

cs.SD

Modulation Feature Enhancement with a Multi-Stage Attention Network for Underwater Acoustic Target Recognition 跨领域

Shefeng Yan, Linlin Mao, Zeping Sui, Chunjin Jiang

Signal Processing (eess.SP); Sound (cs.SD)

Comments: 31 pages, 14 figures, Accepted by Signal Processing

📄 Abstract 📥 PDF

查看摘要

Underwater acoustic target recognition is critical for maritime applications, yet it faces challenges arising from the complex and diverse nature of ship-radiated noise. To address these issues, we propose a robust deep learning-based framework. First, we introduce a feature extraction and fusion method based on variational mode decomposition (VMD) and the 3/2-D spectrum to generate high-fidelity 2-D DEMON spectral features, which effectively capture modulation envelope information. To further enhance feature representation, we design a one-dimensional convolutional neural network (1-D CNN) integrated with a novel Multi-Stage Multi-Type Attention Mechanism (MMATT) that adaptively refines features at different network depths. Within this mechanism, we propose a Residual Channel-Independent Spectral Attention Mechanism (R-CISAM) and a Multi-Scale Separate-and-Fuse Spectral Attention Mechanism (MS-SFSAM). Moreover, to mitigate performance degradation caused by severe class imbalance inherent in real-world ship-radiated noise data, we devise an Adjustable Class-Balanced Focal Loss (ACBFL), which provides flexibility across tasks with varying degrees of imbalance. Experimental results on a real-world ship-radiated noise dataset demonstrate that the proposed solutions effectively enhance underwater acoustic target recognition performance.

📖 深度解读

1. 一句话总结

本文提出了一种结合VMD与3/2-D谱的2-D DEMON特征融合方法、多阶段多类型注意力机制（MMATT）以及可调类平衡焦点损失（ACBFL）的深度学习框架，有效解决了水下声学目标识别中调制特征提取难、关键信息易丢失以及真实数据类别极度不平衡的问题。

2. 研究背景与动机

核心问题：如何在水下复杂环境中，利用深度学习对舰船辐射噪声进行准确识别。
重要性：水下声学目标识别是海洋信号处理的关键技术，对海事安全、水下探测等应用至关重要。
现有方法不足：
1. 特征提取粗糙：传统全频带DEMON分析忽略了舰船噪声在不同频带的调制不均匀性；而现有的子带划分方法（如均匀滤波）过于生硬，缺乏自适应性。
2. 注意力机制僵化：现有方法多在网络单一位置使用注意力，或在不同深度重复相同注意力；且传统空间注意力（如CBAM）假设关键信息在所有通道的空间分布一致，这不符合DEMON谱特征（不同子带通道的关键频率位置不同）的物理特性。
3. 忽视数据长尾分布：真实舰船噪声数据存在严重的类别不平衡（长尾分布），现有损失函数（如静态加权或原始Focal Loss）缺乏针对不同不平衡程度的灵活性，导致模型对尾部类别识别率极低。

3. 核心方法

提出框架：一种基于1-D CNN的水下声学目标识别框架，包含特征融合、多阶段注意力和自适应损失函数三个模块。
关键创新点：
1. 基于VMD与3/2-D谱的2-D DEMON特征融合：利用VMD自适应将信号分解为多个本征模态函数（IMF），对每个IMF提取包络谱。结合3/2-D谱（能抑制高斯噪声和去除非相位耦合谐波），将3/2-D谱的平方与幅度谱相乘后再叠加回原幅度谱，既增强了关键线谱信息，又保留了幅度谱的细节。
2. 多阶段多类型注意力机制（MMATT）：针对网络不同深度的特征特性，部署不同类型的注意力：
- 浅层（R-CISAM）：残差通道独立谱注意力。不跨通道共享权重，对每个子带通道独立计算频率注意力，并引入残差连接和Dropout，精准增强不同通道的关键频率。
- 中层（MS-SFSAM）：多尺度分离与融合谱注意力。利用多膨胀率的深度可分离卷积捕获多尺度上下文信息，先独立计算再跨通道融合，补充中层的全局关系。
- 深层（CAM）：通道注意力（SE模块），在高层语义上筛选重要通道。
  3. 可调类平衡焦点损失（ACBFL）：在Focal Loss基础上引入可调参数$\beta$（控制对难易样本的关注度过渡）和类平衡可调参数$q$（控制类别权重的平滑度），使损失函数能灵活适应不同数据集的不平衡程度。
核心思路直觉解释：
特征融合：就像给一张模糊的地图画重点，3/2-D谱负责把最核心的标记点加粗（去噪保相位），幅度谱保留地形细节，两者叠加得到一张既清晰又详尽的“2-D导航图”。
MMATT：就像一个公司团队，基层员工（浅层）需要拿着放大镜独立看自己负责的细节（R-CISAM）；中层主管（中层）需要拉远视角，综合不同部门的信息看大局（MS-SFSAM）；高层领导（深层）则只需决定哪个部门的工作最关键（CAM）。
ACBFL：就像一个灵活的调节器，既不能对弱势群体（尾部类）不管不顾，也不能矫枉过正，通过两个旋钮（$\beta$和$q$）找到最适合当前数据分布的奖惩力度。

4. 实验与结果

数据集：真实舰船辐射噪声数据集 ShipsEar（包含11类舰船噪声及自然噪声，共90条录音，类别极度不平衡，如疏浚船仅41个训练样本，客船有666个）。
基线方法：Trad-CNN（1-D DEMON）、Filter-CNN（滤波器2-D DEMON）、VMD-CNN、VMD-3/2D-CNN，以及替换注意力模块（SAM）和损失函数的变体模型。
主要实验结果：
特征融合有效性：VMD-Fusion-CNN的OA（89.50%）、F1（84.90%）和AA（82.58%）全面超越传统1-D DEMON（OA: 73.21%）和单纯滤波方法，且F1和AA优于常用的时频图（TF-CNN）。
整体框架提升：完整模型（VMD-Fusion-CNN-MMATT-ImFL）相比基线，OA提升18.47%，F1提升26.25%，AA提升29.49%。
注意力机制验证：替换R-CISAM或MS-SFSAM为传统SAM均导致性能下降；多膨胀率组合优于任何单一膨胀率；消融实验证明三个阶段的注意力缺一不可，且位置不可互换。
消融实验揭示：
浅层需要局部细节注意力，中层需要多尺度上下文，深层需要通道校准，强行调换注意力模块位置会导致性能下降。
ACBFL中的可调参数$\beta$和$q$设为可学习/搜索时，效果优于固定为0或1的极端情况，证明了其在处理长尾分布时的灵活性和有效性。

5. 优势与局限

主要优势：
1. 物理先验与深度学习深度融合：不是盲目端到端，而是利用信号处理先验（VMD自适应分频、3/2-D谱去噪保相）构建高质量2-D特征，降低了网络学习难度。
2. 注意力机制设计符合数据逻辑：打破了CV领域“空间位置跨通道共享”的惯性思维，针对DEMON谱不同通道（子带）频率分布不同的特点设计R-CISAM，极具启发性。
3. 对长尾数据具有强鲁棒性：ACBFL通过双参数调节，在提升整体准确率的同时，显著改善了少数类的识别率（AA和F1提升巨大）。
局限性：
1. VMD参数依赖先验：VMD的模态数$K$和惩罚因子$\alpha$仍需基于先验知识和少量样本确定，未实现完全的端到端自适应提取。
2. 数据集规模较小：实验仅在ShipsEar（90条录音切分）上验证，面对极大规模或更复杂的开源/实战数据集时，其计算效率和泛化能力有待进一步证实。
3. 超参数搜索成本：ACBFL引入了$\beta$、$q$、$\gamma$等多个超参数，虽然提升了灵活性，但也增加了交叉验证的调参负担。

6. 关键结论与启发

最重要的Takeaway：在水下声学识别中，针对信号的物理特性定制特征提取方法和网络结构（如针对子带独立性设计注意力，针对调制特性设计特征融合），比单纯套用通用CV模型能获得更大的收益；同时，真实数据的长尾分布是不可忽视的致命问题，必须通过灵活的损失函数加以解决。
对后续研究的启发：
1. 特征层面：可以探索将VMD的分解过程也纳入神经网络的可微计算图（如采用可学习的小波变换或自适应滤波器组），实现真正的端到端特征提取。
2. 注意力机制：本文“不同深度用不同逻辑的注意力”的思路可推广至其他一维时序或频谱信号处理（如心电图、机械故障诊断），设计时应打破视觉模型的固有偏见。
3. 损失函数：ACBFL这种“带调节旋钮”的损失函数设计思路，可广泛应用于各类存在不同程度数据不平衡的工业检测或医疗影像任务中。

#40

cs.SD

When Vision Speaks for Sound 跨领域

Xiaofei Wen, Wenjie Jacky Mo, Xingyu Fu, Rui Cai, Tinghui Zhu 等 (9 人)

Computer Vision and Pattern Recognition (cs.CV); Sound (cs.SD)

Comments: 24 pages, 10 figures

📄 Abstract 📥 PDF

查看摘要

Despite rapid progress in video-capable MLLMs, we find that their apparent audio understanding in videos is often vision-driven: models rely on visual cues to infer or hallucinate acoustic information, rather than verifying the audio stream. This issue appears across both state-of-the-art open-source omni models and leading closed-source models from providers such as Google and OpenAI. We characterize this failure mode as an audio-visual Clever Hans effect, in which models appear (falsely) audio-grounded, but actually exploit visual-acoustic correlations without verifying whether the audio and visual streams are truly aligned. To systematically study this behavior, we introduce Thud, an intervention-driven probing framework based on three counterfactual audio edits: Shift, which tests temporal synchronization; Mute, which tests sound existence; and Swap, which tests audio-visual consistency. Beyond diagnosis, we further study a two-stage alignment recipe: intervention-derived preference pairs teach audio verification, while event-level general video preferences regularize the model against over-specialization. Our best 10K-sample recipe improves average performance across the three intervention dimensions by 28 percentage points, while slightly improving performance on general video and audio-visual QA benchmarks.

📖 深度解读

1. 一句话总结

这篇论文揭露了当前视频多模态大模型存在“聪明的汉斯”效应（即靠视觉猜声音而非真听声音），并提出了反事实干预诊断框架THUD及两阶段对齐训练方法，有效治愈了模型的“视觉捷径”依赖。

2. 研究背景与动机

核心问题：当前视频多模态大模型在处理音视频任务时，是真的在“听”音频，还是仅仅根据画面“猜”出了声音？
重要性：如果模型只是依靠视觉-声学的天然相关性（如看到狗叫就输出狗叫声）来作弊，那么在音频缺失、错位或不匹配的复杂现实场景中，模型会产生严重的幻觉，导致系统不可靠。
现有方法不足：现有的音视频评测基准大多使用自然对齐的视频（视觉和听觉天然一致），这种评测掩盖了模型的捷径行为。模型只要“看图说话”就能拿高分，导致其音视频真实验证能力被严重高估。

3. 核心方法

提出框架：论文提出了THUD（Temporal and Hallucination Unmasking Diagnostics）诊断框架，以及一套基于干预数据的两阶段对齐训练方案。
关键创新点：
1. 定义音视频版“聪明的汉斯”效应：首次系统性地揭露并定义了视频大模型利用视觉先验伪造音频理解的现象。
2. 三大反事实干预策略：打破自然音视频相关性，构建受控测试环境：
- Shift（位移）：音频前后平移，测试模型能否察觉时间不同步；
- Mute（静音）：音频替换为静音，测试模型是否会“脑补”出声音；
- Swap（替换）：音频替换为无关视频的音轨，测试模型能否发现声画不一致。
  3. 干预驱动的偏好对齐：将反事实干预转化为“chosen-rejected”偏好对（拒绝视觉捷径回答，选择真实验证音频的回答），结合通用视频数据防止能力退化。
核心思路直觉解释：就像检验一个自称有听力的人是否真在听，还是只靠看别人嘴型猜——你只需要把视频静音，或者把声音延迟播放。如果他还在说“听到了巨大的撞击声”，那他肯定是在作弊。论文不仅用这种“拆穿法”测出了模型作弊，还专门用这些“作弊被抓的错题”去微调模型，逼它学会真正去听。

4. 实验与结果

使用数据集：
诊断/干预数据：基于Oops数据集（包含大量意外碰撞等高声学显著性事件）构建的THUD干预集。
通用视频数据：FineVideo、LLaVA-Video。
评测基准：Video-MME, LVBench, DailyOmni, WorldSense（通用能力）；VGGSoundSync（域外时间同步测试）。
对比基线方法：Gemini-3.1-Pro, GPT-5.5(仅视觉), MiMo-V2.5, Qwen3-Omni, MiniCPM-o-4.5等主流开源/闭源全模态模型。
主要实验结果：
诊断结果触目惊心：现有模型严重依赖视觉捷径。例如Qwen3-Omni在自然视频上时间同步准确率100%，但在Shift干预下暴跌至1.4%；在Mute（静音）测试中，模型大量“脑补”出根本不存在的声音。
对齐训练效果显著：论文提出的10K样本最佳配方，在三个干预维度上平均提升了28个百分点。
无对齐税：该方法在提升音视频真实验证能力的同时，通用视频理解基准平均准确率从51.3%提升至63.3%，未出现能力退化。
消融实验揭示：
仅用SFT微调会导致模型对干预数据过拟合，严重损害通用能力；必须结合DPO偏好优化才能保持通用性。
时间同步、声音存在性、声音一致性是三种不同的失败模式，仅用时间干预数据训练无法自动解决静音和替换问题，需要针对性的监督信号。

5. 优势与局限

主要优势：
1. 视角深刻，直击痛点：精准识别出多模态模型“看图听音”的伪对齐现象，对领域认知有重要推进。
2. 诊断方法巧妙：通过简单且物理意义明确的反事实干预，让原本隐性的模型缺陷变得完全可量化。
3. 训练策略高效且无害：仅需10K干预数据即可大幅纠正捷径依赖，且不牺牲通用能力。
局限性：
1. 干预粒度较粗：目前的Swap替换是整体音轨替换，现实中的音视频不一致可能更细微（如画面里有人在弹钢琴，但音频是弹错了一个音）。
2. 数据构建成本：高质量的干预数据需要多模型交叉验证和人工审核，流程相对复杂，限制了数据规模。
3. 模型架构未改动：当前方法仅停留在后训练对齐层面，未从模型底层架构（如更细粒度的音视频特征融合机制）解决视觉主导的问题。

6. 关键结论与启发

最重要的Takeaway：当前最前沿的视频大模型在音视频理解上存在严重的“视觉捷径”依赖，它们表现出的听觉能力往往是视觉推断出的幻觉；必须通过打破自然相关性的反事实测试才能衡量其真实水平。
对后续研究的启发：
1. 评测范式转变：未来的音视频多模态评测不应再局限于自然对齐数据，必须引入反事实和对抗性测试作为标准配置。
2. 数据构建方向：从“自然采集”转向“干预生成”，通过可控的扰动构建更具挑战性的偏好对齐数据，是提升模型真实感知能力的有效路径。
3. 细粒度建模延伸：可以沿着此思路，探索更细粒度的音视频一致性（如空间位置一致性、语义因果一致性）的干预与对齐方法。

#41

cs.SD

Radial-Component Predominant-Mode Inversion of Rayleigh Waves: Application to DAS-based Site Characterization 跨领域

Mrinal Bhaumik, Brady R. Cox

Geophysics (physics.geo-ph); Sound (cs.SD)

📄 Abstract 📥 PDF

查看摘要

Distributed Acoustic Sensing (DAS) has emerged as a transformative technology for near-surface site characterization. When a vertical source is activated along the fiber, DAS measures only the in-line (radial) component of Rayleigh-wave motion. Dispersion data extracted from radial-component waveforms may differ from those obtained from vertical-component measurements, particularly under complex stratigraphic conditions. Hence, a component-consistent forward problem is desired when inverting radial-component DAS dispersion data to retrieve accurate shear wave velocity (Vs) profiles. This study presents a radial-component predominant-mode (RCPM) inversion framework designed for DAS-based surface-wave analysis that explicitly accounts for source-receiver directivity and modal sensitivity of the Rayleigh-wave radial component. The proposed approach matches measured dominant radial dispersion trends with the theoretical mode exhibiting the maximum modal participation. As a result, the RCPM framework eliminates the need for explicit modal indexing, provides a component-consistent interpretation of radial-component dispersion data, and substantially reduces reliance on subjective analyst-driven modal interpretations. The RCPM approach is systematically evaluated using three synthetic ground models and two field DAS datasets. The synthetic results demonstrate that modal energy distribution differs significantly between vertical and radial components in the presence of strong velocity contrasts and velocity reversals, and that conventional inversion approaches may misinterpret modal behavior, resulting in less accurate Vs profiles. In contrast, the RCPM method consistently captures the correct modal response and yields reliable Vs profiles. Application to two field DAS datasets further demonstrates good agreement between the inverted Vs profiles and independent invasive borehole measurements.

📖 深度解读

1. 一句话总结

本文提出了一种专门针对分布式声波传感（DAS）径向分量数据的瑞雷波“径向分量主频模态（RCPM）”反演框架，通过在正演中自动匹配能量最大的模态，解决了传统反演方法因模态识别错误或主观人为干预导致的剪切波速（$V_s$）剖面不准确的问题。

2. 研究背景与动机

核心问题：如何准确反演DAS提取的瑞雷波频散数据，以获取可靠的地下剪切波速（$V_s$）剖面。
重要性：DAS技术能够利用光纤实现千米级密集空间采样，在近地表场地特征刻画中极具潜力；准确的$V_s$剖面对于工程地质和地震灾害评估至关重要。
现有方法不足：
1. 分量不一致：DAS对轴向应变敏感，主要记录瑞雷波的径向分量；而传统面波方法（如MASW）主要基于垂直分量。由于瑞雷波椭圆偏振特性，径向和垂直分量的模态能量分布差异巨大，用传统的垂直分量正演模型去拟合径向分量数据会导致偏差。
2. 模态识别主观且易错：在复杂地层（如低速夹层、高速夹层）中，径向分量的模态能量常发生非顺序跳转（如从基阶直接跳到高阶，跳过中间模态）。传统多模态反演（CMM）依赖人工识别模态分支，极易误判；而仅依赖最小化频散残差自动分配模态，又可能产生物理上不合理的多解。

3. 核心方法

提出方法：径向分量主频模态反演框架。
关键创新点：
1. 分量一致的正演建模：针对垂直激震源-径向接收（V-R）配置，推导了径向分量模态参与幅值的计算方法，确保正演物理过程与DAS实际测量一致。
2. 基于能量主导的自动模态匹配：定义“主频模态”为每个频率下理论模态幅值最大的模态，反演时直接将实测频散数据与理论主频模态曲线拟合，彻底免除了人工模态标定（模态索引）。
3. 规避模态跳变歧义：天然适应复杂地层中能量非顺序转移的现象，无需主观判断频散图像上的不连续点属于哪一阶模态。
核心思路直觉解释：
传统方法像是在一张模糊的频散图上“连连看”，人工决定哪个点属于哪条理论模态线，一旦地层复杂（线乱跳），人眼极易连错；而RCPM方法则像是一个“智能磁铁”，它在每个频率下只吸住理论能量最亮（幅值最大）的那条模态线，然后用这条最亮的线去贴合实测数据。这样既符合物理直觉（测到的通常是能量最强的），又省去了人工连线的麻烦和错误。

4. 实验与结果

数据集/基准：
合成数据：3个典型地质模型（速度递增、含低速夹层LVL、含高速夹层HVL）。
实地数据：2个DAS场地（Site A: 德州Austin硬土/页岩；Site B: 加州Sacramento含厚层软泥炭土）。
对比基线：传统多模态反演（CMM），包含多种人工模态解释方案。
主要实验结果：
合成数据：在LVL和HVL模型中，CMM因模态误判导致反演的$V_s$剖面严重失真（如低估半空间速度、错判地层界面）；而RCPM在所有模型中均稳定恢复真实$V_s$剖面，且反演结果的$V_s$误差（$m_{Vs}$）显著低于CMM的最优解。
实地数据：
- Site A：RCPM反演揭示的约13.5-15m深处强波阻抗界面，与钻孔揭示的页岩层深度高度吻合；且发现高频数据实际对应R2模态（传统方法常误认为R1）。
- Site B：RCPM成功反演出极低波速（约18 m/s）的厚层泥炭土（深达8m），与钻孔岩性记录一致，并在1.5Hz处自动纠正了可能被误认为高阶模态的低频基阶数据。
消融实验揭示：通过对比CMM的不同人工解释情景，发现CMM的频散拟合误差（$m_d$）与$V_s$误差（$m_{Vs}$）常常脱节——拟合最好的模型未必是地下最真实的模型；而RCPM由于物理机制一致，拟合优度与模型准确度高度统一。

5. 优势与局限

主要优势：
1. 物理一致性：首次在反演正演中严格考虑了DAS径向分量的模态能量分布特征，消除了分量不匹配带来的系统性误差。
2. 客观稳健：消除了模态人工标定这一高度主观且易错的环节，特别是在模态非顺序跳转的复杂地层中，反演结果更稳定、物理意义更明确。
3. 实用性强：不需要像“有效模态”那样依赖震源位置和排列几何信息，简化了实际应用流程。
局限性：
1. 震源假设单一：目前仅推导了垂直激震源（V-R）配置的公式，未涵盖水平激震源或斜交激震源的情况。
2. 被动源方向性未完全解决：对于线性DAS阵列提取的被动源面波数据，若噪声波并非沿光纤方向传播，可能引入视速度误差，当前框架对此处理有限。
3. 实地验证深度受限：现场验证主要依赖CPT和钻孔记录，但CPT深度较浅（如Site A仅9.15m），深部$V_s$缺乏直接的孔内测井数据定量验证。

6. 关键结论与启发

最重要的Takeaway：DAS测量的瑞雷波径向分量频散特征与传统的垂直分量有本质区别，必须采用“分量一致”的反演策略；基于模态能量主导的RCPM框架能自动、客观、准确地解码DAS频散数据，是释放DAS近地表探测潜力的关键。
后续启发与延伸方向：
1. 扩展源-检配置：将RCPM框架推广至水平激震源、斜交激震源以及更复杂的2D/3D观测系统。
2. 融合多分量数据：未来可探索DAS径向分量与传统地震仪垂直分量的联合反演，利用两者模态敏感性的差异进一步约束地下结构。
3. 改进被动源处理：结合阵列信号处理技术，解决线性DAS阵列对被动源噪声方向性敏感的问题，提升深层$V_s$的探测精度。

#42

cs.SD

Omni-Customizer: End-to-End MultiModal Customization for Joint Audio-Video Generation 跨领域

Yuheng Chen, Qingdong He, Teng Hu, Yuji Wang, Yabiao Wang 等 (7 人)

Computer Vision and Pattern Recognition (cs.CV); Multimedia (cs.MM); Sound (cs.SD)

📄 Abstract 📥 PDF

查看摘要

The landscape of joint audio and video generation has been fundamentally transformed by the advent of powerful foundation models. Despite these strides, achieving cohesive multimodal customization for the simultaneous preservation of visual identities and vocal timbres across multiple interacting subjects remains largely underexplored. To bridge this gap, we present Omni-Customizer, an end-to-end framework targeted at the precise binding and seamless fusion of multimodal identity information. Specifically, we introduce an Omni-Context Fusion (OCF) module that effectively enriches the base textual prompt with dense, multimodal identity cues, along with a Masked TTS Cross-Attention (MTP-CA) mechanism explicitly designed to prevent the severe "speech leakage" problem. Within this architecture, we propose Semantic-Anchored Multimodal RoPE (SA-MRoPE) to anchor visual and audio reference tokens, along with TTS embeddings, to their corresponding semantic descriptions, enabling structured multimodal fusion and robust identity binding. Furthermore, we devise a comprehensive training strategy that incorporates interleaved audio-video scheduling to rapidly adapt the audio branch to multilingual scenarios without degrading foundational priors, and a progressive in-pair to cross-pair curriculum to facilitate the learning of high-level and robust identity features. Extensive experiments demonstrate that Omni-Customizer achieves state-of-the-art performance in dual-modal customized generation, excelling across visual identity similarity, timbre consistency, precise audio-video synchronization, and overall video-audio fidelity.

📖 深度解读

1. 一句话总结

本文提出了Omni-Customizer，一个端到端的多模态定制框架，通过精准的语义锚定和掩码交叉注意力机制，解决了联合音视频生成中多主体视觉与声音身份混淆、以及非语音文本被错误发声的难题。

2. 研究背景与动机

核心问题：在联合音视频生成任务中，如何实现多主体（多人互动）场景下视觉身份（人脸）和声音身份（音色）的精准绑定与同步生成。
重要性：随着基础生成模型的爆发，单纯的文本生成视频/音频已不能满足需求，高质量的“数字人”互动、多角色配音等复杂真实场景亟需模型具备多模态身份定制能力。
现有方法不足：
1. 单模态或级联方法：视频定制和音频驱动模型很成熟，但扩展到音视频联合生成需要大改架构，且难以实现深层跨模态对齐。
2. 身份绑定脆弱：现有的联合定制模型（如DreamID-Omni）使用的位置编码机制容易受位置偏移影响，导致多主体身份张冠李戴（身份混淆）。
3. “字幕发声”异常：基于Ovi等开源骨干的模型，其音频生成塔常会把文本提示词中的非语音描述（如“一个穿红衣服的男人”）错误地朗读出来。
4. 音频分支优化难：音频VAE重建能力有限，且训练数据语言分布不均，直接联合训练会导致音频分支优化不足，破坏原有的唇音同步能力。

3. 核心方法

论文提出了Omni-Customizer框架，基于双流DiT架构，核心创新如下：
- Omni-Context Fusion (OCF) 全上下文融合模块：将文本、参考图像、参考音频和TTS音素特征拼接成统一序列，通过专门的Transformer块进行深度跨模态交互，让文本特征“浸润”多模态身份信息，从而指导后续生成。
- Semantic-Anchored Multimodal RoPE (SA-MRoPE) 语义锚定多模态旋转位置编码：（核心创新） 不同于以往随意分配位置偏移，该方法将参考图像和音频的Token直接“锚定”到文本提示词中对应的主体描述之后（例如，的图像和音频Token紧跟在描述的文本Token后面），并在3D位置空间中赋予特定坐标。这就像给每个角色的视觉和声音档案贴上了与文本角色名强绑定的专属坐标标签，彻底解决多主体身份混淆。
- Masked TTS Cross-Attention (MTP-CA) 掩码TTS交叉注意力：为了解决“字幕发声”问题，采用硬门控机制，只允许和标记范围内的语音文本接收TTS音素注入，非对话区域的文本被严格屏蔽，确保模型只“念台词”，不“念旁白”。
- 交错模态解耦训练与渐进式课程学习：
- 交错训练：交替进行“音视频联合步”和“纯音频TTS步”，在纯音频步中冻结跨模态梯度，既扩大了音频批处理大小以中和VAE误差，又快速习得多语言能力而不破坏原有的唇音同步先验。
- 渐进式课程：从简单的单人配对训练起步，逐步过渡到多人跨对解耦训练，强制模型学习高级抽象的身份特征，避免模型走“复制粘贴”的捷径。

4. 实验与结果

数据集/基准：构建了包含300个测试用例的OC-Bench基准，涵盖单人定制、双人对话绑定、复杂多人多语言场景三个难度递增的子集。

基线方法：对比了4类范式，包括视频定制（Phantom, VACE）、音频驱动视频（Humo, SkyReel-A2等）、级联式联合生成（Qwen-Image+Ovi/LTX2.3）以及端到端联合定制。

主要结果：Omni-Customizer在核心指标上取得SOTA。面部相似度达到0.812，音色相似度达到0.514（均为最高）；唇音同步指标Sync-D降至7.821（越低越好）；音频词错率WER降至0.152。在复杂的多主体场景下，优势尤为明显。

消融实验揭示：

缺少OCF和SA-MRoPE会导致严重的空间时间对齐失败，出现两人同时说话的身份混淆。

缺少MTP-CA会导致模型把描述性标签和物理特征朗读出来（字幕发声异常）。

缺少渐进式课程学习会导致面部生成扭曲僵硬。

5. 优势与局限

主要优势：
1. 精准的多模态身份绑定：SA-MRoPE从位置编码的底层逻辑上解决了多主体视觉与声音的错位问题。
2. 根除“字幕发声”顽疾：MTP-CA的硬掩码机制简单粗暴但极其有效，保证了对话的纯净度。
3. 训练策略巧妙：交错训练在不损害原有跨模态对齐的前提下，极大提升了音频分支的多语言适应力。

局限性：
1. 分辨率与时长受限：当前生成仅限于720P分辨率和10秒时长，难以维持长视频中的长期身份一致性。
2. 架构与数据瓶颈：向更高分辨率和更长序列扩展时，对模型架构和数据处理流水线提出了极大挑战（论文未展示相关突破）。

6. 关键结论与启发

关键 Takeaway：在多模态联合生成中，不同模态的Token不能一锅炖，必须通过结构化的位置编码（如SA-MRoPE）将其与语义文本强锚定；同时，对于生成内容中的特定区间（如语音区），必须采用硬约束（如MTP-CA）而非软提示来防止特征泄漏。

后续启发：
1. 位置编码的语义化设计：未来在处理更多模态（如深度、法线、触觉）融合时，将其Token锚定到对应语义实体的思路可被广泛借鉴。
2. 长视频身份一致性：如何突破当前10秒/720P的物理限制，设计适应长序列的身份保持机制，是该领域下一个亟待攻克的堡垒。
3. 解耦训练的泛化：交错模态解耦训练策略（冻结部分梯度以保护先验，扩大单模态batch以修正偏差）可推广至其他存在模态优化不平衡的多模态大模型训练中。

The integration of audio modality into Large Audio Language Models (LALMs) significantly expands their attack surface. Existing jailbreak paradigms predominantly treat audio as a carrier for malicious payloads, relying on semantic optimization, acoustic parameter control, or additive perturbation to embed harmful content into the audio signal. In this work, we challenge this necessity and propose a new paradigm in which the role of audio shifts from content injection to safety alignment interference. We reveal that LALM safety alignment can be compromised solely by specific Acoustic Latent Semantics (ALS), the underlying paralinguistic features intrinsic to the priors of audio generative models. Distinct from previous works that leverage explicit acoustic parameters to merely style malicious audio, we demonstrate that interference audio, benign in content but infused with specific ALS, can serve as a universal jailbreak trigger. Leveraging this insight, we propose the Acoustic Interference Attack (AIA), which decouples the attack payload from the audio. Specifically, AIA employs a set of universal, instruction-neutral interference audio, enabling standard malicious text queries to bypass safety alignment without instance-specific optimization. Extensive experiments on 10 LALMs across five datasets demonstrate that AIA achieves the state-of-the-art attack success rate. Furthermore, our interpretability analysis uncovers the inference path drift induced by AIA and identifies the inherent effective patterns within ALS, revealing the fundamental vulnerability of cross-modal alignment in LALMs.

Recent neural audio codecs have achieved impressive reconstruction quality, typically relying on quantization methods such as Residual Vector Quantization (RVQ), Vector Quantization (VQ) and Finite Scalar Quantization (FSQ). However, these quantization techniques limit the geometric structure of the latent space, make it harder to capture correlations between features leading to inefficiency in representation learning, codebook utilization and token rate. In this paper we introduce Two-Dimensional Quantization (Q2D2), a quantization scheme in which feature pairs are projected onto structured 2D grids, such as hexagonal, rhombic, or rectangular tiling and quantized to the nearest grid values, yielding an implicit codebook defined by the product of grid levels, with codebook sizes comparable to conventional methods. Despite its simple geometric formulation, Q2D2 improves audio compression efficiency, with low token rates and high codebook utilization while maintaining state of the art reconstruction quality. Specifically, Q2D2 achieves competitive to superior performance in various objective and subjective reconstruction metrics, across extensive experiments in speech, audio and music domains compared to state of the art models. Comprehensive ablation studies further confirm the effectiveness of our design choices.

Text-to-audio-video (T2AV) generation is central to applications such as filmmaking and world modeling. However, current models often fail to produce physically plausible sounds. Previous benchmarks primarily focus on audio-video temporal synchronization, while largely overlooking explicit evaluation of audio-physics grounding, thereby limiting the study of physically plausible audio-visual generation. To address this issue, we present PhyAVBench, the first benchmark that systematically evaluates the audio-physics grounding capabilities of T2AV, image-to-audio-video (I2AV), and video-to-audio (V2A) models. PhyAVBench offers PhyAV-Sound-11K, a new dataset of 25.5 hours of 11,605 audible videos collected from 184 participants to ensure diversity and avoid data leakage. It contains 337 paired-prompt groups with controlled physical variations that drive sound differences, each grounded with an average of 17 videos and spanning 6 audio-physics dimensions and 41 fine-grained test points. Each prompt pair is annotated with the physical factors underlying their acoustic differences. Importantly, PhyAVBench leverages paired text prompts to evaluate this capability. We term this evaluation paradigm the Audio-Physics Sensitivity Test (APST) and introduce a novel metric, the Contrastive Physical Response Score (CPRS), which quantifies the acoustic consistency between generated videos and their real-world counterparts. We conduct a comprehensive evaluation of 17 state-of-the-art models. Our results reveal that even leading commercial models struggle with fundamental audio-physical phenomena, exposing a critical gap beyond audio-visual synchronization and pointing to future research directions. We hope PhyAVBench will serve as a foundation for advancing physically grounded audio-visual generation. Prompts, ground-truth, and generated video samples are available at this https URL .