arXiv 每日论文精读 — eess.AS / cs.SD

eess.AS

Qwen3.5-Omni Technical Report

Qwen Team

Computation and Language (cs.CL); Audio and Speech Processing (eess.AS)

📄 Abstract 📥 PDF

查看摘要

In this work, we present Qwen3.5-Omni, the latest advancement in the Qwen-Omni model family. Representing a significant evolution over its predecessor, Qwen3.5-Omni scales to hundreds of billions of parameters and supports a 256k context length. By leveraging a massive dataset comprising heterogeneous text-vision pairs and over 100 million hours of audio-visual content, the model demonstrates robust omni-modality capabilities. Qwen3.5-Omni-plus achieves SOTA results across 215 audio and audio-visual understanding, reasoning, and interaction subtasks and benchmarks, surpassing Gemini-3.1 Pro in key audio tasks and matching it in comprehensive audio-visual understanding. Architecturally, Qwen3.5-Omni employs a Hybrid Attention Mixture-of-Experts (MoE) framework for both Thinker and Talker, enabling efficient long-sequence inference. The model facilitates sophisticated interaction, supporting over 10 hours of audio understanding and 400 seconds of 720P video (at 1 FPS). To address the inherent instability and unnaturalness in streaming speech synthesis, often caused by encoding efficiency discrepancies between text and speech tokenizers, we introduce ARIA. ARIA dynamically aligns text and speech units, significantly enhancing the stability and prosody of conversational speech with minimal latency impact. Furthermore, Qwen3.5-Omni expands linguistic boundaries, supporting multilingual understanding and speech generation across 10 languages with human-like emotional nuance. Finally, Qwen3.5-Omni exhibits superior audio-visual grounding capabilities, generating script-level structured captions with precise temporal synchronization and automated scene segmentation. Remarkably, we observed the emergence of a new capability in omnimodal models: directly performing coding based on audio-visual instructions, which we call Audio-Visual Vibe Coding.

📖 深度解读

1. 一句话总结

Qwen3.5-Omni 是一个基于原生全模态训练的大规模模型，通过混合专家 MoE 架构和 ARIA 对齐技术，在保持文本与视觉能力的同时，实现了音频与音视频理解的 SOTA 性能，并支持低延迟、高稳定性的实时语音交互与智能体行为。

2. 研究背景与动机

核心问题：现有的多模态模型大多处于“被动感知-响应”模式，缺乏可扩展的智能体行为、实时交互能力以及跨模态的深度推理能力，且在长上下文处理和流式语音生成的稳定性上存在不足。
重要性：人类与世界的交互本质上是全模态的（视觉、听觉、语言、行动），构建能够像人类一样实时感知、推理并采取行动的 AI 智能体是通向 AGI 的关键一步。
现有不足：前代模型（如 Qwen3-Omni）在处理超长音视频序列时效率较低，且流式语音合成中常因文本与语音 Tokenizer 编码速率不匹配导致语音不稳定（如漏词、发音错误）。

3. 核心方法

方法/模型：Qwen3.5-Omni，采用 Thinker-Talker 双架构，并引入 Hybrid Attention Mixture-of-Experts (MoE) 框架。
关键创新点：
1. ARIA (Adaptive Rate Interleave Alignment)：一种动态对齐文本与语音单元的技术，解决了流式生成中因编码速率差异导致的语音不稳定问题。
2. Hybrid MoE 架构：在 Thinker（负责文本推理）和 Talker（负责语音生成）中均采用混合专家模型，在保持大模型容量的同时显著提升长序列推理效率。
3. 显式时间戳对齐：在音视频输入中引入显式的文本格式时间戳，而非仅依赖稀疏的位置 ID，大幅提升了长序列下的时序感知能力。
4. 原生全模态智能体训练：基于超大规模（超 1 亿小时）的文本-视觉-音频混合数据进行原生训练，赋予模型自主调用工具和根据音视频指令写代码的能力。
核心思路直觉：
模型分为“大脑”和“嘴巴”。Thinker 负责理解输入（文字、图像、声音）并生成文本思维；Talker 则根据 Thinker 的输出生成语音。为了防止“嘴巴”跟不上“大脑”的节奏导致卡顿，ARIA 技术像是一个同步调节器，动态调整文本和语音的生成步调。MoE 架构则让模型像拥有多个专家顾问团一样，处理不同任务时只激活相关专家，从而既聪明又高效。

4. 实验与结果

数据集/基准：涵盖了 215 个音频和音视频理解、推理及交互基准（如 MMAU, VoiceBench, VideoMME, SEED-TTS, Fleurs 等），并与 Gemini-3.1 Pro 等商业模型对比。
基线方法：Gemini-3.1 Pro, CosyVoice 2/3, MiniMax-Speech, ElevenLabs, Qwen3-Omni 等。
主要结果：
- 音频理解：Qwen3.5-Omni-Plus 在多项关键任务上超越了 Gemini-3.1 Pro，例如在 VoiceBench 上达到 93.1（Gemini 为 88.9）。
- 语音生成：在 SEED-TTS 上达到 SOTA（WER 0.99/1.26）；在 29 种语言的语音生成中，在 22 种语言上优于 MiniMax 和 ElevenLabs 等商业 API。
- 多模态兼容性：在文本和视觉任务上，性能与同等规模的纯文本/视觉模型 Qwen3.5 持平，未出现多模态训练导致的性能退化。
消融实验启示：
- 引入 ARIA 后，流式语音的自然度和鲁棒性显著提升，减少了漏词和数字发音错误。
- 三阶段后训练（专家蒸馏 -> 策略蒸馏 -> 交互对齐强化学习）有效缩小了音频输入与文本输入在响应质量上的差距。

5. 优势与局限

优势主要：
1. 全能且不偏科：在音频、音视频领域达到 SOTA 的同时，完美保留了原有的文本和视觉强项。
2. 极致的交互体验：首包延迟低（音频输入下 Plus 版仅 435ms），支持语义打断、零样本声音克隆和跨语言语音生成。
3. 涌现的智能体能力：不仅能对话，还能根据视频演示直接生成代码（Audio-Visual Vibe Coding），具备原生工具调用能力。
局限性：
1. 部署成本高：模型参数量达数千亿级别，虽然 MoE 提升了效率，但对硬件资源要求依然极高。
2. 数据门槛极高：依赖于超大规模（亿小时级）的高质量音视频预训练数据，复现难度大。
3. 长上下文权衡：虽然支持 256k 上下文，但在极高并发下，长视频处理的延迟仍会有所增加。

6. 关键结论与启发

最重要的 Takeaway：通过原生全模态训练和架构创新（如 ARIA、MoE），可以构建出一个既能深度理解世界又能实时流畅交互的统一 AI 智能体，且不需要牺牲单一模态的能力。
启发与延伸：
- 流式多模态对齐：ARIA 机制为解决不同模态 Tokenizer 速率不匹配问题提供了新思路，可应用于其他多模态生成场景。
- 具身智能的前奏：“Audio-Visual Vibe Coding”表明模型已经具备了通过观察和听觉来学习操作步骤的能力，这对未来的机器人控制和人机协作研究具有重要参考价值。
- 端到端语音交互：未来的语音助手将不再依赖 ASR（语音转文字）+ TTS（文字转语音）的级联 pipeline，而是走向端到端的原生音频大模型。

eess.AScs.SD

ArtifactNet: Detecting AI-Generated Music via Forensic Residual Physics 跨领域

Heewon Oh

Sound (cs.SD); Audio and Speech Processing (eess.AS)

📄 Abstract 📥 PDF

查看摘要

We present ArtifactNet, a lightweight framework that detects AI-generated music by reframing the problem as forensic physics -- extracting and analyzing the physical artifacts that neural audio codecs inevitably imprint on generated audio. A bounded-mask UNet (ArtifactUNet, 3.6M parameters) extracts codec residuals from magnitude spectrograms, which are then decomposed via HPSS into 7-channel forensic features for classification by a compact CNN (0.4M parameters; 4.0M total). We introduce ArtifactBench, a multi-generator evaluation benchmark comprising 6,183 tracks (4,383 AI from 22 generators and 1,800 real from 6 diverse sources). Each track is tagged with bench_origin for fair zero-shot evaluation. On the unseen test partition (n=2,263), ArtifactNet achieves F1 = 0.9829 with FPR = 1.49%, compared to CLAM (F1 = 0.7576, FPR = 69.26%) and SpecTTTra (F1 = 0.7713, FPR = 19.43%) evaluated under identical conditions with published checkpoints. Codec-aware training (4-way WAV/MP3/AAC/Opus augmentation) further reduces cross-codec probability drift by 83% (Delta = 0.95 -> 0.16), resolving the primary codec-invariance failure mode. These results establish forensic physics -- direct extraction of codec-level artifacts -- as a more generalizable and parameter-efficient paradigm for AI music detection than representation learning, using 49x fewer parameters than CLAM and 4.8x fewer than SpecTTTra.

📖 深度解读

1. 一句话总结

这篇论文提出了 ArtifactNet，一种轻量级框架，通过提取和分析神经音频编码器在生成音乐时留下的不可逆“物理残差”痕迹，实现了对未见过的 AI 音乐生成器的高精度检测。

2. 研究背景与动机

核心问题：现有的 AI 音乐检测方法在面对训练集中未见过的全新生成器时，性能会急剧下降（泛化能力差）。
重要性：随着流媒体平台上 AI 生成音乐的爆发（如 Suno, Udio 等），迫切需要一种不依赖于特定生成器风格的通用检测手段。
现有方法不足：
- 表征学习：学习的是 AI 音乐“听起来像什么”（风格），一旦生成风格改变，模型就会失效。
- 自编码器指纹：过于依赖特定的编解码器结构，难以适应多样化的生成架构。
- 共性问题：现有方法容易受到音频压缩格式（如 MP3）的干扰，且无法解释检测的物理依据。

3. 核心方法

方法/模型：ArtifactNet，一个包含三个阶段的轻量级（仅 400 万参数）流水线：
1. ArtifactUNet：通过有界掩码预测提取音频的频谱残差。
2. HPSS 特征分解：利用谐波/打击乐源分离技术将残差分解为 7 通道特征。
3. CNN 分类器：基于上述特征进行二分类判断。
关键创新点：
1. 法医物理学视角：将检测问题重构为寻找“残差矢量量化（RVQ）”留下的物理痕迹，而非匹配表面模式。
2. 有界掩码 UNet：限制掩码范围在 [0, 0.5]，防止模型“偷懒”直接通过原始信号，强制其学习残差结构。
3. 编解码器感知训练：在训练时混入 WAV/MP3/AAC/Opus 四种格式，消除压缩格式对检测结果的干扰。
4. ArtifactBench 基准：构建了一个包含 22 种生成器和 6 种真实音源的大规模数据集，用于公平的零样本评估。
核心思路直觉：
所有的商业 AI 音乐生成器为了压缩和传输，都必须使用一种叫“残差矢量量化（RVQ）”的技术将连续信号变成离散代码。这个过程是有损的，就像把高清图片压缩成马赛克再放大，必然会丢失信息。论文利用一个专门在人类音乐上训练的源分离模型（Demucs）去“检查”音频，如果遇到 AI 音乐，由于 RVQ 造成的物理缺陷，源分离模型会产生异常大的“残差”（无法完美分离的部分）。ArtifactNet 就是专门捕捉这种异常残差的“法医显微镜”。

4. 实验与结果

数据集/基准：ArtifactBench（包含 6,183 首曲目，涵盖 22 种 AI 生成器和 6 种真实音乐来源）。
对比基线：CLAM（1.94 亿参数，基于大模型表征学习）和 SpecTTTra（1900 万参数，基于时域建模）。
主要结果：
- 在未见过的测试集上，ArtifactNet 达到了 F1 = 0.9829，虚警率（FPR）仅为 1.49%。
- 相比之下，CLAM (F1=0.7576) 和 SpecTTTra (F1=0.7713) 性能大幅下滑。
- 参数效率极高：ArtifactNet 仅用了 CLAM 1/49 的参数量，却取得了更好的效果。
消融实验揭示：
- 物理证据：AI 音乐的残差有效带宽仅为 291 Hz，而人类音乐高达 1996 Hz，证实了检测基于物理差异。
- 编解码器鲁棒性：如果不使用“编解码器感知训练”，MP3 压缩会让真实音乐被误判为 AI（FPR 高达 98.7%）；使用该技术后，跨编解码器的概率漂移减少了 83%。

5. 优势与局限

主要优势：
1. 泛化能力强：针对生成机制的物理缺陷（RVQ）进行检测，因此对未见过的生成器效果依然很好。
2. 轻量高效：模型极小（4.0M 参数），甚至可以在端侧设备运行。
3. 抗压缩干扰：通过特殊训练策略，有效抵抗了 MP3、AAC 等常见压缩格式带来的误判。
局限性：
1. 带宽要求：需要 44.1kHz 的全带宽音频，低采样率（如 16kHz）会削弱检测信号。
2. 对抗性攻击：虽然有一定抵抗力，但针对性的“清洗”攻击（如通过源分离模型处理音频）仍会略微降低检测精度。
3. 最新生成器：对最新版本的 Udio 等生成器检测率略低（87%），说明随着技术进步，痕迹在变淡。

6. 关键结论与启发

最重要的 Takeaway：
检测 AI 生成的最佳方式不是学习它“听起来像什么”，而是检测它“缺少什么物理成分”。只要生成器使用神经编解码器，这种不可逆的信息损失就是无法掩盖的“指纹”。
启发与延伸方向：
1. 从“风格”转向“物理”：未来的生成内容检测应更多关注底层的生成机制约束，而非表层特征。
2. 军备竞赛升级：攻击者可能会尝试通过后处理（如重采样、源分离清洗）来消除这些残差，防御者则需要研究更深层的信息论特征。
3. 跨模态应用：这种“寻找生成过程物理瑕疵”的思路可能可以迁移到 AI 图像或视频检测中。

eess.AS

XLSR-MamBo: Scaling the Hybrid Mamba-Attention Backbone for Audio Deepfake Detection

Kwok-Ho Ng, Tingting Song, Yongdong Wu, Zhihua Xia

Audio and Speech Processing (eess.AS)

📄 Abstract 📥 PDF

查看摘要

Advanced speech synthesis technologies have enabled highly realistic speech generation, posing security risks that motivate research into audio deepfake detection (ADD). While state space models (SSMs) offer linear complexity, pure causal SSMs architectures often struggle with the content-based retrieval required to capture global frequency-domain artifacts. To address this, we explore the scaling properties of hybrid architectures by proposing XLSR-MamBo, a modular framework integrating an XLSR front-end with synergistic Mamba-Attention backbones. We systematically evaluate four topological designs using advanced SSM variants, Mamba, Mamba2, Hydra, and Gated DeltaNet. Experimental results demonstrate that the MamBo-3-Hydra-N3 configuration achieves competitive performance compared to other state-of-the-art systems on the ASVspoof 2021 LA, DF, and In-the-Wild benchmarks. This performance benefits from Hydra's native bidirectional modeling, which captures holistic temporal dependencies more efficiently than the heuristic dual-branch strategies employed in prior works. Furthermore, evaluations on the DFADD dataset demonstrate robust generalization to unseen diffusion- and flow-matching-based synthesis methods. Crucially, our analysis reveals that scaling backbone depth effectively mitigates the performance variance and instability observed in shallower models. These results demonstrate the hybrid framework's ability to capture artifacts in spoofed speech signals, providing an effective method for ADD.

📖 深度解读

1. 一句话总结

这篇论文提出了XLSR-MamBo框架，通过结合XLSR前端特征提取器和混合Mamba-Attention后端骨干网络，在保持线性计算复杂度的同时有效提升了音频深度伪造检测的性能，并发现增加模型深度能显著提高推理的稳定性。

2. 研究背景与动机

核心问题：如何高效且准确地检测日益逼真的音频深度伪造（Audio Deepfake Detection, ADD），特别是针对利用先进扩散模型和流匹配模型生成的伪造语音。
重要性：随着生成式AI的发展，逼真的伪造语音对信息安全（如虚假信息传播）和生物识别系统（如语音认证）构成了严重威胁。
现有方法不足：
- Transformer：虽然性能强大，但计算复杂度呈二次方增长，处理长序列效率低。
- 纯SSM（如Mamba）：虽然具有线性复杂度，但在捕捉基于内容的全局检索（如全局频域伪影）方面存在短板；且现有工作常依赖人工设计的“双分支”策略来实现双向处理，这种方式存在结构冗余，且忽略了SSM（擅长时序压缩）与Attention（擅长全局检索）机制的互补性。

3. 核心方法

方法/模型：提出了XLSR-MamBo框架。该框架包含一个预训练的XLSR前端（用于提取跨语言的高层语音特征）和一个模块化的混合SSM-Attention后端。
关键创新点：
1. 混合架构设计：系统探索了四种拓扑结构（MamBo-1至4），将SSM模块与Attention机制在不同模块层级进行融合，以兼顾局部时序建模和全局上下文检索。
2. 引入先进SSM变体：不仅使用了Mamba，还集成了Mamba2、Gated DeltaNet (GDN) 以及具有原生双向建模能力的Hydra。
3. 深度缩放研究：引入堆叠超参数 $N$ 和骨干深度 $L$，系统研究了模型深度对检测性能和稳定性的影响。
核心思路直觉：
- 伪造语音通常包含两类伪影：微妙的局部高频伪影（需要SSM的递归能力捕捉）和全局频谱不一致性（需要Attention的全局检索能力）。
- XLSR-MamBo利用SSM高效压缩局部信息，利用Attention精准关联全局特征。
- 特别地，Hydra通过准可分矩阵实现了原生双向处理，无需像传统方法那样拼接前向和后向分支，从而更高效地捕捉整体时序依赖。

4. 实验与结果

数据集/基准：
- 训练集：ASVspoof 2019 LA。
- 测试集：ASVspoof 2021 LA (逻辑访问)、ASVspoof 2021 DF (深度伪造)、In-the-Wild (真实世界伪造)、DFADD (包含扩散和流匹配生成的高级伪造)。
对比基线：RawBMamba, XLSR-Conformer, XLSR-Conformer+TCM, XLSR-Mamba, Fake-Mamba等。
主要实验结果：
- 最佳配置：MamBo-3-Hydra-N3（交替式Mamba-Transformer层，使用Hydra变体，堆叠深度为3）表现最佳。
- 关键数据：在ASVspoof 2021 LA上EER为 0.81%，在ITW数据集上EER为 4.97%，均优于现有的XLSR-Mamba和Fake-Mamba等SOTA方法。
- 泛化能力：在极具挑战性的DFADD数据集（未见过的扩散模型攻击）上，模型展现了强大的鲁棒性。
消融实验揭示：
- 深度的影响：增加骨干网络的深度（从 $L=5$ 增加到 $L=7$）和SSM的堆叠深度（$N$），能有效缓解浅层模型在不同检查点之间的性能方差和推理不稳定性。
- 架构对比：MamBo-3（交替式）和MamBo-4（高密度混合）通常优于简单的替换结构；Hydra的原生双向建模优于启发式的双向策略。

5. 优势与局限

主要优势：
1. 高效与性能平衡：混合架构利用SSM的线性复杂度和Attention的全局感知能力，在保持计算效率的同时提升了检测精度。
2. 原生双向建模：利用Hydra等变体避免了传统双向SSM的结构冗余，能更有效地捕捉非因果依赖。
3. 鲁棒性强：对未见过的生成算法（如扩散模型）具有良好的泛化能力，且通过增加深度解决了模型不稳定性问题。
局限性：
1. 训练数据单一：仅在ASVspoof 2019 LA上训练，缺乏大规模或多源混合训练的评估，限制了对其可扩展性上限的认知。
2. 语言偏向：主要基于英语数据，虽然XLSR是跨语言预训练的，但下游微调未验证跨语言（特别是声调语言）的鲁棒性。
3. 优化动力学不明：观察到模型在极少Epoch内快速收敛并触发早停，但最低验证损失的检查点未必在未见场景下表现最好，这一现象背后的机制尚不明确。

6. 关键结论与启发

最重要的 Takeaway：混合SSM-Attention架构（特别是结合原生双向SSM如Hydra）是音频深度伪造检测领域替代纯Transformer或纯SSM的有力方案，且增加模型深度是提升推理稳定性的关键策略。
启发与延伸方向：
- 未来研究可以探索多源数据混合训练以进一步提升模型的泛化边界。
- 需要深入研究模型在训练中快速收敛现象的优化动力学，以寻找更鲁棒的检查点选择策略。
- 可以将该混合架构扩展到跨语言场景或其他音频处理任务中。

eess.AS

Discrete Token Modeling for Multi-Stem Music Source Separation with Language Models

Pengbo Lyu, Xiangyu Zhao, Chengwei Liu, Haoyin Yan, Xiaotao Liang 等 (7 人)

Audio and Speech Processing (eess.AS)

📄 Abstract 📥 PDF

查看摘要

We propose a generative framework for multi-track music source separation (MSS) that reformulates the task as conditional discrete token generation. Unlike conventional approaches that directly estimate continuous signals in the time or frequency domain, our method combines a Conformer-based conditional encoder, a dual-path neural audio codec (HCodec), and a decoder-only language model to autoregressively generate audio tokens for four target tracks. The generated tokens are decoded back to waveforms through the codec decoder. Evaluation on the MUSDB18-HQ benchmark shows that our generative approach achieves perceptual quality approaching state-of-the-art discriminative methods, while attaining the highest NISQA score on the vocals track. Ablation studies confirm the effectiveness of the learnable Conformer encoder and the benefit of sequential cross-track generation.

📖 深度解读

1. 一句话总结

这篇论文提出了一种基于生成式语言模型的音乐源分离框架，将分离任务转化为离散Token的自回归生成，实现了接近传统判别式SOTA方法的分离效果，并在人声分离的感知质量上表现优异。

2. 研究背景与动机

核心问题：如何将混合的音频信号精确地分离成多个独立的音轨（如人声、鼓、贝斯、其他乐器）。
重要性：该任务是音乐重混音、卡拉OK生成、音乐转录以及助听辅助等应用的基础。
现有不足：
- 主流方法多为判别式，通过预测频谱掩码或波形来分离，处理高维连续信号存在局限。
- 现有的离散Token方法（如TokenSplit）多用于提取单一目标（如特定说话人），难以同时输出多个分离后的音轨。

3. 核心方法

方法/模型：提出了一种包含三个组件的生成式框架：
1. 条件编码器：基于Conformer，从混合音频中提取特征作为条件。
2. 神经音频编解码器（HCodec）：双路径架构（声学+语义），利用残差向量量化（RVQ）将音频转化为离散Token。
3. 仅解码器的语言模型：基于LLaMA架构，以混合音频特征为条件，自回归地生成各音轨的Token序列。
关键创新点：
1. 将多轨音乐分离重新定义为条件下的离散Token生成任务。
2. 采用交错的方式排列声学Token和语义Token，供语言模型联合建模。
3. 按照固定顺序（人声->鼓->贝斯->其他）依次生成音轨，利用上下文建模音轨间的依赖关系。
核心思路直觉：
传统方法像是从混合果汁中通过“过滤网”（掩码）把果肉和果汁分开；而本文的方法更像是让AI“听”完混合果汁的描述后，凭记忆“写”出每种成分的配方（Token），再通过解码器将这些配方还原成实际的成分。语言模型通过预测下一个Token是什么来完成重建。

4. 实验与结果

数据集/基准：
- 训练集：约23,000小时的内部音乐数据（44.1kHz），使用SOTA模型BS-RoFormer生成伪标签。
- 测试集：MUSDB18-HQ标准基准。
对比基线：HTDemucs（混合时频模型）、BS-RoFormer（频域掩码）、SCNet（稀疏压缩网络）。
主要结果：
- 在ViSQOL（感知质量评分）上，本文方法平均得分3.55，接近SOTA基线（3.71）。
- 在人声轨道上，本文方法的NISQA得分（2.50）最高，超过了所有对比基线。
- 贝斯表现良好，但鼓的表现相对较弱（3.44 vs 基线3.77+）。
消融实验：
- 编码器选择：可学习的Conformer编码器优于冻结的HuBERT特征提取器。
- 生成策略：顺序生成优于并行生成，证明利用前一个音轨的信息有助于分离后更好。

5. 优势与局限

优势：
1. 生成范式：证明了将音频分离视为语言生成任务是可行的，且在人声感知质量上具有优势。
2. 上下文建模：顺序生成机制能够捕捉不同乐器之间的相互依赖关系（如贝斯和鼓的配合）。
3. 离散表示：利用神经音频Codec的高压缩率，在离散空间处理音频，效率更高。
局限：
1. 瞬态信号处理弱：自回归生成的特性导致难以精确建模鼓声等具有尖锐瞬态的信号。
2. 依赖伪标签：训练数据依赖教师模型（BS-RoFormer）生成的标签，性能上限受限于教师模型。
3. 推理速度：自回归逐Token生成的方式推理速度较慢，且RVQ层数多（16层）带来累积误差风险。

6. 关键结论与启发

最重要的 Takeaway：
音乐源分离不一定非要通过传统的回归掩码方式完成，利用大语言模型进行离散Token的自回归生成，同样能达到极具竞争力的感知质量，甚至在某些指标上超越传统方法。
启发与延伸方向：
1. 针对瞬态优化：未来可以设计专门针对鼓声等瞬态信号的Codec或Tokenization方案。
2. 条件扩展：该框架很容易扩展为文本条件分离（例如通过文本描述提取特定乐器）。
3. 评估指标：对于生成式分离任务，由于样本对齐问题，应更多关注ViSQOL等感知指标而非SI-SNR。

eess.AScs.SD

DASB -- Discrete Audio and Speech Benchmark 跨领域

Pooneh Mousavi, Jarod Duret, Darius Petermann, Artem Ploujnikov, Luca Della Libera 等 (8 人)

Sound (cs.SD); Artificial Intelligence (cs.AI); Audio and Speech Processing (eess.AS)

📄 Abstract 📥 PDF

查看摘要

Discrete audio tokens have recently gained considerable attention for their potential to bridge audio and language processing, enabling multimodal language models that can both generate and understand audio. However, preserving key information such as phonetic content, speaker identity, and paralinguistic cues remains a major challenge. Identifying the optimal tokenizer and configuration is further complicated by inconsistent evaluation settings across existing studies. To address this, we introduce the Discrete Audio and Speech Benchmark (DASB), a comprehensive framework for benchmarking discrete audio tokens across speech, general audio, and music domains on a range of discriminative and generative tasks. Our results show that discrete representations are less robust than continuous ones and require careful tuning of factors such as model architecture, data size, learning rate, and capacity. Semantic tokens generally outperform acoustic tokens, but a gap remains between discrete tokens and continuous features, highlighting the need for further research. DASB codes, evaluation setup, and leaderboards are publicly available at this https URL .

📖 深度解读

1. 一句话总结

这篇论文提出了 DASB（离散音频与语音基准测试），这是一个系统化的评估框架，旨在直接对比各类离散音频 Token 在语音、音乐和通用音频任务上的表现，揭示了离散表示虽然能简化生成任务，但在信息保留方面仍落后于传统的连续表示。

2. 研究背景与动机

核心问题：随着大语言模型（LLM）和多模态模型的兴起，将音频转化为离散 Token（类似文本）变得非常重要。然而，将连续的音频波形离散化不可避免地会引入信息丢失，如何在不丢失关键信息（如语音内容、说话人身份、情感等）的前提下找到最优的 Tokenizer，目前尚无定论。
重要性：离散 Token 能够将音频生成任务转化为分类问题，从而利用成熟的 LLM 架构进行音频理解和生成，是构建“听觉版 GPT”的关键技术。
现有不足：
1. 评估方式有偏差：现有基准（如 Codec-SUPERB）通常将 Token 解码回波形后再评估。这会掩盖 Token 本身的缺陷，因为一个强大的解码器可能弥补 Token 质量的不足。
2. 缺乏统一标准：不同研究使用的数据集、下游任务和超参数设置不一致，导致难以公平比较不同 Tokenizer 的优劣。

3. 核心方法

方法/框架：DASB（Discrete Audio and Speech Benchmark），一个模块化、可复现的基准测试框架。
关键创新点：
1. 直接评估：不依赖解码器，直接在离散 Token 空间训练下游模型，从而隔离出量化过程带来的真实信息损失。
2. 全面覆盖：涵盖了三大类 Tokenizer——语义类（Semantic，如 Discrete WavLM）、声学类（Acoustic，如 EnCodec）和混合类（Hybrid，如 Mimi），并在判别式（如 ASR）和生成式（如 TTS）任务上进行测试。
3. 注意力融合机制：使用简单的注意力机制动态聚合来自不同码本的信息，以适应不同任务的需求。
核心思路直觉：
想象一下，我们要给不同的“音频压缩算法”考试。以前的考试是先把压缩文件解压，看还原出来的声音像不像（这考察了解码器的能力）。DASB 的考试方式是：直接给压缩后的“代码”给一个简单的神经网络，看它能不能直接读懂里面的意思（比如识别出说了什么字）。如果“代码”丢失了太多信息，神经网络就学不会。这种方法能更纯粹地测试 Token 本身保留了多少有用信息。

4. 实验与结果

数据集/基准：涵盖了语音、音乐和环境音领域。包括 LibriSpeech（语音识别）、VoxCeleb（说话人验证）、IEMOCAP（情感识别）、ESC-50（声音分类）、GTZAN（音乐分类）、VoiceBank（语音增强）、MUSDB（音乐分离）等。
对比基线：
- 连续表示基线：WavLM, HuBERT 等自监督学习模型的连续特征。
- 离散 Tokenizer：EnCodec, DAC, SpeechTokenizer, Mimi, Discrete WavLM 等。
主要实验结果：
- 离散 vs 连续：在所有任务中，连续表示的性能均优于离散 Token，证实了量化过程确实导致了信息丢失。
- 语义 vs 声学 Token：在大多数语音理解内容任务（如 ASR、意图分类）中，语义类 Token 表现最好；而在需要精细声学细节的任务（如说话人识别）中，声学类 Token 表现更好。
- 具体模型表现：Discrete WavLM 在语音任务中排名最高，而 EnCodec 在音乐和通用音频任务中表现最佳。
消融实验揭示：
- 码本数量与比特率：并非越高越好。中等比特率通常在下游任务上表现最佳，过高的比特率会增加冗余和建模难度，反而降低性能。
- 数据与模型规模：增加数据量和模型容量有助于缩小离散 Token 与连续特征之间的差距，尤其是对声学类 Token 效果明显。

5. 优势与局限

优势：
1. 评估更纯粹：通过移除解码器环节，真实反映了 Token 的质量，避免了被强大的解码器掩盖缺陷。
2. 指导性强：提供了详尽的消融研究，为从业者选择特定任务下的 Tokenizer 提供了实用建议（例如：做 ASR 选语义类，做音乐分离选 EnCodec）。
3. 覆盖面广：统一评估了语义、声学和混合三类截然不同的 Tokenizer 设计理念。
局限性：
1. 性能差距依然存在：实验结果明确指出，目前的离散 Token 仍无法达到连续特征的性能水平，信息瓶颈问题未解决。
2. 声学 Token 的不稳定性：声学类 Tokenizer 对超参数和数据规模非常敏感，在低资源语言或小数据集上难以收敛。
3. 仅评估现成模型：主要关注现有的预训练 Tokenizer，未涉及从头训练新的 Tokenizer。

6. 关键结论与启发

最重要的 Takeaway：离散音频 Token 虽然是连接音频与语言模型的桥梁，但目前存在显著的“语义-声学权衡”。语义 Token 更适合理解任务，但整体而言，离散表示在信息保留上仍不如连续表示成熟。
启发与延伸方向：
1. 改进量化算法：未来的研究应致力于减少量化过程中的信息丢失，特别是在保留韵律、说话人特征等副语言信息方面。
2. 多模态模型设计：在构建音频 LLM 时，应根据任务类型（理解 vs 生成）谨慎选择 Token 类型，或者探索混合输入策略。
3. 低资源场景优化：需要开发对数据规模不敏感、更鲁棒的声学 Tokenizer，以适应低资源语言的应用场景。

eess.AScs.SD

MMAudioSep: Taming Video-to-Audio Generative Model Towards Video/Text-Queried Sound Separation 跨领域

Akira Takahashi, Shusuke Takahashi, Yuki Mitsufuji

Sound (cs.SD); Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG); Audio and Speech Processing (eess.AS)

📄 Abstract 📥 PDF

查看摘要

We introduce MMAudioSep, a generative model for video/text-queried sound separation that is founded on a pretrained video-to-audio model. By leveraging knowledge about the relationship between video/text and audio learned through a pretrained audio generative model, we can train the model more efficiently, i.e., the model does not need to be trained from scratch. We evaluate the performance of MMAudioSep by comparing it to existing separation models, including models based on both deterministic and generative approaches, and find it is superior to the baseline models. Furthermore, we demonstrate that even after acquiring functionality for sound separation via fine-tuning, the model retains the ability for original video-to-audio generation. This highlights the potential of foundational sound generation models to be adopted for sound-related downstream tasks. Our code is available at this https URL .

📖 深度解读

1. 一句话总结

这篇论文提出了 MMAudioSep，通过微调一个预训练的视频到音频生成模型（MMAudio），实现了基于视频和文本查询的声音分离，并且证明了该模型在学会分离任务的同时，仍保留了原有的音频生成能力。

2. 研究背景与动机

核心问题：如何利用现有的视频到音频生成模型的知识，来解决视频/文本查询的声音分离问题（即从混合音频中提取出特定目标声音）。
重要性：声音分离在视频编辑、音乐制作和助听设备中非常重要。传统的分离模型通常需要从零开始训练，而生成模型已经学习到了丰富的视频、文本与音频之间的多模态关联知识，如果能复用这些知识，可以极大提高训练效率。
现有不足：生成式音频模型和判别式分离模型通常是两个独立发展的领域。现有的分离方法大多基于判别式任务，未能充分利用大规模生成式预训练模型中蕴含的跨模态知识。

3. 核心方法

方法/模型：MMAudioSep，基于预训练的 MMAudio 模型（采用 Flow Matching 算法和多模态 Diffusion Transformer 架构）进行微调。
关键创新点：
1. 生成式分离范式：首次将预训练的视频到音频生成模型通过微调应用于声音分离任务。
2. 通道拼接条件机制：在输入端将混合音频的隐特征与高斯噪声在通道维度拼接，使模型能以混合音频为条件来生成目标声音。
3. 双功能保留：通过冻结部分参数的策略，使模型在获得分离能力的同时，不丢失原有的视频生成音频能力。
核心思路直觉：
想象一下，原模型是一个“画家”，看着视频（和文字）就能画出（生成）对应的音频。现在我们要教它做“分离”，即给它看一段嘈杂的混合音频和一段视频，让它把视频中对应的声音“画”出来。论文通过把混合音频作为额外的输入条件喂给模型，让模型利用原本学会的“视频-音频对应关系”，从混合声中“提取”出符合视频描述的那部分声音。

4. 实验与结果

数据集/基准：
- 训练：VGGSound, AudioCaps, Clotho, WavCaps（约 2500 小时）。
- 评估（分离）：VGGSound-Clean, MUSIC。
- 评估（生成）：VGGSound。
对比基线：AudioSep（判别式）、FlowSep（生成式）。
主要结果：
- 在声音分离任务上，MMAudioSep 在多项指标（如 CLAP Score, FAD）上均优于 AudioSep 和 FlowSep。例如在 VGGSound-Clean 上，其 CLAP Score（语义对齐度）达到 30.57，高于 AudioSep 的 28.37。
- 在视频到音频生成任务上，即使经过了分离任务的微调，模型依然表现良好，甚至超过了部分传统的生成式基线模型（如 ReWaS, Seeing&Hearing）。
消融实验：揭示了使用预训练权重并冻结部分参数（pretrain w/f/frozen）的效果最好，既能保证分离性能，又能最大程度保留生成能力。

5. 优势与局限

优势：
1. 训练高效：利用了预训练模型的多模态知识，无需从零开始训练。
2. 多模态增强：结合视频和文本查询，比单一文本查询的分离效果更好。
3. 一鱼两吃：同一个模型既能做声音分离，又能做视频配音生成。
局限：
1. 评估指标非传统：主要使用生成式指标（如 FAD, CLAP）而非传统的信号级指标（如 SDR），这使得与经典分离模型的直接对比在直观性上稍有欠缺。
2. 生成稳定性：论文提到在微调后的生成任务中，偶尔会出现白噪声，说明生成稳定性受到了一定影响。
3. 基线对比不全：由于数据集规模限制，未与 CLIPSep 和 OmniSep 等模型进行直接对比。

6. 关键结论与启发

最重要的 Takeaway：生成式基础模型具有极强的泛化能力，可以通过微调高效地迁移到下游的判别式任务（如分离）中，且这种迁移是“无损”的（保留了原技能）。
启发与延伸：
- 未来可以探索构建“通用音频模型”，即一个模型同时处理生成、分离、增强等多种任务。
- 可以研究如何更精细地控制微调过程，以完全消除微调带来的生成不稳定性（如白噪声问题）。

eess.AS

MTR-DuplexBench: Towards a Comprehensive Evaluation of Multi-Round Conversations for Full-Duplex Speech Language Models

He Zhang, Wenqian Cui, Haoning Xu, Xiaohui Li, Lei Zhu 等 (8 人)

Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Audio and Speech Processing (eess.AS)

📄 Abstract 📥 PDF

查看摘要

Full-Duplex Speech Language Models (FD-SLMs) enable real-time, overlapping conversational interactions, offering a more dynamic user experience compared to traditional half-duplex models. However, existing benchmarks primarily focus on evaluating single-round interactions, neglecting the complexities of multi-round communication. Evaluating FD-SLMs in multi-round settings poses significant challenges, including blurred turn boundaries in communication and context inconsistency during model inference. Also, existing benchmarks often focus solely on evaluating conversational features, neglecting other critical aspects. To address these gaps, we introduce MTR-DuplexBench, a novel benchmark designed for a comprehensive multi-round evaluation of FD-SLMs. MTR-DuplexBench not only segments continuous full-duplex dialogues into discrete turns for turn-by-turn assessment but also incorporates various evaluation aspects, including conversational features, dialogue quality, instruction following, and safety. Experimental results reveal that current FD-SLMs face difficulties in maintaining consistent performance across multiple rounds and evaluation dimensions, highlighting the necessity and effectiveness of our benchmark. Code and data are available at: this https URL

📖 深度解读

1. 一句话总结

这篇论文提出了 MTR-DuplexBench，这是首个专门针对全双工语音语言模型（FD-SLM）多轮对话能力的综合基准测试，通过创新的“轮次切分”技术解决了评估中的边界模糊和上下文不一致难题，从而全面评估模型在对话特征、质量、指令遵循和安全性方面的表现。

2. 研究背景与动机

核心问题：现有的全双工语音模型（能同时听和说的模型）基准测试主要集中在单轮交互上，缺乏对真实、复杂的多轮对话场景的评估能力。
重要性：全双工模型旨在模拟人类自然的实时交流（如插话、附和），但在多轮对话中，模型能否持续保持高质量、低延迟且安全的交互是其实用化的关键。
现有不足：
1. 评估维度单一：现有基准多关注“插话”、“轮流发言”等对话机制，忽略了“指令遵循”和“安全性”等核心能力。
2. 多轮评估困难：全双工对话中，用户和模型说话重叠，导致很难界定谁的一轮对话从哪开始、哪结束（边界模糊）；此外，如果模型上一轮回答错了，用户下一轮的预设提问可能就变得不合逻辑（上下文不一致），导致评估失效。

3. 核心方法

方法/框架：MTR-DuplexBench，一个包含数据构建、轮次切分算法和四维评估指标的综合评测框架。
关键创新点：
1. 全双工轮次切分算法：利用 Whisper 和 VAD 提取语音片段，结合 GPT-4o 根据语义和时间戳判断对话轮次的起止，并通过多数投票机制提高切分的稳定性。
2. 上下文一致性处理：在评估某一轮时，将之前轮次的模型回答强制替换为“标准答案”，确保用户当前的输入在语境上是合理的，从而实现逐轮的精准评估。
3. 四维综合评估：除了对话特征（如插话、停顿处理），还引入了对话质量、指令遵循能力和安全性评估。
核心思路直觉：
想象一段两个人同时说话的录音，非常混乱。作者的方法就像是一个智能剪辑师，利用 AI（GPT-4o）把这段混乱的录音剪辑成清晰的“你一句、我一句”的独立片段。为了防止模型因为之前说错话而导致后面“接不上梗”，评测时会让模型先听到“正确的上一句回答”，再让它回答当前这一句。这样就能像批改作业一样，逐轮检查模型是否听懂了、是否插对了话、以及回答是否安全。

4. 实验与结果

数据集/基准：
- 对话特征：使用 GPT-4o 和 CosyVoice 2 生成的合成数据（200个对话，10轮）。
- 对话质量：使用 Candor 数据集的真实人类语音（200个对话）。
- 指令遵循与安全：使用 Llama Question 和 AdvBench 数据集。
基线方法：Moshi（端到端 FD-SLM）、Freeze-Omni（级联 FD-SLM）、VocalNet（半双工 SLM）、传统级联方法（ASR+LLM+TTS）。
主要结果：
- 性能随轮次衰减：所有 FD-SLM 在多轮对话中，成功率普遍随着轮次增加而下降（例如 Moshi 在处理背景噪音时，成功率从 53% 降至 25.7%）。
- 延迟增加：随着对话轮次增加，模型的响应延迟也会逐渐变大。
- 能力权衡：端到端模型（Moshi）在对话质量（语义连贯性）上不如半双工模型，但在实时性上占优；级联方案延迟极高，导致对话质量评分最低。
- 指令遵循：Moshi 在多轮对话中指令遵循能力显著下降，而其他模型相对稳定。
- 安全性：所有模型在多轮对话中均能保持较高的拒绝有害指令的能力（>90%）。
消融实验：通过对比单一特征与混合特征（如同时包含插话、停顿、背景音）的测试，发现模型在处理混合复杂特征时表现更差，证实了真实场景的挑战性。

5. 优势与局限

主要优势：
1. 填补空白：首个支持多轮、多维度（含安全与指令）的全双工评测基准。
2. 解决痛点：巧妙地通过轮次切分和上下文替换技术，解决了全双工数据难以逐轮评估的难题。
3. 揭示问题：实验有力地揭示了当前 SOTA 模型在长对话中存在的性能衰减和延迟累积问题。
局限性：
1. 依赖 GPT-4o：数据切分和评分高度依赖 GPT-4o，成本较高且可能引入大模型的评判偏差。
2. 语言限制：目前主要针对英语场景，未覆盖多语言评估。
3. 评估范式差异：为了保证上下文一致性，部分评测使用了“教师强制”输入，这与完全自由生成的端到端推理存在细微差别。

6. 关键结论与启发

最重要的 Takeaway：当前的全双工语音模型虽然能处理单轮的插话和实时交互，但在多轮长对话中难以维持稳定的性能、低延迟和语义连贯性，距离人类水平的自然交流还有很大差距。
启发与延伸：
1对未来模型研发而言，需要重点关注长对话的状态管理和延迟控制，而不仅仅是单轮的响应速度。
1. 未来的评测工作应更多关注混合特征（如一边插话一边有背景噪音）以及多语言环境下的鲁棒性。
2. 可以探索如何减少对昂贵大模型（如 GPT-4o）作为裁判的依赖，开发更轻量化的自动化评测指标。

eess.AS

MoshiRAG: Asynchronous Knowledge Retrieval for Full-Duplex Speech Language Models

Chung-Ming Chien, Manu Orsini, Eugene Kharitonov, Neil Zeghidour, Karen Livescu 等 (6 人)

Computation and Language (cs.CL); Audio and Speech Processing (eess.AS)

📄 Abstract 📥 PDF

查看摘要

Speech-to-speech language models have recently emerged to enhance the naturalness of conversational AI. In particular, full-duplex models are distinguished by their real-time interactivity, including handling of pauses, interruptions, and backchannels. However, improving their factuality remains an open challenge. While scaling the model size could address this gap, it would make real-time inference prohibitively expensive. In this work, we propose MoshiRAG, a modular approach that combines a compact full-duplex interface with selective retrieval to access more powerful knowledge sources. Our asynchronous framework enables the model to identify knowledge-demanding queries and ground its responses in external information. By leveraging the natural temporal gap between response onset and the delivery of core information, the retrieval process can be completed while maintaining a natural conversation flow. With this approach, MoshiRAG achieves factuality comparable to the best publicly released non-duplex speech language models while preserving the interactivity inherent to full-duplex systems. Moreover, our flexible design supports plug-and-play retrieval methods without retraining and demonstrates strong performance on out-of-domain mathematical reasoning tasks.

📖 深度解读

1. 一句话总结

这篇论文提出了 Moshi RAG，通过在全双工语音模型中引入异步检索机制，利用说话时的自然时间差获取外部知识，从而在不牺牲实时交互流畅性的前提下，显著提升了语音回答的事实准确性。

2. 研究背景与动机

核心问题：全双工语音模型能够同时“听”和“说”，提供了非常自然的交互体验，但与文本模型相比，它们在事实准确性上表现较差（容易产生幻觉）。单纯通过扩大模型规模来提升事实性会破坏实时推理的能力。
重要性：构建一个理想的语音 AI 助手，既需要像真人一样实时响应（高交互性），又需要提供准确的信息（高事实性）。
现有不足：检索增强生成（RAG）在文本领域已广泛用于提升事实性，但在全双工语音系统中应用极少。主要挑战在于：语音交互对延迟极其敏感，而检索过程需要时间，传统的同步检索方式会打断对话流，导致尴尬的停顿。

3. 核心方法

方法/模型：Moshi RAG，一个基于全双工语音模型 Moshi 的模块化框架，包含前端（Moshi 模型 + 流式 ASR）和后端（异步检索系统）。
关键创新点：
1. 异步检索触发：模型在生成回答时预测一个特殊的 <ret> 标记，该标记触发后台检索，而前端模型继续生成语音，不阻塞对话。
2. 利用“关键词延迟”：利用人类说话时从开始回答到说出核心信息之间的自然时间差（例如说“让我查一下...”），在此期间完成检索，将检索结果无缝注入模型。
3. 模块化后端：检索后端与前端解耦，支持即插即用（如 LLM 或搜索引擎），无需重新训练前端模型即可升级知识源。
核心思路直觉：
想象你在问一个人类助手一个复杂问题。他不会沉默 2 秒钟去查资料，而是会一边说“嗯，这个问题很有趣，让我想想...”（这部分不需要外部知识），一边在脑子里（或后台）查阅资料。等他说完这句铺垫语时，资料也查好了，紧接着就能说出准确的答案。Moshi RAG 就是模仿这个过程：模型先输出“前导内容”（填充词），后台异步去 Google 或问大模型查资料，查到的结果在模型说出关键信息前“喂”给模型，从而保证回答既流畅又准确。

4. 实验与结果

数据集/基准：
- 事实性：OpenAudioBench (Llama Questions, Web Questions, TriviaQA), HaluEval。
- 交互性：Full-Duplex-Bench（评估停顿、插话、反向信道等）。
- 泛化能力：数学推理数据集（GSM8K, SVAMP 等，模型未专门训练过的任务）。
对比基线：Vanilla Moshi, GPT-4o Audio, GLM-4-Voice, Freeze-Omni, Qwen2.5-Omni 等。
主要结果：
- 事实性大幅提升：在 TriviaQA 上，Moshi RAG (73.7%) 远超原始 Moshi (22.8%)，并与非全双工的顶尖模型（如 GPT-4o Audio）性能相当。
- 保持低延迟：端到端关键词延迟（E2EKD）仅为 3.1 秒，优于大多数对比模型，且计算量（FLOPs）保持在合理范围。
- 交互性良好：在 Full-Duplex-Bench 上表现出色，能正确处理用户插话和停顿，没有因为引入 RAG 而变“笨”。
消融实验揭示：
- 使用更强大的检索后端（如 GPT-4.1 或 Tavily 搜索）可以直接提升最终回答的准确率，证明了框架的灵活性。
- 模型对 ASR（语音转文字）的错误非常敏感，ASR 准确率直接决定了检索内容的质量。
- 检索延迟必须控制在 1.5 秒以内，否则准确率会急剧下降。

5. 优势与局限

主要优势：
1. 兼顾交互与事实：解决了全双工模型通常“能说会道但不懂事实”的痛点。
2. 无需重训即可升级：换一个更强的搜索引擎或 LLM 作为后端，前端模型立马变强。
3. 具备工具使用潜力：在未训练的数学任务上表现良好，展示了语音模型调用外部工具解决复杂问题的潜力。
局限性：
1. 依赖 ASR 准确性：如果听错了用户的问题，检索就会找错资料，导致回答错误。
2. 信息整合有损耗：检索到的参考文档准确率通常高于最终生成的回答，说明模型在将检索文本转化为语音时仍有信息丢失。
3. 触发机制依赖训练：目前何时触发检索完全依赖训练数据，对于训练数据中未覆盖的复杂场景可能无法主动触发检索。

6. 关键结论与启发

最重要的 Takeaway：在全双工语音模型中做 RAG 是可行的，关键在于利用说话的自然节奏（关键词延迟）来“隐藏”检索的时间成本。
启发与延伸：
- 工具使用语音助手：这不仅仅是查资料，未来可以扩展为让语音助手实时调用计算器、日历 API 等工具，实现真正的 Agent 能力。
- 优化检索触发：未来可以用强化学习（RL）来训练模型更智能地决定“什么时候该查资料”，而不是仅靠拟合训练数据。
- 端侧部署潜力：由于前端模型较小（7B），配合高效的检索后端，有望在本地或边缘设备上运行高智商的语音助手。

cs.SD

Temporal Contrastive Decoding: A Training-Free Method for Large Audio-Language Models

Yanda Li, Yuhan Liu, Zirui Song, Yunchao Wei, Martin Takáč 等 (6 人)

Sound (cs.SD); Artificial Intelligence (cs.AI)

📄 Abstract 📥 PDF

查看摘要

Large audio-language models (LALMs) generalize across speech, sound, and music, but unified decoders can exhibit a \emph{temporal smoothing bias}: transient acoustic cues may be underutilized in favor of temporally smooth context that is better supported by language priors, leading to less specific audio-grounded outputs. We propose \emph{Temporal Contrastive Decoding} (TCD), a training-free decoding method for unified LALMs that mitigates this effect at inference time. TCD constructs a temporally blurred slow-path view by smoothing the input waveform and re-encoding it, then contrasts next-token logits from the original and slow-path views. The contrastive signal is applied as a token-level logit update restricted to a small candidate set. A self-normalized stability score sets the blur window and update scale, and a step-wise gate based on uncertainty and audio reliance activates the update only when needed. Experiments on MMAU and AIR-Bench show consistent improvements on strong unified LALMs. We further conduct ablations and an architectural applicability study to analyze the contributions of key components and how TCD behaves across large audio-language model designs.

📖 深度解读

1. 一句话总结

这篇论文提出了一种名为“时间对比解码（TCD）”的无训练推理方法，通过对比原始音频与经过时间模糊处理的音频预测结果，帮助大型音频-语言模型更好地捕捉短暂的瞬态声音线索，从而提升模型对音频细节的理解能力。

2. 研究背景与动机

核心问题：现有的统一大型音频-语言模型在生成文本时存在“时间平滑偏差”。模型倾向于依赖语言先验或时间上平滑的背景信息，而忽略或低估了那些短暂、瞬态的声学线索（如电话铃声的瞬间响起、乐器的短促拨弦）。
重要性：在许多音频理解任务（如计数铃声、识别特定声音事件）中，关键信息往往包含在这些极短的瞬态信号中。如果模型忽略这些细节，就会产生事实性错误。
现有方法不足：现有的解码干预方法（如 Audio-Aware Decoding）主要通过“有音频”与“无音频”进行对比来减少幻觉，但它们没有显式地利用音频的多时间尺度结构，因此无法直接解决模型对瞬态信息不敏感的问题。

3. 核心方法

方法/模型：论文提出了时间对比解码框架。这是一种纯推理时的方法，不需要修改模型参数或进行额外训练。
关键创新点：
1. 慢速路径视图：构建一个时间模糊的音频版本作为“慢速路径”，保留粗粒度背景但抹去瞬态细节。
2. 稳定性引导的自适应参数：根据编码器输出的稳定性分数，自动调整模糊窗口大小和更新强度。
3. 门控 Logit 融合：仅在模型预测“不确定”且“依赖音频”时才应用对比信号，避免干扰原本就正确的预测。
核心思路直觉：
想象你在看一张照片，如果你把照片变模糊（慢速路径），原本清晰的细节（瞬态线索）就会消失。TCD 让模型同时看“原图”和“模糊图”，并对比两者的预测差异。如果某个词在“原图”下概率更高，说明这个词依赖于那些清晰的细节。TCD 就会增强这些词的概率，从而强迫模型关注那些容易被忽略的瞬间声音。

4. 实验与结果

数据集/基准：主要在 MMAU（多任务音频理解基准）和 AIR-Bench（基础音频感知基准）上进行评估，特别关注包含时间结构的任务（如 SLURP, CochlScene）。
对比基线：标准贪婪解码、Audio-Aware Decoding (AAD) 等。
主要结果：
- 在 MMAU 测试集上，TCDQwen2.5-Omni 的平均准确率从 71.5% 提升至 73.2%。
- 在 Music（音乐）和 Sound（声音）领域提升尤为明显（例如 Qwen2.5-Omni 在 Music 上提升了 +5.1%），因为这些领域更依赖瞬态线索。
- 相比之下，现有的 AAD 方法在强基线模型上甚至可能略微降低性能。
消融实验：
- 证明了使用“时间模糊”比添加随机噪声更有效，说明保留时间结构至关重要。
- 移除“门控机制”会导致在语音任务上性能下降，说明必须谨慎选择干预时机。
- 移除“正向差值”更新会导致不稳定，说明只能增强证据而不能随意抑制。
架构适用性分析：TCD 仅在统一架构（Decoder 能看到时间对齐的音频 Token）上有效；在将音频压缩为少量语义查询的架构（如 SALMONN）上几乎无效。

5. 优势与局限

优势：
1. 无需训练：即插即用，不需要额外的数据集或微调，降低了使用门槛。
2. 针对性强：专门解决了模型忽略瞬态声学事件的问题，在音乐和声音事件识别上效果显著。
3. 保守干预：通过门控机制，只在必要时修改预测，保护了模型原本的语言能力。
局限性：
1. 推理开销：需要额外进行一次前向传播来处理模糊音频，增加了预填充阶段的计算延迟。
2. 架构依赖：仅适用于保留时间对齐音频表示的统一模型，不适用于经过深度压缩或瓶颈结构的模型。

6. 关键结论与启发

最重要的 Takeaway：通过在推理时显式地引入“多时间尺度”的对比（原始 vs 模糊），可以有效纠正大型音频-语言模型对细粒度时间信息的忽视，且无需重新训练模型。
。
启发与延伸：
- 架构设计的重要性：研究强调了保留音频的时间分辨率对于后续推理干预的重要性。
- 推理时干预的潜力：未来可以探索将这种对比思想扩展到流式场景或其他模态，利用模型自身的内部状态（如注意力、熵）来指导解码过程。

#10

cs.SD

VoxMind: An End-to-End Agentic Spoken Dialogue System

Tianle Liang, Yifu Chen, Shengpeng Ji, Yijun Chen, Zhiyang Jia 等 (10 人)

Sound (cs.SD)

📄 Abstract 📥 PDF

查看摘要

Recent end-to-end spoken dialogue models enable natural interaction. However, as user demands become increasingly complex, models that rely solely on conversational abilities often struggle to cope. Incorporating agentic capabilities is therefore essential: by enabling tool use, these models can extend their knowledge boundaries and better solve real-world tasks. Yet, existing research has largely concentrated on core perception and generation, with comparatively limited exploration of such tool-augmented extensions. To bridge this gap, we present VoxMind, an integrated framework designed to equip end-to-end spoken dialogue models with comprehensive agentic abilities. Leveraging our curated 470-hour AgentChat dataset, we incorporate a "Think-before-Speak" mechanism, enabling the model to internalize structured reasoning as a critical prerequisite for planning and response generation. Furthermore, to mitigate latency bottlenecks caused by large-scale tool integration, we propose a Multi-Agent Dynamic Tool Management architecture. By asynchronously delegating retrieval tasks to an auxiliary agent aligned with the main model's reasoning trajectory, this system effectively decouples inference latency from toolset size. Experimental results confirm that VoxMind achieves significant improvements in agent performance: compared with strong baselines, the task completion rate increases from 34.88% to 74.57%, outperforming Gemini-2.5-Pro on spoken agent tasks while preserving general conversational quality. The source code and associated data are publicly available at this https URL .

📖 深度解读

1. 一句话总结

这篇论文提出了 VoxMind，一个端到端的智能体语音对话系统，通过引入“先思考后说话”机制和动态工具管理架构，让语音模型不仅能自然对话，还能像智能体一样调用工具解决复杂任务，同时有效解决了大规模工具集成带来的推理延迟问题。

2. 研究背景与动机

核心问题：现有的端到端语音对话模型大多仅擅长“反应式”闲聊，缺乏处理复杂、目标导向任务（如订票、智能家居控制）所需的规划、推理和调用外部工具的能力。
重要性：随着用户需求日益复杂，仅靠对话能力已无法满足实际应用，赋予语音模型“智能体”能力（如使用工具扩展知识边界）是迈向实用化的关键一步。
现有不足：
1. 能力滞后：语音模型在精细语义理解和结构化动作生成（如生成正确的工具调用参数）上落后于纯文本模型。
2. 数据稀缺：缺乏包含结构化推理轨迹和工具交互标注的语音数据集。
3. 延迟瓶颈：语音输入本身 token 占用大，若再加载大规模工具库，会导致巨大的计算开销和推理延迟，难以落地。

3. 核心方法

方法/模型：VoxMind，一个集成了自主推理、工具利用和自然语音交互的统一框架。
关键创新点：
1. “Think-before-Speak”机制：在生成语音回复或调用工具前，先生成显式的思维链，将推理过程作为生成动作的前提。
2. 多智能体动态工具管理：引入一个辅助语言模型，与主模型异步并行运行，负责从全局工具池中检索候选工具，从而将推理延迟与工具库规模解耦。
3. AgentChat 数据集：构建了一个 470 小时的高质量语音数据集，包含标注好的结构化推理轨迹和工具交互标签。
核心思路直觉：
想象一个不仅会“接话”还会“办事”的语音助手。当你发出指令时，它不会直接张口就来，而是先在脑子里“默念”一遍计划（Think-before-Speak），理清该用什么工具、填什么参数。同时，为了不让它在成千上万个工具里翻找而导致你等待太久，系统派了一个“小助手”（辅助 Agent）在后台并行筛选出可能用到的几个工具。这样，主模型只需要关注这少数几个工具，既保证了办事准确，又保证了反应迅速。

4. 实验与结果

数据集/基准：自建的 AgentChat 数据集（用于训练和测试核心能力）、VoiceBench（用于评估通用对话能力）、以及使用 Gemini 生成的跨域数据集（用于测试大规模工具场景）。
基线方法：闭源模型（Gemini-2.5-pro/flash, GPT-4o-audio）、开源模型（Qwen2.5-Omni, Kimi-Audio, Qwen3+Whisper）以及基座模型 StepAudio2。
主要结果：
- 在智能体任务的综合评分上，VoxMind 达到了 74.57%，显著优于基座模型 StepAudio2 的 34.88%（提升 113.79%），同时也超过了闭源 SOTA 模型 Gemini-2.5-pro (71.51%)。
- 在 VoiceBench 通用对话基准上，VoxMind 保持了与基座模型相当的性能（64.21 vs 64.15），说明在获得智能体能力的同时没有丢失通用对话能力。
消融实验：
- 移除“Think-before-Speak”机制会导致任务性能下降，且通用对话能力出现显著退化（从 59.72 降至 54.80），证明了显式推理对于稳定训练和能力平衡至关重要。
- 动态工具管理实验显示，当工具数量从 1 增加到 100 时，单智能体方案的延迟呈指数级增长，而 VoxMind 的延迟保持稳定，成功实现了延迟与工具规模的解耦。

5. 优势与局限

优势：
1. 性能强劲：在复杂的语音智能体任务上大幅超越了现有的开源和闭源模型。
2. 高效解耦：通过多智能体架构巧妙解决了大规模工具带来的延迟问题，具备良好的扩展性。
3. 能力平衡：通过引入推理机制，在提升专业任务能力的同时，有效保留了模型的通用对话能力。
局限：
1. 延迟权衡：虽然优化了工具检索延迟，但“Think-before-Speak”机制本身生成思维链仍会引入一定的计算开销，这是为了换取准确性所做的必要妥协。
2. 数据合成偏差：AgentChat 数据集主要基于文本通过 TTS 合成，虽然经过了清洗，但可能仍缺乏真实人类语音中的口吃、犹豫等自然口语特征。

6. 关键结论与启发

Takeaway：赋予端到端语音模型显式的“思考”能力（Chain-of-Thought）是让其胜任复杂智能体任务且不“变傻”（遗忘通用能力）的关键；而架构上的并行化设计是解决语音模态高延迟问题的有效路径。
启发：
- 未来研究可以进一步探索如何压缩或流式化思维链的生成，以进一步降低首字延迟。
- 需要更多真实场景下的人类语音交互数据来训练智能体，以捕捉更丰富的语用信息和 acoustic cues（如情绪、紧迫感）。

#11

cs.SD

TinyMU: A Compact Audio-Language Model for Music Understanding

Xiquan Li, Aurian Quelennec, Slim Essid

Sound (cs.SD)

📄 Abstract 📥 PDF

查看摘要

Music understanding and reasoning are central challenges in the Music Information Research field, with applications ranging from retrieval and recommendation to music agents and virtual assistants. Recent Large Audio-Language Models (LALMs) have shown remarkable progress in answering music-related questions by following user instructions. However, their massive scale, often billions of parameters, results in expensive training, slow inference, and limited deployability on edge devices. In this work, we present TinyMU, a lightweight (229M) Music-Language Model (MLM) that achieves performance comparable to much larger LALMs while remaining efficient and compact. To train TinyMU, we introduce MusicSkills-3.5M, a carefully curated, music-grounded question-answering dataset with 3.5M samples. Spanning multiple-choice, binary, and open-ended formats, this dataset provides fine-grained supervision across diverse musical concepts. For its architecture, TinyMU leverages MATPAC++, the SOTA self-supervised audio encoder for fine-grained feature extraction. Paired with a lightweight linear projector, it efficiently aligns audio embeddings with the language model. Through extensive evaluation, we show that TinyMU performs strongly in both basic music understanding and complex reasoning. Notably, on the MuChoMusic benchmark, it achieves 82\% of SOTA LALM's performance despite being 35x smaller, highlighting the potential of small MLMs under constrained computational budgets.

📖 深度解读

1. 一句话总结

这篇论文提出了 TinyMU，一个仅有 2.29 亿参数的紧凑型音乐-语言模型，通过构建高质量、多样化的问答数据集并利用先进的音频编码器，在音乐理解和推理任务上达到了媲美数十亿参数大模型的性能。

2. 研究背景与动机

核心问题：现有的音乐语言模型参数量巨大（通常在 80 亿以上），导致训练成本高昂、推理速度慢，且难以在边缘设备（如手机、嵌入式设备）上部署。
重要性：为了实现实时、低延迟的端侧音乐智能助手、推荐系统和交互应用，开发高效且轻量级的模型至关重要。
现有不足：目前的研究趋势主要集中在通过扩大模型规模来提升性能，而针对在计算资源受限环境下如何构建高效的小型音乐语言模型的研究相对较少。

3. 核心方法

方法/模型：TinyMU 模型架构 + MusicSkills-3.5M 训练数据集。
- 架构：由三部分组成——音频编码器（MATPAC++，冻结参数）、轻量级投影器（两层线性层）和小语言模型（SmolLM2）。
- 数据集：MusicSkills-3.5M，包含 350 万个音乐-文本问答对，涵盖开放式、二值（是/否）和多选三种格式。
关键创新点：
1. 多样化的数据构建策略：结合基于规则的方法（利用 AudioSet 本体生成）和 LLM 辅助的方法（利用元数据生成），构建了包含多种问答格式的数据集，增强了模型对音乐概念的细粒度理解。
2. 高效的架构设计：使用 SOTA 级别的自监督音频编码器 MATPAC++ 提取特征，仅通过简单的线性投影器对齐，避免了复杂的适配器模块。
3. 全量微调策略：实验证明，对小语言模型进行全量微调比仅训练投影器或使用 LoRA 能显著提升推理能力。
核心思路直觉：
这就像给一个“聪明但知识有限的小学生”（小语言模型）配上了一个极其灵敏的“耳朵”（MATPAC++ 编码器）。为了让这个小学生听懂音乐，作者不仅让他听声音描述（开放式问答），还让他做判断题（二值问答）和选择题（多选问答）。这种全方位的训练方式，使得小模型不需要拥有庞大的通用知识库，就能专注于掌握音乐领域的听力和逻辑推理。

4. 实验与结果

数据集/基准：
- 基础理解任务：GTZAN（流派分类）、Medley-Solos-DB（乐器识别）。
- 生成任务：MusicCaps（音乐描述生成）。
- 复杂推理任务：MuChoMusic（包含 23 个音乐维度的多选问答基准）。
对比基线：Mellow (167M)、MU-LLaMA (7.7B)、Audio-Flamingo 系列、MiDashengLM (8.3B)、Qwen2-Audio (8.4B) 等。
主要结果：
- MuChoMusic：TinyMU 得分 58.6%，达到了最强基线 MiDashengLM 性能的 82%，但参数量仅为后者的 1/35。
- Medley-Solos-DB：TinyMU 准确率高达 95.1%，超越了所有对比的大模型。
- GTZAN：准确率 65.7%，表现具有竞争力。
- MusicCaps：在语义相似度指标上达到了大模型约 99% 的水平。
消融实验揭示：
- 编码器选择：使用 MATPAC++ 比使用 HTSAT 效果更好，特别是在乐器识别和推理任务上。
- 训练策略：冻结语言模型仅训练投影器会导致推理能力大幅下降；全量微调效果最好。
- 数据格式：移除多选题（MCQ）会导致推理性能暴跌（-34.1%），说明选择题格式对学习逻辑推理至关重要；移除开放式问答会显著降低感知任务（如流派分类）的性能。

5. 优势与局限

优势：
1. 极高的效率：参数量极小（229M），推理速度快，适合在边缘设备上部署。
2. 性能强劲：在多项基准上达到了接近甚至超越数十亿参数大模型的效果，证明了“小而美”的可行性。
3. 数据构建方案通用：MusicSkills-3.5M 的构建方法（规则+LLM）可推广到其他音频领域。
局限：
1. 绝对性能差距：虽然达到了 SOTA 的 82%，但在最复杂的推理任务上仍与顶级大模型存在约 18% 的性能差距。
2. 知识依赖：小语言模型本身缺乏广泛的世界知识，其表现高度依赖于训练数据中覆盖的音乐概念和知识范围。

6. 关键结论与启发

最重要的 Takeaway：
在资源受限的情况下，通过使用强大的音频编码器（如 MATPAC++）配合高质量、多样化的训练数据（特别是包含多选题等强监督信号），完全可以训练出能胜任复杂音乐推理任务的小型模型，无需盲目追求参数规模。
启发与延伸方向：
1. 数据质量 > 模型规模：未来研究应更多关注如何构建更精细、更具教育意义的多模态训练数据。
2. 端侧 AI 应用：TinyMU 为在手机端运行实时音乐分析、交互式音乐教育应用提供了可行的技术路线。
3. 领域特化：可以借鉴此思路，针对特定领域（如医疗音频、环境声）开发专用的小型音频-语言模型。

#12

cs.SD

Hierarchical Codec Diffusion for Video-to-Speech Generation

Jiaxin Ye, Gaoxiang Cong, Chenhui Wang, Xin-Cheng Wen, Zhaoyang Li 等 (7 人)

Sound (cs.SD); Computer Vision and Pattern Recognition (cs.CV)

📄 Abstract 📥 PDF

查看摘要

Video-to-Speech (VTS) generation aims to synthesize speech from a silent video without auditory signals. However, existing VTS methods disregard the hierarchical nature of speech, which spans coarse speaker-aware semantics to fine-grained prosodic details. This oversight hinders direct alignment between visual and speech features at specific hierarchical levels during property matching. In this paper, leveraging the hierarchical structure of Residual Vector Quantization (RVQ)-based codec, we propose HiCoDiT, a novel Hierarchical Codec Diffusion Transformer that exploits the inherent hierarchy of discrete speech tokens to achieve strong audio-visual alignment. Specifically, since lower-level tokens encode coarse speaker-aware semantics and higher-level tokens capture fine-grained prosody, HiCoDiT employs low-level and high-level blocks to generate tokens at different levels. The low-level blocks condition on lip-synchronized motion and facial identity to capture speaker-aware content, while the high-level blocks use facial expression to modulate prosodic dynamics. Finally, to enable more effective coarse-to-fine conditioning, we propose a dual-scale adaptive instance layer normalization that jointly captures global vocal style through channel-wise normalization and local prosody dynamics through temporal-wise normalization. Extensive experiments demonstrate that HiCoDiT outperforms baselines in fidelity and expressiveness, highlighting the potential of discrete modelling for VTS. The code and speech demo are both available at this https URL .

📖 深度解读

1. 一句话总结

这篇论文提出了HiCoDiT模型，利用语音的层级结构（从语义到韵律），将视频中的唇形、身份和表情特征分别对齐到不同层级的语音token上，从而实现了高质量、高表现力的视频转语音生成。

2. 研究背景与动机

核心问题：Video-to-Speech (VTS) 任务旨在仅通过无声视频生成对应的语音。核心挑战在于视觉信息（稀疏）与语音信息（密集）之间存在天然的信息不对称，难以建立精确的跨模态对齐。
重要性：该技术对于无声电影配音、失语人群的辅助交流以及嘈杂或隐私敏感环境下的交互具有重要意义。
现有不足：现有的VTS方法通常将语音视为一个扁平的序列，忽略了语音内在的层级结构（即从粗粒度的说话人语义到细粒度的韵律细节）。这种忽略导致视觉特征无法在特定的层级上与语音特征进行有效对齐，限制了生成语音的自然度和表现力。

3. 核心方法

方法/模型：论文提出了 HiCoDiT (Hierarchical Codec Diffusion Transformer)，这是一个基于离散扩散模型的层级语音生成框架。
关键创新点：
1. 首个引入显式语音层级先验的离散扩散框架：利用残差向量量化（RVQ）Codec的特性，将语音token分为低层级（语义/音色）和高层级（韵律）。
2. 解耦的视觉条件注入：根据语音层级的不同，注入不同的视觉特征。低层级使用唇动和身份特征，高层级使用面部表情特征。
3. 双尺度自适应实例归一化：通过通道级归一化捕获全局音色，通过时间级归一化捕获局部韵律动态。
核心思路直觉：
想象语音是由“骨架”和“皮肤”组成的。低层级的RVQ token包含了“骨架”（说什么、谁说的），高层级的token包含了“皮肤”（怎么说、什么情绪）。HiCoDiT利用这个规律，让视频中的唇动和脸型去指导生成“骨架”，让视频中的表情去指导生成“皮肤”。通过这种“粗到细”的分层控制，模型能更精准地从视频中还原出既对口型又有情感的语音。

4. 实验与结果

数据集/基准：在 VoxCeleb2 上训练，在 LRS2、LRS3 以及真实电影片段（CinePile）上进行零样本测试。
对比基线：与FTV、AlignDiT、EmoDubber、DiffV2S、Lip2Wav等SOTA方法进行对比。
主要实验结果：
- 主观评价：在LRS3上，HiCoDiT的自然度MOS（3.17）和同步性MOS（3.50）均优于所有基线（如FTV分别为2.80和3.48）。
- 客观指标：在LRS3上，HiCoDiT取得了最低的词错误率（WER 29.41）和最佳的唇同步分数（LSE-C 9.62），表明其在语义准确性和口型同步上具有显著优势。
消融实验：
- 移除层级建模会导致所有指标显著下降，证明了利用语音层级先验的必要性。
- 移除双尺度AdaLN会导致情感准确率（EmoAcc）下降，验证了该模块对捕捉局部韵律动态的有效性。

5. 优势与局限

主要优势：
1. 精准的跨模态对齐：通过分层建模，实现了视觉特征与语音内容、音色、韵律的精细化对齐。
2. 高保真与高表现力：生成的语音在主观听感和口型同步上达到了新的SOTA水平。
3. 解耦控制：模型结构天然支持对内容、音色和韵律的解耦控制。
局限性：
1. 说话人相似度：在仅使用视频引导时，说话人相似度略低于FTV模型，作者认为这主要归因于训练数据中说话人多样性的限制。
2. 依赖多个预训练提取器：方法依赖于唇动、身份和表情等多个预训练视觉特征提取器，系统的复杂性较高。

6. 关键结论与启发

最重要的 Takeaway：在视频转语音任务中，承认并利用语音的层级结构（而非将其视为扁平序列）是突破性能瓶颈的关键。将特定的视觉特征（如表情）映射到特定的语音层级（如韵律）比混合映射更有效。
启发与延伸：
- 这一思路可以推广到其他跨模态生成任务，例如利用层级结构来处理视频到音乐的生成。
- 未来的研究可以进一步探索如何在不增加训练数据规模的情况下，提升零样本场景下的说话人相似度。

#13

cs.SD

AST: Adaptive, Seamless, and Training-Free Precise Speech Editing

Sihan Lv, Yechen Jin, Zhen Li, Jintao Chen, Jinshan Zhang 等 (8 人)

Sound (cs.SD); Artificial Intelligence (cs.AI)

📄 Abstract 📥 PDF

查看摘要

Text-based speech editing aims to modify specific segments while preserving speaker identity and acoustic context. Existing methods rely on task-specific training, which incurs high data costs and struggles with temporal fidelity in unedited regions. Meanwhile, adapting Text-to-Speech (TTS) models often faces a trade-off between editing quality and consistency. To address these issues, we propose AST, an Adaptive, Seamless, and Training-free precise speech editing framework. Leveraging a pre-trained autoregressive TTS model, AST introduces Latent Recomposition to selectively stitch preserved source segments with newly synthesized targets. Furthermore, AST extends this latent manipulation to enable precise style editing for specific speech segments. To prevent artifacts at these edit boundaries, the framework incorporates Adaptive Weak Fact Guidance (AWFG). AWFG dynamically modulates a mel-space guidance signal, enforcing structural constraints only where necessary without disrupting the generative manifold. To fill the gap of publicly accessible benchmarks, we introduce LibriSpeech-Edit, a new and larger speech editing dataset. As existing metrics poorly evaluate temporal consistency in unedited regions, we propose Word-level Dynamic Time Warping (WDTW). Extensive experiments demonstrate that AST resolves the controllability-quality trade-off without extra training. Compared to the previous most temporally consistent baseline, AST improves consistency while reducing Word Error Rate by nearly 70%. Moreover, applying AST to a foundation TTS model reduces WDTW by 27%, achieving state-of-the-art speaker preservation and temporal fidelity.

📖 深度解读

1. 一句话总结

这篇论文提出了一个名为 AST 的免训练语音编辑框架，通过在潜在空间重组语音片段并引入自适应引导机制，实现了在不改变未编辑区域说话人特征和时间对齐的前提下，对语音进行精准的文本和风格编辑。

2. 研究背景与动机

核心问题：如何根据文本转录修改语音录音中的特定片段，同时完美保留未修改部分的说话人身份、韵律模式和声学上下文。
重要性：该技术在播客后期制作、电影配音修正以及语音内容的迭代优化中具有极高的实用价值。
现有方法的不足：
1. 依赖特定训练：现有的专用编辑模型（如 EditSpeech, VoiceCraft）需要昂贵的任务特定数据训练，且难以泛化到未见过的数据。
2. 质量与可控性的权衡：直接使用现成的预训练 TTS 模型进行编辑时，虽然生成质量高，但往往会导致未编辑区域的韵律发生意外漂移，无法保持严格的时间对齐。

3. 核心方法

方法/模型：AST（Adaptive, Seamless, and Training-free），一个基于预训练自回归流匹配（AM-FM）TTS 模型的免训练框架。
关键创新点：
1. 潜在重组：将原始语音“倒推”回潜在空间，根据文本对齐结果，将原始片段的潜在特征与新生成内容的潜在特征拼接。
2. 自适应弱事实引导（AWFG）：一种动态加权机制，用于在生成过程中平滑编辑边界，消除拼接产生的伪影。
3. 局部风格编辑：支持仅对特定片段修改情感或风格，而不影响全局。
核心思路直觉：
想象你在编辑一段视频。AST 首先将原始视频“倒带”回其原始的时间轴（潜在空间）。然后，它根据剧本（文本对齐），把不需要修改的片段保留在原位，把需要修改的部分替换为新的“素材”（从噪声生成）。为了防止拼接处出现跳帧，AST 使用了一种“智能胶水”（AWFG），它只在拼接处施加微弱的拉力，让新旧片段自然过渡，而在其他地方则让模型自由发挥，从而既保证了修改的准确性，又完美保留了未修改部分的原始节奏。

4. 实验与结果

数据集/基准：
- 提出了新的公开数据集 LibriSpeech-Edit（基于 LibriSpeech test-clean 构建，包含 2000 个样本）。
- 提出了新的评估指标 WDTW（Word-level Dynamic Time Warping），用于更精准地衡量未编辑区域的局部时间对齐度。
对比基线：
- SSR-Speech（专用任务模型）
- Step-Audio-EditX（微调过的 TTS 模型）
- IndexTTS-2（原始预训练 TTS 模型）
主要实验结果：
- 说话人相似度：达到 0.986（SOTA），表明说话人身份保留极佳。
- 时间保真度 (WDTW)：达到 0.2025（SOTA），相比基线 IndexTTS-2 (0.2768) 大幅降低，说明未编辑部分的时间对齐非常精准。
- 词错误率 (WER)：为 2.91%，相比之前的最佳基线降低了近 70%。
消融实验：
- 移除 AWFG 模块后，WER 从 2.9% 飙升至 6.9%，WDTW 也有所上升，证明了 AWFG 对于消除边界伪影和保证生成准确性至关重要。

5. 优势与局限

主要优势：
1. 免训练：无需任何任务特定的微调或额外训练，直接利用现成的预训练 TTS 模型，降低了数据成本和部署门槛。
2. 极高的可控性：完美解决了未编辑区域的韵律漂移问题，实现了严格的时间对齐和说话人特征保留。
3. 局部风格编辑：支持对特定片段进行情感或风格修改，且不影响上下文，这是许多全局模型无法做到的。
局限性：
1. 架构依赖：该方法依赖于特定的 AM-FM（自回归 + 流匹配）架构的 TTS 模型，可能无法直接迁移到旧架构或其他类型的生成模型上。
2. 轻微的质量权衡：为了严格保持未编辑区域的结构，在整体音频的自然度评分（DNSMOS）上相比纯生成模型可能有极微小的下降（虽然实验显示差异很小）。

6. 关键结论与启发

最重要的 Takeaway：
通过精巧的潜在空间操作（倒推、重组、引导），我们可以让一个通用的 TTS 模型变成一个精准的语音编辑器，且完全不需要重新训练。这证明了“结构约束”比“数据训练”在保持编辑一致性上更有效。
启发与延伸方向：
1. 范式转移：未来的语音编辑研究可以更多关注如何利用预训练大模型的内部表示，而不是从头训练专用小模型。
2. 指标完善：WDTW 的提出提示我们，评估编辑任务需要更细粒度的指标（如局部对齐），而不仅仅是全局的 MOS 分。
3. 应用扩展：这种“免训练编辑”的思路可以尝试应用到音频的其他领域，如音乐编辑或音效修复。

#14

cs.SD

NVBench: A Benchmark for Speech Synthesis with Non-Verbal Vocalizations

Liumeng Xue, Weizhen Bian, Jiahao Pan, Wenxuan Wang, Yilin Ren 等 (12 人)

Sound (cs.SD)

📄 Abstract 📥 PDF

查看摘要

Non-verbal vocalizations (NVVs) like laugh, sigh, and sob are essential for human-like speech, yet standardized evaluation remains limited in jointly assessing whether systems can generate the intended NVVs, place them correctly, and keep them salient without harming speech. We present Non-verbal Vocalization Benchmark (NVBench), a bilingual (English/Chinese) benchmark that evaluates speech synthesis with NVVs. NVBench pairs a unified 45-type taxonomy with a curated bilingual dataset and introduces a multi-axis protocol that separates general speech naturalness and quality from NVV-specific controllability, placement, and salience. We benchmark 15 TTS systems using objective metrics, listening tests, and an LLM-based multi-rater evaluation. Results reveal that NVVs controllability often decouples from quality, while low-SNR oral cues and long-duration affective NVVs remain persistent bottlenecks. NVBench enables fair cross-system comparison across diverse control interfaces under a unified, standardized framework.

📖 深度解读

1. 一句话总结

这篇论文提出了 NVBench，一个包含 45 种非语言声音（如笑声、叹息）分类的中英文基准测试集及多维度评估协议，用于系统化评估 TTS 模型生成非语言声音的能力，揭示了当前模型在处理细微口部声音和长时情感声音上仍存在显著瓶颈。

2. 研究背景与动机

核心问题：现有的语音合成（TTS）评估缺乏统一标准，难以全面衡量系统在生成非语言声音（NVVs，如笑、叹气、啜泣）时的类型准确性、插入位置恰当性以及感知显著性。
重要性：非语言声音承载了人类交流中关键的情感和社交信号，是实现真正“像人一样”自然对话的必要条件，而不仅仅是朗读文字。
现有不足：
- 现有数据集和系统的 NVV 标签碎片化，覆盖范围窄（通常只有几种笑声）。
- 评估方法往往只关注语音整体质量，忽略了 NVV 的可控性（是否按指令生成）和表现力。
- 缺乏对不同控制接口（如文本标签 vs 自然语言提示）的公平横向对比。

3. 核心方法

方法/框架：NVBench，一个标准化的 TTS 评估基准，包含统一的分类体系、精选的双语文本数据集以及多维度评估协议。
关键创新点：
1. 45 类统一分类法：将 NVVs 系统性地分为呼吸、喉咙/生理、笑声谱系、哭泣谱系、情感发声、口部/杂项六大类，覆盖了从简单的呼吸到复杂的啜泣等 45 种细粒度类型。
2. 高质量双语数据集构建：通过“种子挖掘-受控生成-迭代验证”的三阶段流水线，利用 LLM 辅助生成并经人工校验，构建了包含 4500 条高质量、类型平衡的中英文样本。
3. 多维度评估协议：将评估解耦为“通用语音质量”（清晰度、自然度）和“NVV 特有能力”（可控性、位置准确性、感知显著性），并结合了客观指标、人类听感测试和 LLM 自动评分。
核心思路直觉：
这就好比给 TTS 系统设计了一场专门的“驾驶考试”。以前只考车能不能开动（语音质量），现在还要考它能不能在特定时间、特定地点做出特定的复杂动作（如精准地在句尾插入一声“叹息”且听起来不突兀）。通过制定统一的考试大纲（分类法）和多位考官（人+LLM），确保了评分的公正和全面。

4. 实验与结果

数据集/基准：NVBench 数据集（2250 英文 + 2250 中文），涵盖 45 种 NVV 类型。
基线方法：15 个主流 TTS 系统，分为两类：
- 基于标签：如 ElevenLabs, ChatTTS, Bark 等（输入文本中插入 [laugh] 等标签）。
- 基于提示：如 GPT-4o, Gemini 2.5, Qwen3-TTS 等（通过自然语言描述生成）。
主要结果：
- 性能分化：在基于标签的系统中，ElevenLabs 表现最佳，平衡了覆盖率和准确性；在基于提示的系统中，Gemini 2.5 Pro 和 Qwen3-TTS 领先。
- 解耦现象：实验发现一个关键现象——语音的高质量并不等同于 NVV 的高可控性。有些系统语音很清晰，但完全无法执行生成特定笑声的指令。
- 瓶颈识别：所有系统在两类 NVV 上表现极差：低信噪比的口部声音（如咂嘴 tsk、吞咽 gulp）和长时情感声音（如啜泣 sobbing、哭喊 wail）。
消融实验：对比了“有 NVV 控制”和“无 NVV 控制”的生成结果。结果显示，对于 ElevenLabs，加入 NVV 显著提升了表现力；但对于部分基于提示的模型，强制加入 NVV 反而可能因为幻觉（生成多余内容）而降低自然度。

5. 优势与局限

主要优势：
1. 全面性：提供了目前最细粒度（45 类）的 NVV 分类体系，填补了该领域评估标准的空白。
2. 鲁棒性：结合了客观指标、人类主观评分和 LLM 评分，避免了单一评估方式的偏差。
3. 公平性：统一了不同控制接口（标签 vs 提示）的评估标准，使得跨系统比较成为可能。
局限性：
1. 数据规模：虽然质量高且平衡，但 4500 条样本的规模对于训练大模型来说仍显有限，主要用于评估。
2. 依赖 LLM：数据构建和评估环节依赖 LLM（如 Gemini），虽然有人工校验，但仍可能引入模型固有的偏见或幻觉风险。
3. 评估成本：人类听感测试和 LLM 多轮评估的计算成本较高。

6. 关键结论与启发

最重要的 Takeaway：当前的 TTS 系统虽然在朗读清晰度上已接近人类，但在“非语言交流”的细腻程度上仍处于初级阶段，尤其是难以处理那些微小的、持续时间长的情感表达。
启发与延伸方向：
1. 数据与模型改进：未来的 TTS 训练需要更多针对“困难样本”（如口部杂音、长时哭泣）的高质量数据，而不仅仅是常见的笑声。
2. 时序建模：模型需要更强的时序控制能力，以精准把控长时情感声音的持续时间和强度变化。
3. 评估范式：NVBench 的多维度评估协议可以推广到其他语音生成任务中，用于区分“读得准”和“演得像”。

#15

cs.SD

NaijaS2ST: A Multi-Accent Benchmark for Speech-to-Speech Translation in Low-Resource Nigerian Languages

Marie Maltais, Yejin Jeon, Min Ma, Shamsuddeen Hassan Muhammad, Idris Abdulmumin 等 (10 人)

Sound (cs.SD)

📄 Abstract 📥 PDF

查看摘要

Speech translation for low-resource languages remains fundamentally limited by the scarcity of high-quality, diverse parallel speech data, a challenge that is especially pronounced in African linguistic contexts. To address this, we introduce NaijaS2ST, a parallel speech translation dataset spanning Igbo, Hausa, Yorùbá, and Nigerian Pidgin paired with English. The dataset comprises approximately 50 hours of speech per language and captures substantial variation in speakers and accents, reflecting realistic multilingual and multi-accent conditions. With NaijaS2ST, we conduct a comprehensive benchmark of cascaded, end-to-end (E2E), and AudioLLM-based approaches across bidirectional translation settings. Our results show that audio LLMs with few-shot examples are more effective for speech-to-text translation than cascaded and end-to-end methods trained on fine-tuned data. However, for speech-to-speech translation, the cascaded and audio LLM paradigms yield comparable performance, indicating that there is still considerable room for improvement in developing targeted, task-specific models for this setting. By providing both a high-quality dataset and a systematic benchmark, we hope that NaijaS2ST will serve as a strong foundation for advancing research in low-resource, multilingual speech translation.

📖 深度解读

1. 一句话总结

这篇论文发布了一个名为 NaijaS2ST 的多口音尼日利亚低资源语言语音翻译数据集，并系统评估了级联、端到端及音频大语言模型在该任务上的表现，发现音频大模型在语音转文本上表现最佳，但在语音转语音上仍与级联模型相当。

2. 研究背景与动机

核心问题：针对尼日利亚主要语言（如伊博语、豪萨语、约鲁巴语、尼日利亚皮钦语）的高质量、多口音、双向的语音到语音翻译（S2ST）数据极其匮乏。
重要性：非洲语言在全球语言多样性中占比很大，但在 AI 技术中代表性严重不足。缺乏高质量数据阻碍了语音翻译技术在这些地区的普及，限制了信息获取的公平性。
现有不足：现有的尼日利亚语言数据集主要集中在语音识别（ASR）或语音合成（TTS）任务，缺乏平行语料的语音翻译数据；且现有评估多针对单一口音或单向翻译（如非英语到英语），无法反映真实的多口音、多语言环境。

3. 核心方法

方法/框架：论文构建了 NaijaS2ST 数据集，并基于此进行了 系统性基准测试。
- 数据集构建：整合现有的文本平行语料（如 NTREX, SSA-MT），通过 Telegram 招募母语者进行录音，经过严格的质量控制，最终构建了包含英语（含英式和尼日利亚口音）、豪萨语、伊博语、约鲁巴语和尼日利亚皮钦语的平行语音数据集，每种语言约 50 小时。
- 基准测试：对比了三类主流范式：
  1. 级联模型：ASR（语音识别）+ MT（机器翻译）+ TTS（语音合成）。
  2. 端到端模型（E2E）：如 SeamlessM4T，直接从语音映射到语音或文本。
  3. 音频大语言模型：如 Gemini 2.5/3.1, GPT-Audio，利用大模型的上下文学习能力处理语音。
关键创新点：
1. 首个针对尼日利亚主要语言的高质量、多口音、双向语音到语音翻译数据集。
2. 引入了真实的口音多样性（特别是尼日利亚英语口音），填补了现有基准的空白。
3. 全面对比了传统级联方法、端到端模型与最新的音频大模型在低资源场景下的表现。
核心思路直觉：作者认为要推动低资源语音翻译的发展，首先得有“考题”（高质量数据集）。通过让不同类型的“考生”（模型架构）做这套题，发现虽然最新的音频大模型（如 Gemini）在理解语音和翻译文本上很强，但在直接生成语音方面，传统的“分步走”（级联）方案依然很有竞争力。

4. 实验与结果

数据集/基准：NaijaS2ST（涵盖豪萨语、伊博语、约鲁巴语、尼日利亚皮钦语与英语的双向翻译）。
基线方法：
- 级联方法：Omnilingual-ASR + NLLB/TinyAya + Gemini TTS。
- 端到端方法：SeamlessM4T（包括零样本、单语微调、多语微调）。
- 音频大模型：Gemini 2.5, Gemini 3.1, GPT-Audio 1.5。
主要结果：
- 语音到文本（S2TT）：音频大模型表现最佳。Gemini 3.1（Few-shot）在 SSA-COMET 指标上平均得分约 63.8，显著优于微调后的 SeamlessM4T（约 55.9）和级联模型（约 49.2）。
- 语音到语音（S2ST）：音频大模型（Gemini 2.5 + TTS）与级联模型表现相当，互有胜负，但端到端的 SeamlessM4T 表现较差。这表明目前的 S2ST 瓶颈主要在于翻译质量而非语音合成。
- 微调效果：对于端到端模型，微调至关重要。零样本推理在低资源语言上表现极差（尤其是豪萨语），而微调后性能大幅提升。
消融实验/发现：
- 训练策略：在“低资源语言 -> 英语”方向，单语微调效果更好；在反向“英语 -> 低资源语言”方向，多语联合微调更有优势。
- 评估偏差：研究发现通用的 ASR 评估模型难以处理尼日利亚口音，导致评分偏低。作者微调了评估用的 ASR 模型（Naija-Omni），证实了评估指标本身存在口音偏差问题。

5. 优势与局限

主要优势：
1. 数据价值高：填补了非洲语言语音翻译数据的空白，数据质量经过严格 QC，且包含真实的多口音场景。
2. 评估全面：不仅比较了不同架构，还深入分析了评估指标在不同口音下的偏差问题。
3. 结论具有指导性：明确了在低资源 S2ST 任务中，音频大模型在翻译环节的优势，以及级联架构在语音生成环节的稳健性。
局限性：
1. 未考虑实时性：实验在离线环境下进行，未评估推理延迟和计算成本，而音频大模型通常计算开销大。
2. 提示工程探索有限：对音频大模型的提示策略探索不够深入，可能存在进一步优化的空间。
3. 数据规模限制：虽然对低资源语言而言已属不易，但约 50 小时的数据量相比高资源语言仍较小。

6. 关键结论与启发

最重要的 Takeaway：在低资源语音翻译中，音频大模型凭借其强大的泛化能力，在语音转文本任务上确立了新的 SOTA；但在语音到语音任务中，简单的级联架构依然生命力顽强，说明端到端的语音生成能力仍有待提升。
启发与延伸方向：
1. 评估指标优化：未来需要开发对口音更鲁棒、更公平的语音翻译评估指标。
2. 模型优化：针对低资源语言的 S2ST，可以探索结合音频大模型的翻译能力与高效 TTS 模型的混合架构。
3. 数据扩展：NaijaS2ST 为后续研究提供了基础，可以在此基础上扩展更多语言或更长的语音数据。

#16

cs.SD

Breakout-picker: Reducing false positives in deep learning-based borehole breakout characterization from acoustic image logs 跨领域

Guangyu Wang, Xiaodong Ma, Xinming Wu

Computer Vision and Pattern Recognition (cs.CV); Sound (cs.SD); Geophysics (physics.geo-ph)

📄 Abstract 📥 PDF

查看摘要

Borehole breakouts are stress-induced spalling on the borehole wall, which are identifiable in acoustic image logs as paired zones with near-symmetry azimuths, low acoustic amplitudes, and increased borehole radius. Accurate breakout characterization is crucial for in-situ stress analysis. In recent years, deep learning has been introduced to automate the time-consuming and labor-intensive breakout picking process. However, existing approaches often suffer from misclassification of non-breakout features, leading to high false positive rates. To address this limitation, this study develops a deep learning framework, termed Breakout-picker, with a specific focus on reducing false positives in automatic breakout characterization. Breakout-picker reduces false positives through two strategies. First, the training of Breakout-picker incorporates negative samples of non-breakout features, including natural fractures, keyseats, and logging artifacts. They share similar characteristics with breakouts, such as low acoustic amplitude or locally enlarged borehole radius. These negative training samples enables Breakout-picker to better discriminate true breakouts and similar non-breakout features. Second, candidate breakouts identified by Breakout-picker are further validated by azimuthal symmetry criteria, whereby detections that do not exhibit the near-symmetry characteristics of breakout azimuth are excluded. The performance of Breakout-picker is evaluated using three acoustic image log datasets from different regions. The results demonstrate that Breakout-picker outperforms other automatic methods with higher accuracy and substantially lower false positive rates. By reducing false positives, Breakout-picker enhances the reliability of automatic breakout characterization from acoustic image logs, which in turn benefits in-situ stress analysis based on borehole breakouts.

📖 深度解读

1. 一句话总结

这篇论文提出了一个名为 Breakout-picker 的深度学习框架，通过引入“困难负样本”训练和基于物理规律的方位对称性验证，显著降低了井壁崩落自动识别中的误报率，从而提高了地应力分析的可靠性。

2. 研究背景与动机

核心问题：现有的基于深度学习的井壁崩落自动识别方法存在较高的误报率，容易将天然裂缝、键槽等非崩落特征错误识别为崩落。
重要性：井壁崩落是分析地壳应力状态的关键指标，错误的识别（特别是误报）会直接导致地应力方向和大小计算的错误，影响工程安全。
现有不足：传统的峰值检测方法对噪声敏感；而现有的深度学习方法（如仅使用正样本训练）难以区分与崩落外观相似但物理本质不同的干扰特征（如钻井造成的键槽）。

3. 核心方法

方法/模型：Breakout-picker，这是一个基于 DeepLabV3+（使用 ResNet-18 作为骨干网络）的语义分割框架，输入为声波幅度和井径双通道数据。
关键创新点：
1. 困难负样本训练：在训练集中不仅包含真实的崩落样本（正样本），还特意加入了与崩落外观相似的非崩落特征（如键槽、大裂缝、测井伪影）作为负样本。
2. 方位对称性验证：在模型输出后，引入基于物理规律的规则进行后处理，要求识别出的崩落必须在井壁两侧呈现近似 180° 的对称分布。
核心思路直觉：
这就好比教一个学生（AI）认猫。以前只给他看猫的照片，他可能会把狗也认成猫。现在不仅给他看猫，还专门给他看那些长得特别像猫的狗（困难负样本），让他学会区分细节。此外，还加了一条规则：真正的猫通常成对出现（对称性），如果只发现一只，大概率认错了，从而进一步剔除错误。

4. 实验与结果

数据集/基准：主要使用瑞士 BedrettoLab 的 8 个钻孔数据（训练与测试），并在加拿大的 Hunt Well 和 IODP 1256D 钻孔（不同地质环境）上进行泛化测试。
对比基线：传统的峰值检测方法和现有的深度学习方法 MMDC-UNet。
主要结果：
- Breakout-picker 在测试集上显著降低了误报率（FPR）。例如在 ST1 钻孔中，FPR 从 MMDC-UNet 的 54% 降至 3%（验证后）。
- 保持了较高的方位角和宽度估计精度，IoU（交并比）指标优于基线方法。
消融实验揭示：
- 引入负样本训练有效减少了模型对干扰特征的误判。
- 方位对称性验证虽然大幅降低了误报，但也导致漏报率（FNR）上升（因为它会剔除不对称的真实崩落），这是一种权衡。

5. 优势与局限

主要优势：
1. 高可靠性：通过双重策略大幅减少了误报，使得地应力分析结果更加可信。
2. 泛化能力强：在分辨率和地质背景差异较大的外部数据集上仍表现良好。
3. 物理与数据结合：将深度学习的特征提取能力与岩石力学物理规律（对称性）相结合。
局限性：
1. 漏报风险：严格的对称性验证会剔除那些非对称发育的真实崩落（如井底附近或特殊地质条件下的崩落）。
2. 负样本覆盖度：训练集中的负样本类型有限，可能无法覆盖所有未知地质环境下的新型干扰特征。

6. 关键结论与启发

最重要的 Takeaway：在地应力分析任务中，宁可漏掉一些崩落样本，也不能接受误报，因为误报会严重污染应力方向的统计结果；因此，自动识别算法应优先考虑降低误报率。
启发与延伸：
- 样本工程的重要性：在类别极度不平衡且背景复杂的任务中，精心挑选“困难负样本”比单纯增加模型复杂度更有效。
- 领域知识引导：将物理先验知识（如几何对称性）作为后处理约束，是提升深度学习模型在科学计算领域落地可靠性的有效手段。未来可探索更灵活的物理约束规则，以减少对非对称真实崩落的误删。

#17

cs.SD

Language Models as Semantic Teachers: Post-Training Alignment for Medical Audio Understanding 跨领域

Tsai-Ning Wang, Lin-Lin Chen, Neil Zeghidour, Aaqib Saeed

Sound (cs.SD); Artificial Intelligence (cs.AI)

📄 Abstract 📥 PDF

查看摘要

Pre-trained audio models excel at detecting acoustic patterns in auscultation sounds but often fail to grasp their clinical significance, limiting their use and performance in diagnostic tasks. To bridge this gap, we introduce AcuLa (Audio-Clinical Understanding via Language Alignment), a lightweight post-training framework that instills semantic understanding into any audio encoder by aligning it with a medical language model, which acts as a "semantic teacher." To enable alignment at scale, we construct a large-scale dataset by leveraging off-the-shelf large language models to translate the rich, structured metadata accompanying existing audio recordings into coherent clinical reports. Our alignment strategy combines a representation-level contrastive objective with a self-supervised modeling, ensuring that the model learns clinical semantics while preserving fine-grained temporal cues. AcuLa achieves state-of-the-art results across 18 diverse cardio-respiratory tasks from 10 different datasets, improving the mean AUROC on classification benchmarks from 0.68 to 0.79 and, on the most challenging COVID-19 cough detection task, boosting the AUROC from 0.55 to 0.89. Our work demonstrates that this audio-language alignment transforms purely acoustic models into clinically-aware diagnostic tools, establishing a novel paradigm for enhancing physiological understanding in audio-based health monitoring.

📖 深度解读

1. 一句话总结

这篇论文提出了 AcuLa 框架，利用医学大语言模型（LLM）作为“语义老师”，通过将音频编码器与临床文本进行对齐，成功赋予了医疗音频模型临床语义理解能力，在多项心肺听诊诊断任务上取得了显著性能提升。

2. 研究背景与动机

核心问题：现有的预训练音频模型擅长捕捉声音信号（如心音、肺音）的声学特征，但缺乏对声音背后“临床意义”的理解（即“语义盲”），导致它们在需要医学知识辅助的诊断任务中表现受限。
重要性：在医疗场景中，仅仅检测到声音（如杂音）是不够的，理解该声音对应的病理状态（如二尖瓣关闭不全）对于准确诊断至关重要。
现有不足：
1. 现有的多模态对比学习方法（如 CLIP）常存在“模态鸿沟”，难以实现细粒度的语义对齐。
2. 医疗领域缺乏大规模的“音频-临床文本”成对数据，限制了多模态模型的训练。
3. 现有方法多关注感知层面的对齐，未能有效利用 LLM 中丰富的抽象医学知识来指导音频模型。

3. 核心方法

方法/模型：AcuLa（Audio–Clinical Understanding via Language Alignment），一个轻量级的后训练对齐框架。
关键创新点：
1. 语义教师范式：将冻结的医学 LLM 视为“语义老师”，指导可训练的音频编码器（学生）学习，实现从抽象语义到具体声学模式的知识注入。
2. 合成数据生成：利用 GPT-4o 将现有的结构化元数据（如诊断标签、患者信息）转化为约 10 万条自然语言临床报告，解决了文本数据稀缺问题。
3. 双重目标优化：结合了基于中心核对齐（CKA）的表示对齐损失（学习语义）和音频自监督掩码重建损失（保留时序细节）。
核心思路直觉：
想象一位经验丰富的医生（LLM）在教导一位听力敏锐的实习生（音频模型）。医生根据病历写出一段描述（合成文本），实习生听对应的录音。训练的目标是让实习生听到的声音特征与医生描述的语义特征尽可能接近。为了防止实习生只顾着猜词而忽略了声音细节，还要求实习生能通过“完形填空”的方式还原被遮挡的音频片段，从而确保它既懂医学术语，又没丢掉对声音细节的敏感度。

4. 实验与结果

数据集/基准：在 10 个不同的公开数据集（如 ICBHI, Circor, COVID-19 咳嗽数据集等）上进行了评估，涵盖 18 项下游任务，包括呼吸健康分类、心脏状况分类和肺功能估计。
基线方法：对比了 VGGish, AudioMAE, CLAP, OPERA 系列模型以及传统手工特征提取器 OpenSMILE。
主要结果：
- AcuLa 在所有任务类别上均达到了最先进的性能（SOTA）。
- 在分类基准上，平均 AUROC 从 0.68 提升至 0.79。
- 在最具挑战性的 COVID-19 咳嗽检测任务中，AUROC 从 0.55 大幅跃升至 0.89。
消融实验揭示：
- 双重损失的必要性：移除对齐损失会导致性能大幅下降，移除自监督损失也会导致性能受损，说明两者缺一不可。
- LLM 的选择：使用医学领域专用模型（MedGemma-4B）作为老师效果最好，优于通用 LLM。
- 数据增强：移除数据增强会显著降低回归任务的性能，说明增强有助于模型对录音变化保持鲁棒。

5. 优势与局限

主要优势：
1. 模型无关性：AcuLa 是一个通用框架，可以增强各种预训练音频编码器（如 AudioMAE, CLAP），不局限于特定架构。
2. 数据利用高效：通过合成文本巧妙利用了现有的结构化元数据，无需昂贵的人工文本标注。
3. 性能提升显著：特别是在需要细微声学辨别的任务（如 COVID 检测、吸烟者识别）上表现优异。
局限性：
1. 依赖 LLM 的质量：框架的效果很大程度上取决于作为“老师”的 LLM 的医学知识储备和生成文本的质量。
2. 合成文本的局限：虽然经过专家验证，但 LLM 生成的报告仍可能缺乏真实医生笔记中的某些细微差别或包含幻觉。
3. 对齐粒度：目前的对齐是在片段级别进行的，尚未精确到毫秒级的事件对齐（如特定时间点的杂音）。

6. 关键结论与启发

最重要的 Takeaway：大语言模型（LLM）不仅能处理文本，还能作为“语义教师”将医学知识迁移到感知模型（如音频编码器）中，这种跨模态的知识蒸馏能显著提升模型在专业领域的诊断能力。
启发与延伸方向：
1. 范式迁移：这种“教师-学生”范式可以推广到其他生理信号领域，如利用 LLM 指导脑电图（EEG）或心电图（ECG）模型。
2. 人机协同：未来可以开发自纠正循环，当模型预测与医生描述不一致时，标记出来供人工审查，进一步提升临床可靠性。

#18

cs.SD

Histogram-based Parameter-efficient Tuning for Passive and Active Sonar Classification 跨领域

Amirmohammad Mohammadi, Davelle Carreiro, Alexandra Van Dine, Joshua Peeples

Machine Learning (cs.LG); Sound (cs.SD)

📄 Abstract 📥 PDF

查看摘要

Parameter-efficient transfer learning (PETL) methods adapt large artificial neural networks to downstream tasks without fine-tuning the entire model. However, existing additive methods, such as adapters, sometimes struggle to capture distributional shifts in intermediate feature embeddings. We propose a novel histogram-based parameter-efficient tuning (HPT) technique that captures the statistics of the target domain and modulates the embeddings. Experimental results on three downstream passive sonar datasets (ShipsEar, DeepShip, Vessel Type Underwater Acoustic Data (VTUAD)) demonstrate that HPT outperforms conventional adapters. Notably, HPT achieves 91.8% vs. 89.8% accuracy on VTUAD. For active sonar imagery (Watertank, Turntable), HPT is competitive with other PETL methods. Furthermore, HPT yields feature representations closer to those of fully fine-tuned models. Overall, HPT balances parameter savings and provides a distribution-aware alternative to existing adapters and shows a promising direction for transfer learning in resource-constrained environments. The code is publicly available: this https URL .

📖 深度解读

1. 一句话总结

这篇论文提出了一种基于直方图的参数高效微调（HPT）方法，通过捕捉并利用特征分布的统计信息来调整预训练模型，在被动和主动声纳分类任务中，以极少的参数量实现了优于传统适配器的性能。

2. 研究背景与动机

核心问题：水下声纳识别面临标注数据稀缺和环境多变导致的分布偏移问题，而现有的参数高效迁移学习（PETL）方法（如适配器 Adapter）在处理中间特征层的分布变化时往往表现不佳。
重要性：水下声纳识别对海洋监测、搜救等应用至关重要，但在边缘设备上部署大模型进行全量微调成本过高，需要高效的迁移方案。
现有不足：传统的适配器等方法通常是简单的线性变换，缺乏对数据分布差异的感知能力，难以有效对齐源域和目标域的特征分布。

3. 核心方法

方法名称：基于直方图的参数高效微调（Histogram-based Parameter-Efficient Tuning, HPT）。
关键创新点：
1. 将原本用于图像纹理分析的直方图层改造为适用于一维声纳序列的形式。
2. 将直方图层与 Transformer 中的多头自注意力机制（MHSA）并行集成。
3. 利用径向基函数（RBF）动态学习特征分布的区间中心和宽度。
核心思路直觉：
传统方法可能只是简单地对特征进行加减乘除，而 HPT 像是一个“统计学家”。它首先把输入的特征值通过一组可学习的“桶”进行归类（计算直方图），然后汇总整个序列的统计信息，最后把这些全局的统计背景信息广播回每一个时间步。这样，模型在处理每个局部信号时，都能感知到当前输入的整体分布环境，从而更好地适应不同水域或环境带来的分布差异。

4. 实验与结果

数据集/基准：
- 被动声纳：ShipsEar, DeepShip, VTUAD。
- 主动声纳：Watertank, Turntable。
- 基线模型：全量微调、线性探测、Adapter、LoRA、SSF（Scaling & Shifting Features）。
主要结果：
- 在 VTUAD 数据集上，HPT 达到了 91.8% 的准确率，显著优于 Adapter 的 89.8%，且参数量更少。
- 在 DeepShip 数据集上，HPT 达到 70.4%，是所有 PETL 方法中最高的。
- 特征相似性分析显示，HPT 生成的特征表示与全量微调模型最为接近，优于 Adapter。
消融实验：
- 增加直方图的“桶”数量通常能提升性能，且 HPT 的性能随着参数增加而持续提升，而 Adapter 容易饱和。
- 允许不同层拥有独立的直方图参数（非共享权重）比共享所有层参数效果更好。

5. 优势与局限

主要优势：
1. 分布感知能力强：通过显式建模特征分布，能更好地处理声纳数据中的环境差异。
2. 参数效率高：仅增加少量可训练参数即可接近全量微调的效果。
3. 特征保真度：学到的特征表示在语义上更接近全量微调的结果。
局限性：
1. 超参数敏感：性能依赖于直方图桶的数量设置。
2. 非全面领先：在某些数据集（如 VTUAD）上，结合多层插入点的 SSF 方法表现略好于 HPT。
3. 计算开销：虽然参数少，但计算 RBF 和池化操作可能比简单的线性 Adapter 引入稍多的计算量。

6. 关键结论与启发

最重要的 Takeaway：在参数高效微调中引入显式的统计分布建模（如直方图）是一种有效的策略，它能弥补传统 Adapter 在捕捉分布偏移上的不足。
启发与延伸：
- 未来可以探索自适应的直方图分桶算法，以减少人工调参。
- 可以尝试将 HPT 与 LoRA 等其他 PETL 技术结合，利用各自的优势（如分布感知与低秩分解）。
- 该方法不仅适用于声纳，也有潜力推广到其他存在显著分布偏移的信号或图像处理任务中。

#19

cs.SD

BlasBench: An Open Benchmark for Irish Speech Recognition 跨领域

Jyoutir Raj, John Conway

Computation and Language (cs.CL); Sound (cs.SD)

📄 Abstract 📥 PDF

查看摘要

Existing multilingual benchmarks include Irish among dozens of languages but apply no Irish-aware text normalisation, leaving reliable and reproducible ASR comparison impossible. We introduce BlasBench, an open evaluation harness that provides a standalone Irish-aware normaliser preserving fadas, lenition, and eclipsis; a reproducible scoring harness and per-utterance predictions released for all evaluated runs. We pilot this by benchmarking 12 systems across four architecture families on Common Voice ga-IE and FLEURS ga-IE. All Whisper variants exceed 100% WER through insertion-driven hallucination. Microsoft Azure reaches 22.2% WER on Common Voice and 57.5% on FLEURS; the best open model, Omnilingual ASR 7B, reaches 30.65% and 39.09% respectively. Models fine-tuned on Common Voice degrade 33-43 points moving to FLEURS, while massively multilingual models degrade only 7-10 - a generalisation gap that single-dataset evaluation misses.

📖 深度解读

1. 一句话总结

这篇论文提出了 BlasBench，一个针对爱尔兰语（Irish）语音识别的开放基准测试，通过引入专门的爱尔兰语文本规范化标准，评估了 12 种主流 ASR 系统，揭示了 Whisper 等通用模型在该语言上的灾难性失败以及单一数据集评估无法发现的泛化差距。

2. 研究背景与动机

核心问题：现有的多语言语音识别（ASR）基准测试虽然包含爱尔兰语，但通常使用通用的文本规范化方法，这会错误地去除爱尔兰语中具有语言学意义的拼写特征（如变音符号、辅音突变），导致模型评估结果不可靠且无法复现。
重要性：爱尔兰语是一种低资源语言，拥有复杂的正字法（如 fada 变音符号、首音辅音弱化和 eclipsing）。如果评估标准不正确，就无法准确衡量模型的真实性能，阻碍了该语言 ASR 技术的发展。
现有不足：
- 现有的多语言基准（如 FLEURS, MMS）将爱尔兰语混在数十种语言中，未采用爱尔兰语特定的规范化处理。
- 之前的研究（如 ABAIR 小组）主要使用私有数据或不同的评估协议，无法与现有的开源或商业模型进行公平对比。
- 社区中的开源模型在不同版本的 Common Voice 数据集上自我报告，缺乏统一的评估标尺。

3. 核心方法

方法/框架：BlasBench，一个开源的爱尔兰语 ASR 评估工具包。
关键创新点：
1. 爱尔兰语感知的文本规范化器：这是核心组件。不同于标准规范化器会丢弃变音符号，该规范化器保留了 fadas（如 á, é）、lenition（如 b -> bh）和 eclipsis（如 b -> mb）等语法特征，确保评分的语言学准确性。
2. 跨数据集泛化评估：强制要求在 Common Voice（社区朗读语音）和 FLEURS（专业朗读语音）两个数据集上同时评估，以检测模型的泛化能力。
3. 完全可复现的流水线：提供模型包装器、全局 WER/CER 计算以及 Bootstrap 置信区间计算，并发布所有预测结果和元数据。
核心思路直觉：
想象一个老师批改试卷，普通老师会把所有带口音的字母都算错（因为标准答案里没有），而 BlasBench 是一位懂爱尔兰语语法的高级老师，他知道 "bhean" 和 "bean" 在不同语境下都是对的。此外，BlasBench 不仅考学生课本上的内容（Common Voice），还考了课外阅读材料（FLEURS），以此区分学生是死记硬背还是真正学会了语言。

4. 实验与结果

数据集/基准：
- Common Voice 25.0 ga-IE（874 条，社区朗读语音）。
- FLEURS ga-IE（842 条，专业朗读语音）。
对比基线：12 个系统，涵盖 4 类架构：
- Whisper 系列（v2, v3, medium, turbo）。
- wav2vec 2.0 CTC（社区微调模型）。
- 大规模多语言模型（MMS-1B, Omnilingual ASR）。
- 商业模型。
主要实验结果：
- Whisper 惨败：所有 Whisper 变体在两个数据集上的 WER 均超过 100%（最高达 587.6%），主要原因是严重的“插入”错误，即模型在听到爱尔兰语时会幻觉输出大量无关的英语或威尔士语。
- 最佳表现：
  - 商业模型：Microsoft Azure 表现最好，在 CV 上 WER 为 22.2%，但在 FLEURS 上降至 57.5%。
  - 开源模型：Omnilingual ASR 7B 表现最好，CV 上 30.65%，FLEURS 上 39.09%。
消融实验/关键发现：
- 泛化差距：仅在 Common Voice 上微调的模型（如社区 wav2vec2 模型）在迁移到 FLEURS 时性能下降 33-43 个百分点；而大规模多语言预训练模型仅下降 7-10 个百分点。这证明了单一数据集评估会掩盖模型的泛化缺陷。

5. 优势与局限

主要优势：
1. 语言学准确性：提供了首个独立的爱尔兰语感知规范化器，解决了通用评估标准扭曲错误率的问题。
2. 可复现性与透明度：发布了所有预测结果、运行元数据和评估代码，使得未来研究无需重新运行旧模型即可进行对比。
3. 深刻的洞察：不仅给出了排名，还深入分析了 Whisper 失败的原因（幻觉）和不同训练策略对泛化能力的影响。
局限性：
1. 数据覆盖有限：测试集仅包含朗读语音，缺乏对话式爱尔兰语数据；样本量较小（约 800+ 条），限制了统计显著性。
2. 方言标注缺失：现有公共数据缺乏方言标签，无法进行分层评估。
3. 对比不完全受控：与目前 SOTA（ABAIR 的 Fotheidil）的对比仅供参考，因为后者使用了私有数据和不同的规范化器。

6. 关键结论与启发

最重要的 Takeaway：
对于爱尔兰语这样的低资源语言，不能盲目依赖像 Whisper 这样的通用大模型（它们甚至会完全失效），也不能仅凭在 Common Voice 上的成绩来判断模型好坏。必须使用语言特定的评估标准（保留拼写变异）并在多个数据集上验证泛化能力。
启发与延伸方向：
1. 数据是瓶颈：论文指出限制爱尔兰语 ASR 进步的主要因素是架构，而是缺乏标注数据。
2. 评估自动化：BlasBench 的确定性评分使其适合集成到自动化研究流水线中。
3. 方法论推广：这种“语言感知规范化 + 跨语料泛化测试”的基准构建思路，可以推广到其他具有复杂正字法的低资源语言（如苏格兰盖尔语、乌尔都语等）。