arXiv 每日论文精读

📡 eess.AS / cs.SD
Audio and Speech Processing, Sound
2026年04月22日
LLM: glm-5.1
28
论文总数
12
跨领域
19
成功解读
9
待处理
#1
eess.AS

Self-Noise Reduction for Capacitive Sensors via Photoelectric DC Servo: Application to Condenser Microphones

Hirotaka Obo, Atsushi Tsuchiya, Tadashi Ebihara, Naoto Wakatsuki
Audio and Speech Processing (eess.AS)
查看摘要
The self-noise of capacitive sensors, primarily caused by thermal noise from the gate-bias resistor in the preamplifier, imposes a fundamental limit on measurement sensitivity. In electret condenser microphones (ECMs), this resistor simultaneously determines the noise low-pass cutoff frequency and the signal high-pass cutoff frequency through a single RC time constant, creating a trade-off between noise reduction and signal bandwidth. This paper proposes PDS-Amp (Photoelectric DC Servo Amplifier), a circuit technique that replaces the gate-bias resistor with a photoelectric element functioning as an ultra-high-impedance current source. A DC servo loop using lag-lead compensation feeds back the preamplifier output through an LED to control the photocurrent, thereby stabilizing the gate bias while decoupling the noise and signal cutoff frequencies. A custom photosensor based on the external photoelectric effect of a zinc photocathode was fabricated to achieve sub-picoampere dark current, overcoming the limitations of commercial semiconductor photodiodes. Combined with a cascode JFET preamplifier that minimizes input capacitance through bootstrap action, PDS-Amp achieved a self-noise of 11 dBA with a 12 pF dummy microphone. Despite using a small-diameter ECM capsule, this performance is comparable to that of large-diaphragm condenser microphones costing several thousand dollars. Recording experiments with an actual ECM capsule qualitatively confirmed a significant reduction in background noise. The proposed technique is applicable not only to microphones but broadly to capacitive sensors including accelerometers, pressure sensors, and pyroelectric sensors.

📖 深度解读

1. 一句话总结

本文提出了一种名为PDS-Amp的光电直流伺服放大器技术,通过用光电元件替代电容传感器前置放大器中的栅极偏置电阻,成功打破了噪声抑制与信号带宽之间的物理权衡,使低成本微型麦克风达到了媲美昂贵大振膜麦克风的自噪声水平。

2. 研究背景与动机

  • 核心问题:电容传感器(如驻极体电容麦克风ECM)的自噪声主要来源于前置放大器中栅极偏置电阻的热噪声,这严重限制了传感器的测量灵敏度。
  • 重要性:麦克风的自噪声必须远低于目标环境的背景噪声,否则传感器自身就会成为噪声源(例如20 dBA自噪声的麦克风无法真实录制20 dBA的环境音)。目前市面上微型ECM和MEMS麦克风的自噪声极少能突破20 dBA的壁垒。
  • 现有不足:在传统的RC偏置电路中,同一个RC时间常数同时决定了噪声的低通截止频率和信号的高通截止频率,形成了无法调和的“跷跷板”效应:增大电阻可以降低可听频段的噪声,但会同时削减信号的低频带宽,并导致直流偏置点极不稳定(建立时间长、易受温湿度影响漂移)。传统降低噪声的方法只能依赖增大振膜面积或施加高压,这与设备微型化诉求背道而驰。

3. 核心方法

  • 提出方法:PDS-Amp(Photoelectric DC Servo Amplifier,光电直流伺服放大器)。
  • 关键创新点
    1. 用光电元件替代物理电阻:将产生热噪声的栅极偏置电阻替换为基于外光电效应的光电元件(光控电流源),其极高阻抗将噪声低通截止频率压到极低,且将噪声机制从热噪声转变为更微弱的散粒噪声。
    2. 光电DC伺服环路解耦:引入由滞后-超前补偿器控制的LED-光电元件闭环反馈系统,独立控制栅极直流偏置的稳定,从而将信号的高通截止频率独立设置在10-20 Hz,彻底打破了传统RC电路的耦合限制。
    3. 定制超低暗电流光电管:商业半导体光电二极管的暗电流(pA级)仍大于JFET的栅极漏电流,无法实现偏置平衡。因此,团队利用锌阴极的外光电效应,定制了暗电流几乎为零的真空光电管。
    4. 自举共源共栅前置放大器:采用JFE2140 JFET构建共源共栅电路,利用自举效应极大抑制了米勒效应,将前置放大器的输入电容降至最低,避免了微弱信号的电容分压衰减。
  • 核心思路直觉解释:传统电路里,偏置电阻就像一个“兼职员工”,既负责提供直流偏置,又负责过滤噪声,还要放行信号,导致它顾此失彼。PDS-Amp的做法是“专业的人做专业的事”:用一个对光敏感的“光控阀门”(光电元件)代替电阻,它对交流信号呈现无穷大阻抗(把噪声死死挡在门外),同时用一束由输出信号控制的光(DC伺服)来微调这个阀门的开度,从而稳定直流工作点,并让声音信号顺畅通过。

4. 实验与结果

  • 数据集/基准:使用12 pF的MLCC模拟麦克风(用于隔离纯电路噪声)和实际的C9767BB422LFP ECM麦克风舱(约0.16美元的廉价通用舱)。
  • 基线方法:传统1 GΩ偏置电阻方法、未修改的商用ECM(C9767,约23.1 dBA / 34 dBA)。
  • 主要实验结果
  • 噪声频谱密度(NSD):PDS-Amp在整个可听频段(10 Hz-20 kHz)的NSD均低于传统1 GΩ电阻方法,在低频段(10-1000 Hz)改善尤为显著。
  • 自噪声绝对值:在12 pF模拟麦克风上,PDS-Amp实现了11 dBA的超低自噪声。相比之下,传统商用微型麦克风多在30 dBA左右。11 dBA的性能已达到造价数千美元的大振膜录音室麦克风的水平。
  • 录音实验:在消声室中录制微弱声音,未修改的麦克风波形被自噪声淹没,而搭载PDS-Amp的麦克风背景噪声显著降低,微弱声音波形清晰可见。
  • 消融实验/深入分析:实验揭示了PDS-Amp的NSD曲线在低频呈现约-10 dB/dec的斜率,这与传统RC电路的-20 dB/dec不同。论文指出这可能是JFET的1/f噪声或光电元件闪烁噪声所致,确切物理起源尚待未来研究。

5. 优势与局限

  • 主要优势
    1. 颠覆性的性价比与微型化:无需增大振膜尺寸或使用高压,仅通过电路改造就让0.16美元的微型麦克风达到了顶级大振膜麦克风的信噪比水平。
    2. 根本性的理论突破:彻底解开了传统RC偏置电路中噪声截止与信号截止频率绑定的死结。
    3. 普适性强:该技术不仅适用于麦克风,还可直接推广至加速度计、压力传感器、热释电传感器等所有电容型传感器。
  • 局限性
    1. 器件稳定性与寿命:定制的锌阴极光电管采用环氧树脂密封和除氧处理,其长期抗老化性、密封性及在持续紫外线照射下的可靠性尚未得到验证。
    2. 系统复杂度与集成度:引入了DC伺服环路、LED和定制光电管,增加了电路的复杂性、成本和体积,且光电元件与LED的近距离安装对封装设计提出了限制。
    3. 未达物理极限:当前系统的噪声下限受限于JFET的输入偏置电流(栅极漏电流),而非光电元件本身;且实际麦克风振膜的布朗运动噪声会使整体自噪声高于纯电路测试的11 dBA。

6. 关键结论与启发

  • 最重要的Takeaway:电容传感器的自噪声并非不可逾越的物理屏障,通过将偏置电阻替换为光控电流源并引入光电伺服环路,可以在不牺牲信号带宽和设备微型化的前提下,将自噪声推至极低水平。
  • 后续研究启发
    1. 集成化方向:未来可通过单芯片集成或与MEMS工艺结合,解决当前分立元件过多、封装受限的问题,推动该技术走向消费级量产。
    2. 噪声机制深挖:对-10 dB/dec斜率噪声来源的深入探究,可能揭示JFET或光电元件在极低电流下的新物理特性。
    3. 跨领域应用拓展:将PDS-Amp应用于高精度占用传感器(减少误报)或桥梁/隧道的结构健康监测(SHM加速度计),有望在工业与物联网领域催生新一代高灵敏度电容传感方案。
#2
eess.AS

Reducing the Offline-Streaming Gap for Unified ASR Transducer with Consistency Regularization

Andrei Andrusenko, Vladimir Bataev, Lilit Grigoryan, Nune Tadevosyan, Vitaly Lavrukhin 等 (6 人)
Audio and Speech Processing (eess.AS); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Human-Computer Interaction (cs.HC)
查看摘要
Unification of automatic speech recognition (ASR) systems reduces development and maintenance costs, but training a single model to perform well in both offline and low-latency streaming settings remains challenging. We present a Unified ASR framework for Transducer (RNNT) training that supports both offline and streaming decoding within a single model, using chunk-limited attention with right context and dynamic chunked convolutions. To further close the gap between offline and streaming performance, we introduce an efficient Triton implementation of mode-consistency regularization for RNNT (MCR-RNNT), which encourages agreement across training modes. Experiments show that the proposed approach improves streaming accuracy at low latency while preserving offline performance and scaling to larger model sizes and training datasets. The proposed Unified ASR framework and the English model checkpoint are open-sourced.

📖 深度解读

1. 一句话总结

这篇论文提出了一种基于一致性正则化(MCR-RNNT)的统一语音识别框架,在单个Transducer模型中同时支持离线和高精度低延迟流式识别,有效缩小了两种模式之间的性能差距。

2. 研究背景与动机

  • 核心问题:如何在一个ASR模型中同时实现高精度的离线识别和低延迟的流式识别,且不显著牺牲任何一方的性能。
  • 重要性:维护独立的离线和流式模型会大幅增加开发、训练和部署的成本,统一模型能显著降低这些开销。
  • 现有不足:虽然Conformer架构的Transducer(RNNT)适合流式推理,但在低延迟(如前瞻延迟<0.5秒)流式场景下,由于注意力机制和卷积块对上下文的限制,模型性能会出现急剧下降;现有的统一训练方法在极低延迟下仍存在严重的“模式冲突”,且缺乏在大规模数据和模型上的验证。

3. 核心方法

  • 提出框架:Unified ASR Transducer框架,结合了带右上下文的分块受限注意力与动态分块卷积(DCConv),并引入了模式一致性正则化(MCR-RNNT)。
  • 关键创新点
    1. 动态分块与右上下文结合:在训练时动态采样不同的分块大小(C)和右上下文(R),使模型适应不同延迟需求。
    2. 动态分块卷积(DCConv):替代传统因果卷积,在流式模式下按分块重塑隐藏状态,减少训练与推理时的上下文不匹配。
    3. 模式一致性正则化(MCR-RNNT):在双模式训练中,强制离线模式(教师)和流式模式(学生)的RNNT联合输出logits分布保持一致,使用对称KL散度缩小模式间的表征差异。
    4. 高效的Triton GPU实现:针对大词表导致RNNT联合张量显存爆炸的问题,使用Triton编写融合核,在线计算log-softmax和KL散度,几乎零额外显存开销。
  • 核心思路直觉解释:就像让一个同声传译员(流式模式)和看完稿子再翻译的译员(离线模式)同场竞技,虽然同传听到的未来信息少,但通过一种“对答案”的机制(一致性正则化),强迫同传在有限信息下尽量得出和看完稿子一样的结论,从而逼迫模型学会在信息不足时也能做出稳健的判断。

4. 实验与结果

  • 数据集/基准:使用Open ASR Leaderboard(包含AMI, Earnings22, LibriSpeech等8个测试集)进行评估;训练数据为12万小时和28万小时的英文Granary数据集。
  • 基线方法:纯离线模型、纯流式模型(含Cache-aware和Mamba2+DCConv)、单模式统一训练(SM)、双模式统一训练(DM)。
  • 主要实验结果
  • L-size模型(~128M参数):提出的DM+MCR-RNNT在离线WER为6.63%,在0.24s极低延迟下WER为9.04%,全面超越标准统一训练(SM在0.24s下为13.33%,DM为16.91%),且与纯流式模型(9.84%)相比大幅领先。
  • XL-size模型(~600M参数):在28万小时数据上,平衡版模型离线WER达5.91%,0.24s延迟下为7.35%,优于Nemotron-Streaming-0.6b(离线7.05%,0.24s下8.18%);大右上下文版离线WER达5.76%,接近纯离线SOTA模型(5.63%)。
  • 消融实验揭示
  • 对称KL散度比单向KL(以离线为教师)效果更好。
  • 正则化权重$\lambda=0.3$,离线权重$\alpha=0.5$是最佳平衡点。
  • 在固定延迟预算下,分配更多给“右上下文(R)”而非“当前分块(C)”能获得更低WER。

5. 优势与局限

  • 主要优势
    1. 极低延迟下的突破:显著缓解了统一模型在<0.5秒低延迟流式场景下性能崩溃的问题。
    2. 即插即用且高效:MCR-RNNT通过Triton实现,几乎不增加显存和计算开销,且不改变模型结构。
    3. 出色的扩展性:方法和收益在模型参数量增大(600M)和训练数据增多(280K小时)时依然有效。
  • 局限性
    1. 推理速度受限:论文明确指出,当前流式解码时左上下文需要在每个分块步骤重新计算,缺乏cache-passing机制,导致实际推理速度变慢。
    2. 极低延迟的边界:在0.16s的极端低延迟下,统一模型(10.51%)仍略逊于专门训练的纯流式基线(9.84%)。
    3. 超参敏感性:虽然推荐了$\lambda$和$\alpha$的初始值,但不同右上下文配置仍需针对性调整以平衡离线/流式性能。

6. 关键结论与启发

  • 最重要的takeaway:在统一ASR模型中,离线与流式模式的性能差距本质上是因为有限上下文导致的表征偏移;通过在RNNT的输出层施加对称的一致性正则化,可以显式且高效地弥合这一差距,实现单一模型在两种模式下的帕累托最优。
  • 后续研究启发
    1. 推理优化:急需为该统一框架引入高效的缓存传递机制,以解决左上下文重复计算导致的推理延迟问题,实现真正的低延迟高效部署。
    2. 上下文分配策略:固定总延迟预算下,如何动态或自适应地分配分块大小(C)与右上下文(R)的比例,值得进一步探索。
    3. 跨模态/跨任务统一:一致性正则化的思路可否扩展到多语种、多任务(如结合标点、翻译)的统一流式/离线建模中。
#3
eess.AS

Text-To-Speech with Chain-of-Details: modeling temporal dynamics in speech generation

Jianbo Ma, Richard Cartwright
Audio and Speech Processing (eess.AS)
查看摘要
Recent advances in Text-To-Speech (TTS) synthesis have seen the popularity of multi-stage approaches that first predict semantic tokens and then generate acoustic tokens. In this paper, we extend the coarse-to-fine generation paradigm to the temporal domain and introduce Chain-of-Details (CoD), a novel framework that explicitly models temporal coarse-to-fine dynamics in speech generation using a cascaded architecture. Our method progressively refines temporal details across multiple stages, with each stage targeting a specific temporal granularity. All temporal detail predictions are performed using a shared decoder, enabling efficient parameter utilization across different temporal resolutions. Notably, we observe that the lowest detail level naturally performs phonetic planning without the need for an explicit phoneme duration predictor. We evaluate our method on several datasets and compare it against several baselines. Experimental results show that CoD achieves competitive performance with significantly fewer parameters than existing approaches. Our findings demonstrate that explicit modeling of temporal dynamics with the CoD framework leads to more natural speech synthesis.

📖 深度解读

1. 一句话总结

本文提出了一种名为Chain-of-Details (CoD) 的语音合成框架,通过在时间维度上从粗到细逐步细化语音细节,实现了用更少的参数生成高自然度、高可懂度语音。

2. 研究背景与动机

  • 核心问题:如何在非自回归(NAR)的语音合成(TTS)中有效地建模语音的时间动态性,从而生成自然流畅的语音?
  • 重要性:TTS是现代AI的核心技术,语音的自然度高度依赖于时间节奏和声学细节的准确建模。非自回归模型虽然推理速度快,但在处理语音的时间连贯性和细节生成上存在挑战。
  • 现有方法不足:当前主流的多阶段TTS方法(如SPEAR-TTS, VALL-E, MaskGCT等)虽然采用了“从粗到细”的范式,但它们的“粗”通常指的是语义信息或RVQ(残差向量量化)的低层声学码本,缺乏对时间维度粗细动态的显式建模。也就是说,现有方法在早期阶段就试图在细粒度的时间尺度上生成信息,忽略了语音生成本身具有的“先有整体节奏轮廓,再填充声学细节”的物理规律。

3. 核心方法

  • 提出框架:Chain-of-Details (CoD) - 一种级联的非自回归TTS框架。
  • 关键创新点
    1. 时间维度的从粗到细:将语音生成分解为多个阶段,第一阶段生成时间分辨率极低(粗粒度)的语音轮廓,后续阶段逐步提高时间分辨率,补充细节。
    2. 跨层级参数共享:所有时间层级的生成都使用同一个Transformer解码器和统一的码本,极大提高了参数利用率。
    3. 隐式的音素时长规划:在最粗的时间层级,模型自然地学会了音素的时间规划,无需显式的音素时长预测器。
  • 核心思路直觉解释:就像画家作画,CoD先画一个模糊的“时间轮廓草图”(确定语音的大致节奏和结构),然后再一步步在这个草图上“上色和细化”(填充高频的声学细节)。每一层都采用MaskGIT式的掩码预测,且因为共享同一个“画笔(解码器)”,模型能非常高效地理解不同时间尺度之间的关联。

4. 实验与结果

  • 数据集:LibriTTS-clean, MLS-En-Clean;评估基准为 LibriSpeech test-clean 和 SeedTTS test-set。
  • 基线方法:VALL-E, StyleTTS 2, KD-NARSIS, NAR 2-stage, MaskGCT 等。
  • 主要实验结果
  • LibriSpeech:CoD-Base (263M参数) 达到 3.09% WER,显著优于同等数据量训练的StyleTTS 2 (4.0%) 和 KD-NARSIS (5.9%);CoD-Large (503M) 达到 2.81% WER,接近真实语音(2.2%)和DAC重建(2.4%)。
  • SeedTTS:CoD-Large (503M, 3.3k小时数据) 达到 2.73% WER,与拥有1B参数、使用10万小时数据训练的MaskGCT (2.62% WER) 表现相当,展现了极高的参数效率和数据效率。
  • 消融实验揭示
  • 层级数量:增加时间层级(1级->2级->3级)显著降低WER,证明时间粗到细的有效性。
  • 粗粒度Token类型:直接对RVQ第一层声学Token进行下采样(降采样)作为粗粒度输入,效果最好;独立训练的粗粒度码本或使用HuBERT语义Token效果较差,说明粗细层级间保持声学映射的一致性很重要。

5. 优势与局限

  • 主要优势
    1. 参数与数据效率极高:通过共享解码器和时间维度的渐进生成,用不到一半的参数和极少的训练数据达到了SOTA水平。
    2. 符合语音物理直觉:显式建模时间动态,先规划节奏后补充细节,使得语音更自然,且免去了显式时长预测器的需求。
    3. 推理高效:每个时间层级内采用非自回归并行解码,兼顾了质量和速度。
  • 局限性
    1. 层级数量受限:论文指出无法设置过多层级(如超过4级),因为最粗层级的Token序列长度会短于音素序列,导致对齐困难。
    2. 粗粒度Token的表征局限:消融实验表明,独立训练的粗粒度Token表现不佳,作者推测是缺乏与细粒度声学Token的直接映射或未充分收敛,这意味着Tokenizer的设计仍有优化空间。

6. 关键结论与启发

  • 最重要的Takeaway:在语音生成中,将“从粗到细”的范式从传统的“语义到声学”或“低层RVQ到高层RVQ”转移到“时间维度的低分辨率到高分辨率”,能够更本质地捕捉语音的动态特征,并大幅提升模型的参数效率。
  • 后续研究启发
    1. 时间Tokenization的优化:目前最粗层Token是通过简单的降采样获得的,未来可以设计专门针对时间层级特征的原生音频Tokenizer。
    2. 跨模态扩展:这种时间维度的CoD思想具有很强的通用性,可以自然地扩展到视频生成等领域(先确定关键帧时间线,再生成帧间细节)。
    3. 解除层级限制:探索如何突破当前最粗层级Token长度不能短于音素序列的限制,可能允许模型在更宏观的语义层面上进行时间规划。
#4
eess.AS

Hybrid SMI Realization via Matrix Completion and Riemannian Manifold Optimization on Narrowband Sub-Array Based Architectures 跨领域

Tarun Suman Cousik, Rohit Rangaraj, Nishith Tripathi, Jeffrey H Reed, Daniel Jakubisin 等 (6 人)
Signal Processing (eess.SP); Audio and Speech Processing (eess.AS)
查看摘要
Hybrid beamforming architectures reduce hardware complexity but restrict access to full array observations, rendering direct implementation of classical covariance based methods such as minimum variance distortionless response (MVDR) and sample matrix inversion (SMI) infeasible. This work introduces a structured covariance completion framework, termed Rock Road to Dublin (RR2D), which estimates the unobservable analytical covariance matrix (ACM) from a partially observed sample covariance matrix (SCM). RR2D exploits signal stationarity across the array and enforces physical measurement consistency using Dykstra's alternating projection algorithm with positive semidefinite, Toeplitz, and block constraints. The reconstructed virtual ACM enables a realizable hybrid SMI (HSMI) formulation that remains fully compatible with existing hybrid MVDR optimization frameworks. Empirical results for a 32 element hybrid array demonstrate both the expected degradation of HSMI implemented directly under prior HMVDR formulations and the performance gains achieved through RR2D. The proposed HSMI consistently outperforms previous hybrid SMI and partial digital baselines, achieving performance close to the HMVDR reference. Overall, RR2D bridges the gap between theoretical HMVDR formulations and practical hybrid hardware by enabling structured covariance reconstruction from incomplete observations.

📖 深度解读

1. 一句话总结

这篇论文提出了一种名为RR2D的协方差矩阵补全框架,通过在子阵列混合波束赋形架构中利用交叉切换采样和结构化矩阵填充,从低维数字观测中重建出全阵列的高维协方差矩阵,从而解决了传统自适应波束赋形(如SMI)在混合架构下因无法获取完整协方差信息而无法实际部署的问题。

2. 研究背景与动机

  • 核心问题:如何在硬件受限的子阵列混合波束赋形(S-HBF)架构上,实际实现基于协方差矩阵的自适应波束赋形(如SMI/MVDR)。
  • 重要性:全数字波束赋形(DBF)性能最优但成本和功耗极高;混合波束赋形(HBF)通过减少射频链路降低了成本,但同时也失去了获取全阵列高维协方差矩阵的能力,导致经典的SMI/MVDR算法直接“失明”。
  • 现有方法不足:此前的H-MVDR研究(如文献[4][5])在计算最优权重时,假设已知全阵列的真实协方差矩阵(ACM),这在实际硬件中是不可观测的(只能观测到降维后的数字域协方差)。此外,以往研究在协方差估计时包含了期望信号(会导致SOI被自零)、缺乏统计归一化、对非凸性分析过于简化,且未提供从部分观测中恢复协方差的机制,导致理论方法无法落地。

3. 核心方法

  • 提出框架:论文提出了RR2D (Rocky Road to Dublin) 框架,核心是从低维的数字域样本协方差矩阵(SCM)重建出虚拟的高维模拟域协方差矩阵,进而代入现有的H-MVDR黎曼流形优化流程中。
  • 关键创新点
    1. 分层交叉子阵列切换策略:通过设计一种时分切换机制,让不同子阵列的阵元分时配对工作,从而在不增加射频链路的前提下,尽可能多地获取跨子阵列的互相关观测数据。
    2. 基于物理约束的矩阵补全算法:针对切换策略导致的子阵列内部协方差缺失,利用Dykstra交替投影算法,在三个凸集的交集中寻找最优解:半正定约束(物理可行)、Toeplitz约束(窄带均匀线阵的空间平稳性)、块一致性约束(与已观测数据保持一致)。
    3. 距离加权的Toeplitz初始化:在矩阵补全前,利用具有相同空间延迟的已知元素进行距离加权平均来填补缺失值,相比简单平均更符合局部空间相关性。
  • 核心思路直觉解释:想象你要拼一幅全景拼图(全阵列协方差),但你的相机一次只能拍到几个分散的区块(数字链路限制)。RR2D的做法是:首先,通过不断调整相机的拍摄角度(交叉切换),把区块间的边缘关系尽量拍下来;然后,利用“这幅画具有重复的纹理规律”(Toeplitz结构)和“画必须完整连贯”(半正定约束)的先验知识,运用算法把拼图中间缺失的碎片合理地“脑补”出来,最终得到一幅完整的全景图用于后续决策。

4. 实验与结果

  • 数据集/基准:基于32阵元均匀线阵(ULA)的仿真,分为2个子阵列(每个16阵元,2条射频链)。角度和SNR/INR随机生成,进行500次蒙特卡洛实验。
  • 对比基线
  • Oracle:全数字MVDR(已知真实ACM,性能上限)。
  • H-MVDR w/ $R_A$:前人方法(已知真实ACM的理论上限)。
  • D-SMI / H-SMI w/ $\hat{R}_A$:直接使用样本协方差的SMI。
  • pD-MVDR:部分数字波束赋形基线。
  • 主要结果
  • 前人提出的H-MVDR(已知真实ACM)与Oracle的SINR差距约为3 dB。
  • 直接在混合架构实现SMI(无补全)会导致严重的性能下降,比Oracle低12.4-13.03 dB。
  • 使用RR2D重建虚拟协方差后的H-SMI,将SINR差距缩小至8.3-9 dB,显著优于直接使用部分观测的H-SMI,逼近了理论H-MVDR的性能。
  • 消融实验:移除Dykstra迭代中的Toeplitz投影约束后,性能甚至低于不补全的直接SMI方法,证明了Toeplitz结构约束在统计正则化和鲁棒权重计算中起决定性作用。

5. 优势与局限

  • 主要优势
    1. 打通理论到实践的最后一步:首次解决了混合波束赋形中因缺乏全维协方差而导致SMI无法实际部署的痛点,无需修改现有射频前端。
    2. 巧妙利用物理先验:将窄带阵列的Toeplitz特性作为强约束引入矩阵补全,有效弥补了观测数据的严重缺失。
    3. 即插即用:重建出的虚拟协方差可以直接代入现有的H-MVDR黎曼优化框架,兼容性好。
  • 局限性
    1. 模型假设过强:高度依赖均匀线阵的Toeplitz特性,对实际中的非均匀/不规则阵列、宽频带信号不适用。
    2. 未考虑硬件损伤:忽略了实际系统中的相位量化误差、ADC量化噪声、阵元间互耦等非理想因素。
    3. 时效性受限:分层切换采样需要较长时间完成所有配对,可能不适用于高度动态或对时间敏感的场景。

6. 关键结论与启发

  • 最重要的Takeaway:在硬件受限的混合波束赋形系统中,通过巧妙的分时采样策略结合阵列物理结构约束(Toeplitz)进行协方差矩阵补全,可以仅凭极少量的数字链路有效恢复全阵列的统计信息,从而实现接近理论极限的自适应波束赋形。
  • 后续启发与延伸
    1. 阵列拓扑泛化:如何将结构化约束从Toeplitz推广到其他阵列几何(如面阵、共形阵),寻找新的流形或低秩约束是重要的方向。
    2. 采样策略优化:当前的全排列切换耗时较长,未来可探索基于“稀疏尺”的压缩采样策略,以更少的切换次数获取关键协方差信息。
    3. 应用拓展:该协方差补全框架不仅限于波束赋形,完全可以扩展到混合架构下的DOA估计、空间谱分析等其他依赖协方差矩阵的阵列信号处理任务中。
#5
eess.AScs.SD

Computational Narrative Understanding for Expressive Text-to-Speech 解读失败跨领域

Gaspard Michel, Elena V. Epure, Christophe Cerisara
Audio and Speech Processing (eess.AS); Computation and Language (cs.CL); Sound (cs.SD)
查看摘要
Recent advances in text-to-speech (TTS) have been driven by large, multi-domain speech corpora, yet the expressive potential of audiobook data remains underexamined. We argue that human-narrated audiobooks, particularly fictional works, contain rich and diverse prosodic cues arising from the natural alternation between neutral narration and expressive character dialogue. Building from this observation, we introduce LibriQuote, a large-scale 5.3K hours of expressive speech drawn from character quotations. Each quote is supplemented with contextual pseudo-labels for speech verbs and adverbs that characterize the intended delivery of direct speech (e.g., "he whispered softly"). We found that fine-tuning a flow-matching model on LibriQuote yields substantial improvements in expressivity and intelligibility, while training from scratch enhances expressiveness of an autoregressive TTS model. Benchmarking on LibriQuote-test highlights significant variability across systems in generating expressive speech. We publicly release the dataset, code, and evaluation resources to facilitate reproducibility. Audio samples can be found at this https URL .

📖 深度解读

[LLM 解读失败: HTTP 429]

#6
eess.AScs.SD

DASB - Discrete Audio and Speech Benchmark 跨领域

Pooneh Mousavi, Jarod Duret, Darius Petermann, Artem Ploujnikov, Luca Della Libera 等 (8 人)
Sound (cs.SD); Artificial Intelligence (cs.AI); Audio and Speech Processing (eess.AS)
查看摘要
Discrete audio tokens have recently gained considerable attention for their potential to bridge audio and language processing, enabling multimodal language models that can both generate and understand audio. However, preserving key information such as phonetic content, speaker identity, and paralinguistic cues remains a major challenge. Identifying the optimal tokenizer and configuration is further complicated by inconsistent evaluation settings across existing studies. To address this, we introduce the Discrete Audio and Speech Benchmark (DASB), a comprehensive framework for benchmarking discrete audio tokens across speech, general audio, and music domains on a range of discriminative and generative tasks. Our results show that discrete representations are less robust than continuous ones and require careful tuning of factors such as model architecture, data size, learning rate, and capacity. Semantic tokens generally outperform acoustic tokens, but a gap remains between discrete tokens and continuous features, highlighting the need for further research. DASB codes, evaluation setup, and leaderboards are publicly available at this https URL .

📖 深度解读

1. 一句话总结

本文提出了DASB基准,首次绕过音频解码器直接评估离散音频token在多种任务中的表现,揭示了离散表征相比连续特征存在明显的信息损失,并指出语义token在多数任务中优于声学token,但仍需精细调优。

2. 研究背景与动机

  • 核心问题:如何全面、客观地评估各种离散音频tokenizer(将音频转化为有限离散序列的方法)在不同下游任务中的信息保留能力和适用性。
  • 重要性:离散音频token是大语言模型(LLM)处理音频的桥梁,使得音频生成可以转化为分类问题,并支持多模态大模型的构建。理想情况下,token应保留语音内容、说话人身份和副语言线索等关键信息。
  • 现有方法不足
    1. 评估指标偏颇:现有基准(如Codec-SUPERB)主要依赖将token解码回波形再评估,强大的解码器可能掩盖token本身的信息损失,导致对token质量的过度高估。
    2. 覆盖面窄:以往研究通常只关注单一类型的tokenizer(纯语义或纯声学),且任务和领域覆盖不全,缺乏在统一框架下的横向对比。
    3. 缺乏对离散与连续特征差距的量化:不清楚离散化到底损失了多少信息,以及这种损失对不同任务的具体影响。

3. 核心方法

  • 提出框架:DASB(Discrete Audio and Speech Benchmark),一个涵盖语音、通用音频和音乐领域,包含判别式和生成式任务的全面评估框架。
  • 关键创新点
    1. 直接评估token:判别式任务完全在离散空间进行;生成式任务也仅在最后一步使用冻结的解码器,从而隔离并量化了离散化本身造成的信息损失。
    2. 全品类tokenizer覆盖:首次在统一框架下对比语义型(如Discrete HuBERT)、声学型(如EnCodec, DAC)和混合型(如SpeechTokenizer, Mimi)三大类9种tokenizer。
    3. 注意力融合机制:针对多码本token,设计了基于注意力的动态加权融合机制,让模型自动学习不同码本对当前任务的贡献度,而非简单拼接。
    4. 严格的变量控制:统一使用1024维嵌入,进行大规模超参调优(TPE算法)和多随机种子评估,确保比较的公平性。
  • 核心思路直觉解释:就像评估一幅画的草图(离散token)是否抓住了原画(连续特征)的精髓,以前的方法是让一位画师(解码器)根据草图重新画一幅再打分,如果画师画技高超,草图的好坏就被掩盖了;DASB则是直接看草图本身能不能用来完成各种任务(比如认出画里的人、还原出画里的故事),从而真实反映草图的质量。

4. 实验与结果

  • 数据集/基准:涵盖10多种任务,包括ASR (LibriSpeech, CommonVoice)、说话人识别、情感识别 (IEMOCAP)、语音增强、语音分离、TTS (LJSpeech, LibriTTS)、音乐分离 (MUSDB) 等。
  • 基线方法:9种离散tokenizer对比,并以WavLM等连续特征作为连续基线。
  • 主要实验结果
    1. 连续 vs 离散:连续表征在所有任务上均优于离散token,证实了离散化不可避免地带来信息损失。
    2. 语义 vs 声学:语义token在大多数判别式任务(如ASR)和生成式任务(语音质量)中表现最好;但在需要精细声学细节的任务(如说话人识别)中,声学token表现更佳。
    3. 领域差异:在音乐和通用音频任务中,EnCodec全面领先,而DAC因过于偏重感知质量导致信号保真度受损,表现较差。
    4. 码本与比特率:中等比特率通常效果最好。增加码本数量虽能提升波形重建质量,但往往因引入冗余和建模复杂性而损害下游任务性能(即“重建好≠下游任务好”)。
  • 消融实验揭示
    1. 数据与模型缩放:声学token对数据量和模型容量极其敏感,在低资源或浅层模型下极易崩溃;语义token则稳定得多。
    2. 超参敏感性:高比特率的声学模型训练极不稳定,方差大,需要更深的模型架构(如Branchformer)来稳定训练。

5. 优势与局限

  • 主要优势
    1. 评估范式革新:去除了解码器带来的评估偏差,更真实地反映了token的信息保留度。
    2. 广度与深度兼具:涵盖三大领域、两类任务、三大类tokenizer,并提供了详尽的缩放定律和超参敏感性分析。
    3. 实用指导性强:为社区提供了清晰的选型指南(如:内容理解选语义token,声学细节选声学token,低资源慎用声学token)。
  • 局限性
    1. 未涉及tokenizer的联合训练:基准评估的都是现成的、冻结的tokenizer,没有探索与下游任务联合微调tokenizer可能带来的性能提升。
    2. 解码器的限制:虽然隔离了解码器的影响,但在生成任务中,最终音频质量仍受限于配套的预训练解码器(尤其是语义token使用的通用vocoder),可能低估了语义token在生成任务上的潜力。
    3. 模型规模上限:为了公平对比,下游模型架构相对简单,未探索在超大规模参数下离散token的表现。

6. 关键结论与启发

  • 最重要的takeaway“重建保真度不等于下游实用性”。为音频压缩设计的声学token在重建波形上很强,但在理解任务上往往不如语义token;增加码本和比特率提升重建质量,反而可能因冗余信息损害下游任务表现。离散token相比连续特征仍有不可忽视的鸿沟。
  • 对后续研究的启发
    1. 下一代tokenizer的设计方向:需要研发能同时兼顾语义理解和声学细节保留的新型tokenizer(如更好的混合机制),以真正支撑“既能听懂又能生成”的多模态大模型。
    2. 低资源场景的优化:如何让声学token在低资源和小模型下保持稳定收敛,是一个亟待解决的工程痛点。
    3. 码本冗余问题:如何设计更高效的量化机制(如非残差、解耦的码本),避免高比特率带来的信息冗余和优化困难。
#7
eess.AScs.SD

Speculative End-Turn Detector for Efficient Speech Chatbot Assistant 跨领域

Hyunjong Ok, Suho Yoo, Jaeho Lee
Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG); Sound (cs.SD); Audio and Speech Processing (eess.AS)
查看摘要
Spoken dialogue systems powered by large language models have demonstrated remarkable abilities in understanding human speech and generating appropriate spoken responses. However, these systems struggle with end-turn detection (ETD) -- the ability to distinguish between user turn completion and hesitation. This limitation often leads to premature or delayed responses, disrupting the flow of spoken conversations. In this paper, we introduce the ETD Dataset, the first public dataset for end-turn detection. The ETD dataset consists of both synthetic speech data generated with text-to-speech models and real-world speech data collected from web sources. We also propose SpeculativeETD, a novel collaborative inference framework that balances efficiency and accuracy to improve real-time ETD in resource-constrained environments. Our approach jointly employs a lightweight GRU-based model, which rapidly detects the non-speaking units in real-time on local devices, and a high-performance Wav2vec-based model running on the server to make a more challenging classification of distinguishing turn ends from mere pauses. Experiments demonstrate that the proposed SpeculativeETD significantly improves ETD accuracy while keeping the required computations low. Datasets and code will be available after the review.

📖 深度解读

1. 一句话总结

本文发布了首个公开的语音对话轮次结束检测(ETD)数据集OpenETD,并提出了一种“端侧轻量模型+云侧大模型”的协作推理框架SpeculativeETD,在保持高准确率的同时大幅降低了实时检测的计算开销。

2. 研究背景与动机

  • 核心问题:语音聊天机器人(如GPT-4o)难以区分用户是“说完了(轮次结束)”还是“只是停顿思考(犹豫)”,容易导致抢答或反应迟钝。
  • 重要性:准确的轮次结束检测(ETD)是维持自然、流畅的人机语音交互的基础,直接决定对话的节奏和用户体验。
  • 现有不足
    1. 数据匮乏:ETD研究缺乏公开可用的数据集,现有研究多依赖私有或付费数据,阻碍了社区发展。
    2. 算力与精度的矛盾:高精度的Transformer模型(如Wav2vec)计算开销大,无法在端侧实时高频运行;而轻量级模型(如GRU)虽能在端侧实时运行,但准确率太低(相差约20%)。

3. 核心方法

  • 提出框架SpeculativeETD,一种端云协作的两阶段推理框架。
  • 关键创新点
    1. 任务解耦与分工:将ETD拆分为简单的“有声/无声”检测和复杂的“停顿/结束”分类。端侧轻量模型负责高频简单的检测,云侧大模型仅在检测到静音时被触发,负责低频复杂的分类。
    2. 异步协作机制:借鉴“推测解码”的思想,但大小模型预测的类别不同。小模型快速筛选出需要大模型介入的时机,避免大模型持续运行。
    3. 首个公开ETD数据集:构建了包含合成语音(基于TTS和对话文本,人工注入停顿和语气词)和真实语音(YouTube播客等)的OpenETD数据集。
  • 核心思路直觉解释:就像医院的分诊系统,门口的护士(轻量模型)快速判断病人是否需要看医生(是否静音),只有当病人需要精细诊断时(出现静音),才叫出诊室里的专家(大模型)来判断这是小问题(停顿思考)还是大问题(说话结束)。这样专家就不需要一直盯着所有病人,大幅节省了精力。

4. 实验与结果

  • 数据集:OpenETD(包含148小时合成数据,166小时真实数据)。
  • 基线方法:VAP(开源预训练模型)、GRU(轻量模型)、Wav2vec 2.0(重型模型)。
  • 主要结果
  • 精度:SpeculativeETD在合成数据上达到94.0% F1,与Wav2vec 2.0(94.7%)几乎持平;在真实数据上达到45.6% F1,显著优于GRU(34.2%)和VAP(33.2%)。
  • 效率:SpeculativeETD的计算开销仅为919.64 MFLOPs,比纯Wav2vec 2.0(34,971.68 MFLOPs)降低了约38倍。端侧GRU执行延迟仅为0.26ms/100ms,远低于Wav2vec 2.0的1500.32ms。
  • 消融实验揭示
  • 混合训练(合成+真实数据)效果最好,比仅用真实数据F1提升2.5%,证明合成数据是有效的数据增强手段。
  • 合成数据的停顿时长分布与真实数据高度吻合(KS统计量仅0.083),但停顿位置的分布仍有差异,说明合成数据起增强作用而非完美替代。

5. 优势与局限

  • 主要优势
    1. 极致的性价比:用不到1/38的计算量,换取了接近大模型的精度,完美适配资源受限的实时场景。
    2. 填补社区空白:OpenETD数据集为ETD研究提供了首个公开基准,且通过混合数据策略验证了其有效性。
    3. 低延迟与低带宽:端侧模型延迟极低,且仅在静音时向云端发送数据,5G/Wi-Fi下的传输延迟(<140ms)完全满足对话轮次切换的容忍度(200ms)。
  • 局限性
    1. 语言局限:数据集和实验仅针对英语,未验证在其他具有不同轮次交接模式语言上的泛化性。
    2. 网络依赖:框架依赖云侧大模型,虽然实测网络延迟在阈值内,但在极差网络环境下的鲁棒性未充分探讨。
    3. 合成数据的真实性:合成语音在信噪比、语速变化、情感和口音多样性上与真实语音存在显著域差,无法完全模拟自发语音的复杂性。

6. 关键结论与启发

  • 最重要的Takeaway:通过“端侧轻量模型做粗筛+云侧大模型做精判”的级联机制,可以打破实时语音交互中计算效率与检测精度之间的零和博弈。
  • 后续研究启发
    1. 多语言与跨文化拓展:将OpenETD构建思路推广到中文、日文等具有不同停顿习惯的语言,研究跨文化的ETD模型。
    2. 端侧小模型能力提升:探索知识蒸馏等技术,让端侧小模型不仅检测静音,还能具备一定的Gap/Pause区分能力,进一步减少对云端的调用频率。
    3. 全双工对话系统结合:将SpeculativeETD的异步触发机制与全双工大模型(如Moshi)结合,实现既能实时听、又能精准判断何时开口的拟人化语音助手。
#8
eess.AS

OmniVoice: Towards Omnilingual Zero-Shot Text-to-Speech with Diffusion Language Models 解读失败跨领域

Han Zhu, Lingxuan Ye, Wei Kang, Zengwei Yao, Liyong Guo 等 (10 人)
Computation and Language (cs.CL); Audio and Speech Processing (eess.AS)
查看摘要
We present OmniVoice, a massively multilingual zero-shot text-to-speech (TTS) model that scales to over 600 languages. At its core is a novel diffusion language model-style discrete non-autoregressive (NAR) architecture. Unlike conventional discrete NAR models that suffer from performance bottlenecks in complex two-stage (text-to-semantic-to-acoustic) pipelines, OmniVoice directly maps text to multi-codebook acoustic tokens. This simplified approach is facilitated by two key technical innovations: (1) a full-codebook random masking strategy for efficient training, and (2) initialization from a pre-trained LLM to ensure superior intelligibility. By leveraging a 581k-hour multilingual dataset curated entirely from open-source data, OmniVoice achieves the broadest language coverage to date and delivers state-of-the-art performance across Chinese, English, and diverse multilingual benchmarks. Our code and pre-trained models are publicly available at this https URL .

📖 深度解读

[LLM 解读失败: HTTP 502]

#9
eess.AS

Qwen3.5-Omni Technical Report 跨领域

Qwen Team
Computation and Language (cs.CL); Audio and Speech Processing (eess.AS)
查看摘要
In this work, we present Qwen3.5-Omni, the latest advancement in the Qwen-Omni model family. Representing a significant evolution over its predecessor, Qwen3.5-Omni scales to hundreds of billions of parameters and supports a 256k context length. By leveraging a massive dataset comprising heterogeneous text-vision pairs and over 100 million hours of audio-visual content, the model demonstrates robust omni-modality capabilities. Qwen3.5-Omni-plus achieves SOTA results across 215 audio and audio-visual understanding, reasoning, and interaction subtasks and benchmarks, surpassing Gemini-3.1 Pro in key audio tasks and matching it in comprehensive audio-visual understanding. Architecturally, Qwen3.5-Omni employs a Hybrid Attention Mixture-of-Experts (MoE) framework for both Thinker and Talker, enabling efficient long-sequence inference. The model facilitates sophisticated interaction, supporting over 10 hours of audio understanding and 400 seconds of 720P video (at 1 FPS). To address the inherent instability and unnaturalness in streaming speech synthesis, often caused by encoding efficiency discrepancies between text and speech tokenizers, we introduce ARIA. ARIA dynamically aligns text and speech units, significantly enhancing the stability and prosody of conversational speech with minimal latency impact. Furthermore, Qwen3.5-Omni expands linguistic boundaries, supporting multilingual understanding and speech generation across 10 languages with human-like emotional nuance. Finally, Qwen3.5-Omni exhibits superior audio-visual grounding capabilities, generating script-level structured captions with precise temporal synchronization and automated scene segmentation. Remarkably, we observed the emergence of a new capability in omnimodal models: directly performing coding based on audio-visual instructions, which we call Audio-Visual Vibe Coding.

📖 深度解读

1. 一句话总结

Qwen3.5-Omni 是一个千亿参数级的全模态大模型,通过混合注意力MoE架构和创新的流式语音对齐技术(ARIA),在保持文本和视觉能力不降级的同时,实现了超长音视频理解、实时交互和原生全模态智能体能力,并在多项音频和音视频基准上达到SOTA。

2. 研究背景与动机

  • 核心问题:如何构建一个真正原生的全模态大模型,使其不仅能同时感知和生成文本、图像、音频,还能像人类一样进行实时交互和自主行动(如调用工具)。
  • 重要性:人类与世界的交互本质上是全模态和智能体式的,仅支持被动感知-响应的模型无法满足复杂现实场景(如实时语音对话、长视频推理、音视频指令编码)的部署需求。
  • 现有方法不足
    1. 现有全模态模型多处于被动感知范式,缺乏可扩展的智能体行为、实时交互和跨模态推理能力。
    2. 在流式语音合成中,文本和语音的编码效率差异常导致合成不稳定、不自然(如漏字、错音)。
    3. 处理长音视频时,传统的时间位置编码(如TMRoPE)会导致位置ID过于稀疏,削弱长时序建模能力,且对训练数据的帧率分布要求极高。

3. 核心方法

  • 提出框架:基于 Thinker-Talker 架构的全模态大模型 Qwen3.5-Omni。Thinker负责高维理解和文本生成,Talker负责流式语音合成。
  • 关键创新点
    1. Hybrid-Attention MoE 架构:Thinker和Talker均采用混合注意力MoE设计,结合Gated Delta Net模块,大幅降低长序列推理的KV-cache开销,提升并发能力和效率。
    2. ARIA(自适应速率交织对齐):打破传统的双轨生成模式,将文本和语音token统一在单流中,通过动态约束“语音/文本token累积比例不超过全局比例”,解决了流式语音合成中的漏字、错音和韵律不自然问题。
    3. 显式时间戳替代稀疏位置编码:在音视频流中直接插入格式化的文本时间戳(如"00:01:00"),而非依赖绝对时间的位置ID,使模型更自然地感知长时序,降低数据构建成本。
    4. 多码本流式语音生成:Talker采用多token预测(MTP)模块和RVQ编解码,实现单帧即时合成,结合系统提示词实现零样本声音克隆和细粒度声学控制。
  • 核心思路直觉解释
  • ARIA 就像给同声传译员设定了一个“节奏限制”:不要求字音严格一一对应,但要求任何时候说出的语音量不能超前于对应的文本量,从而避免了“嘴比脑子快”导致的结巴或漏词。
  • 显式时间戳 就像在长视频的胶卷上每隔一段贴上清晰的时间标签,而不是靠数格子来推算时间,让模型一眼就能看懂时间流逝,不怕视频太长数不过来。

4. 实验与结果

  • 数据集/基准:涵盖215项音频和音视频理解、推理、交互子任务。文本类(MMLU-Pro, GPQA等),音频类(MMAU, VoiceBench, Fleurs等),视觉类(MMMU, Video-MME等),音视频类(DailyOmni, Qualcomm IVD等),语音生成类(SEED-TTS, 跨语言基准等)。
  • 对比基线:Gemini-3.1 Pro, GPT-4o, Qwen3.5-Plus-NoThinking, ElevenLabs, MiniMax-Speech, CosyVoice系列等。
  • 主要实验结果
  • 音频理解:Qwen3.5-Omni-Plus 在 MMAU (82.2 vs 81.1)、VoiceBench (93.1 vs 88.9) 等核心基准上超越 Gemini-3.1 Pro;在ASR任务上优势明显(如Librispeech WER 1.11 vs 3.36)。
  • 音视频理解:在 DailyOmni 上达到 84.6(Gemini为82.7),在真实交互场景 Qualcomm IVD 上达到 68.5(Gemini为66.2)。
  • 语音生成:在 SEED-TTS 测试集上取得最低 WER (0.99/1.26);在29种语言的零样本语音生成中,22种语言的WER最低;跨语言语音克隆(如中转韩)将错误率从CosyVoice3的14.4降至4.03。
  • 文本/视觉不降级:Qwen3.5-Omni-Plus 在文本和视觉基准上与同规模的纯文本/视觉模型(Qwen3.5-Plus-NoThinking)性能持平甚至略优。
  • 消融实验:论文未在正文中展示详细的消融实验表格,但通过分阶段训练和架构对比指出:长上下文阶段(S3)显著提升长序列理解;On-Policy Distillation 有效弥补了音频输入与文本输入之间的响应质量差距;Interaction-Aligned RL 解决了多轮对话中的语言混杂和人设不一致问题。

5. 优势与局限

  • 主要优势
    1. 真正的全模态统一与不降级:在原生融合文本、视觉、音频输入输出的同时,未牺牲单模态(特别是文本和视觉)的顶尖性能。
    2. 极致的实时交互体验:通过 ARIA 和流式架构,实现了超低首包延迟(Flash版音频输入仅235ms),并支持语义打断、情绪/语速控制等拟人化交互。
    3. 涌现的智能体能力:展示了“音视频Vibe Coding”这一新能力,即直接根据音视频指令生成可执行代码,无需外部编排。
  • 局限性
    1. 高并发下的延迟增长:虽然单并发延迟低,但在8并发时,Plus版本的视频输入首包延迟接近2秒(1980ms),高负载下的延迟控制仍有挑战。
    2. 部分小语种语音生成较弱:在乌尔都语、冰岛语等极低资源语言上,定制语音生成的WER仍超过10%,存在明显优化空间。
    3. 缺乏细粒度消融:论文声称ARIA和显式时间戳带来显著提升,但未提供严格的定量消融实验数据来剥离各组件的具体贡献。

6. 关键结论与启发

  • 最重要的 takeaway:通过原生全模态训练和规模化(MoE+长上下文),可以构建出在理解、推理、生成和行动上全面统一且不降级的模型,流式交互和智能体行为不再是后处理的补丁,而是模型内生的能力。
  • 对后续研究的启发
    1. 对齐策略的新思路:ARIA 证明了在多模态生成中,通过简单的“速率约束”比复杂的强制对齐(如MFA)更优雅且有效,这一思路可推广至视频生成、图文交织生成等领域。
    2. 时间感知的范式转移:用文本时间戳替代稀疏位置编码,为超长音视频建模提供了低成本、高鲁棒的方案,未来可探索更高效的时间嵌入方式。
    3. 全模态智能体的边界:“音视频Vibe Coding”的涌现预示着全模态模型可作为机器人的“大脑”,直接将现实世界的视听信号转化为控制指令,是具身智能的重要延伸方向。
查看摘要
The choice of visualisation in empirical performance analysis is not a neutral presentation decision but an analytical one: different graphical forms reveal different features of the same dataset, and reliance on any single type systematically conceals what the others expose. This paper presents and argues for a suite of five complementary visualisation tools; tempographs, histograms with spline-smoothed probability density functions, ridgeline plots, stacked bar charts, and combination charts. These are applied to bar-level beats-per-minute data from recordings of Beethoven's five piano and cello sonatas (Op.~5 Nos.~1 and~2; Op.~69; Op.~102 Nos.~1 and~2) spanning 1930--2012. Each tool is described formally, its analytical properties characterised, its implementation detailed in working Python and MATLAB code, and its specific contribution demonstrated on a worked example using two recordings of Op.~5 No.~1 (Casals/Horszowski 1930--39 and Isserlis/Levin 2012) separated by eight decades. A five-panel composite figure applies all five tools to the same two recordings simultaneously, making the complementarity argument concrete: the tempograph reveals moment-to-moment structural parallels invisible in aggregate statistics; the spline-smoothed histogram exposes bimodality and secondary peaks suppressed by binning artefacts; the ridgeline plot positions both recordings within the full distributional space; the stacked bar chart shows divergent sectional pacing concealed by identical movement means; and the combination chart integrates mean tempo, variability, and historical reference marks in a single view. The spline-CDF smoothing method, applied to histogram data via cubic spline interpolation with zero-slope boundary conditions, is presented as a novel contribution to the performance analysis toolkit. Full implementation code is publicly available.

📖 深度解读

1. 一句话总结

这篇论文提出了一套由五种互补的可视化工具组成的分析套件,用于解决音乐演奏经验分析中单一图表会系统性地掩盖数据某些特征的问题,并以贝多芬大提琴奏鸣曲的录音数据证明了多视角可视化的必要性。

2. 研究背景与动机

  • 核心问题:在音乐演奏的实证分析中,选择不同的可视化图表不仅仅是“展示”方式的差异,更是“分析”维度的差异。单一图表就像盲人摸象,只能投影高维数据的某一个侧面。
  • 重要性:如果研究者只依赖某一种可视化工具(如仅看散点图或速度曲线),就会系统性地对其他工具能揭示的特征“视而不见”,导致分析结论片面。
  • 现有不足
    1. 音乐表演分析领域迟迟未引入数据科学中标准的统计分布工具(如直方图、山脊图)。
    2. 缺乏对速度直方图的有原则的平滑处理方法,原始直方图对分箱极度敏感,而标准核密度估计(KDE)又容易产生边界伪影。
    3. 缺乏能将平均速度、速度变异性和历史参考基准整合在一张图中的多变量复合可视化。

3. 核心方法

  • 提出框架:一套包含五种互补可视化工具的分析套件,每种工具解决特定的分析盲区。
  • 关键创新点
    1. 互补性视角的系统性论证:首次明确提出不同图表的“互补性”问题,并展示了将五种工具应用于同一数据集时,各自能揭示其他工具无法显示的独特信息。
    2. Spline-CDF 平滑方法:针对离散的小节级速度数据,提出一种新的直方图平滑技术。它通过拟合经验累积分布函数(CDF)的三次样条并求导来获得概率密度函数(PDF),避免了传统KDE的边界溢出和重复值尖峰问题。
    3. 多维度信息整合:引入堆叠条形图(展示结构时间分配)和组合图(整合均值、标准差与历史节拍器标记),填补了现有研究在段落节奏分配和多变量概览上的空白。
  • 核心思路直觉解释:就像医生诊断不能只看体温,还要看血压、X光和心电图一样。速度图是“心电图”(看瞬时起伏),直方图是“X光”(看整体分布形态),山脊图是“人群健康对照”(看在历史录音中的位置),堆叠图是“营养分配”(看时间在乐段间的权重),组合图则是“体检总表”(看均值、波动与标准的综合对比)。

4. 实验与结果

  • 数据集:贝多芬5首钢琴与大提琴奏鸣曲的录音(1930-2012年),核心案例聚焦于Op. 5 No. 1第一乐章的22个录音,特别是相隔80年的两个录音(Casals 1930 vs. Isserlis 2012)。
  • 基线方法:隐性地与现有主流方法(如Bowen的散点图/速度图、Cook的timescapes等)对比,指出它们各自只能看到局部。
  • 主要实验结果(五面板案例)
  • 速度图:揭示了两位演奏家在80年间惊人的结构一致性(如第35小节的变速、368-383小节的尾声爆发),这是聚合统计看不到的。
  • Spline平滑直方图:发现两者都是双峰分布,且Casals在85-100 BPM有一个被原始直方图掩盖的“次级肩部”(对应过渡段的弹性速度)。
  • 山脊图:将两个录音置于同一分布空间,直观显示Isserlis的Allegro峰值更窄且右移(速度更快)。
  • 堆叠条形图:发现尽管总时长差54秒,但引子时长几乎一样,差异主要源于Allegro各段落的整体速度差异,而非某一段落的特殊拉伸。
  • 组合图:最关键的发现——尽管Isserlis平均速度快5.6 BPM,但两人的速度标准差几乎完全相同(23.8 vs. 23.4),说明两人的差异仅是“速度基准点”的平移,而非“弹性风格”的不同。
  • 消融实验:本文没有传统算法意义上的消融实验,但其“五面板对比”本身就是一种概念上的消融——逐一剥离每种图表,说明缺少任何一种都会丢失上述某一项关键发现。

5. 优势与局限

  • 主要优势
    1. 方法论层面的清醒认知:深刻指出可视化不是中立的数据呈现,而是具有排他性的分析选择,促使研究者反思工具依赖。
    2. Spline-CDF方法切中痛点:为音乐速度数据这种离散、有界的数据提供了一种轻参数、无边界溢出伪影的平滑方案。
    3. 极高的可复现性:提供了完整的Python和MATLAB实现代码,且数据集公开。
  • 局限性
    1. Spline-CDF的适用范围有限:论文自己也承认,当数据量极少(少于50个小节)或数据本身是连续测量(如音频自动提取的onset)时,该方法不如传统KDE。
    2. 可视化扩展性瓶颈:速度图超过5条曲线就会变得混乱,堆叠条形图超过20个录音也会拥挤,面对成百上千录音的大规模语料库时,该套件的部分工具会力不从心。
    3. 案例规模偏小:虽然语料库有22个录音,但核心论证高度依赖2个录音的深度对比,缺乏对中等规模(如10-20个录音)交叉对比的复杂场景展示。

6. 关键结论与启发

  • 最重要的Takeaway:没有任何单一的可视化图表能完整讲述音乐表演的数据故事;最丰富的分析来自于使用全套互补工具,理解每种工具“显示了什么、隐藏了什么、为什么”。
  • 后续启发与延伸方向
    1. 自动化工具推荐:能否开发一个专家系统,根据数据特征和研究问题,自动推荐最合适的可视化组合?
    2. 交互式可视化:静态的五面板图虽然有力,但若能结合交互式仪表盘(如Plotly/Dash),让研究者能在速度图上框选小节,右侧直方图实时响应变化,将极大提升分析效率。
    3. 推广至其他音乐维度:这套互补思维和Spline-CDF平滑方法,完全可以迁移到力度、音色、揉弦频率等其他音乐表演特征的数据分析中。
查看摘要
Historical metronome indications for Beethoven's five piano and cello sonatas (as transmitted by Czerny, Moscheles, and Kolisch), have long been regarded as problematic by performers and scholars alike. This paper presents the first systematic empirical assessment of those indications against a corpus of over one hundred movement-level recordings spanning 1930--2012, encompassing first, second, and third movements across all five sonatas (Op.~5 Nos.~1 and~2; Op.~69; Op.~102 Nos.~1 and~2). The core findings are threefold. First, Czerny's and Moscheles's markings are consistently and substantially exceeded by the entire recording corpus: gaps of 15--39\% are documented across movements, with the largest divergences in slow Adagio movements and the smallest in fast Allegro finales. Second, Kolisch's 1943 markings align considerably more closely with recorded practice than either Czerny's or Moscheles's, a striking result given that Kolisch was reasoning without corpus data. Third, the central Allegro tempo traditions for each movement are stable across eight decades; not because all performers play alike, but because three coexisting slow, mid-range, and fast traditions persist simultaneously, with the mid-range dominant throughout. Building on these findings, this paper proposes a set of revised tempo indications grounded in the statistical modal tempi of the corpus, presented as ranges reflecting the documented spectrum of expert interpretive practice rather than single prescriptive values. These indications are offered not as claims about Beethoven's intentions but as evidence-based reference points for performers and scholars navigating the gap between historical prescription and performable reality.

📖 深度解读

1. 一句话总结

本文通过分析1930-2012年间贝多芬钢琴与大提琴奏鸣曲的录音数据,实证揭示了历史节拍器标记与实际演奏之间存在系统性偏差,并基于录音数据的统计聚类提出了一套以“速度区间”而非“单一数值”呈现的修正版速度指示。

2. 研究背景与动机

  • 核心问题:贝多芬作品的历史节拍器标记(特别是Czerny和Moscheles的标记)长期以来被认为过快,演奏家在实践中很难遵从,但这更多是主观争论,缺乏系统的实证数据支持。
  • 重要性:速度直接决定了音乐的性格与表达。厘清历史标记与实际演奏之间的差距,不仅关乎“贝多芬本意”的考证,更关乎当代演奏家如何在对历史的忠诚与音乐的合理性之间找到平衡。
  • 现有不足:以往的研究要么停留在理论推测(如贝多芬的节拍器坏了、早期钢琴衰减快等),要么局限于历史文献的考据,一直缺乏基于大量跨代际录音的实证数据来展示“优秀演奏家实际上是怎么做的”。

3. 核心方法

  • 提出框架:构建了一个基于录音语料库的实证分析框架,将历史标记与实际演奏进行量化对比,并据此提出新的速度建议。
  • 关键创新点
    1. 首次系统性实证:针对贝多芬5部钢琴与大提琴奏鸣曲,收集了1930-2012年间22个完整录音(超100个乐章),用数据说话。
    2. 揭示“共存传统”:发现演奏速度的稳定并非因为大家弹得一样,而是存在慢速、中速、快速三种并存的传统,中速占主导。
    3. 区间化建议:摒弃传统的“单一数值”节拍标记,基于K-means聚类中心,首次提出以“范围”表示的速度指示,包容了合理的诠释多样性。
  • 核心思路直觉解释:与其像以前那样空对空地争论“贝多芬的标记到底对不对”,不如去看看过去80年里最顶尖的大提琴家和钢琴家实际上弹多快。如果所有大师都觉得某个速度是合理的,那么这个速度区间就构成了一个“可演奏的现实边界”。论文就是用统计方法找出这个边界,作为给当代演奏者的参考地图。

4. 实验与结果

  • 数据集/基准:5部贝多芬钢琴与大提琴奏鸣曲(Op. 5 Nos. 1/2, Op. 69, Op. 102 Nos. 1/2),22个商业录音(1930-2012),分为1930-1970和1970-2012两期。基准为Czerny、Moscheles和Kolisch的历史节拍器标记。
  • 基线方法:无算法基线,对比的是历史文献中的节拍器数值。
  • 主要实验结果
  • 系统性偏慢:实际录音普遍且大幅慢于Czerny和Moscheles的标记。快板乐章平均慢11-17%,慢板乐章偏差最大,达37-39%(如Op.102 No.2的Adagio)。
  • Kolisch的直觉惊人:Kolisch在1943年凭音乐直觉给出的标记,比Czerny和Moscheles更接近80年来的实际录音数据。
  • 滑音的消亡:作为附加发现,大提琴滑音从1930到2012急剧下降(降幅34%-61%),且这一趋势与速度变化无关,而是由教学法、录音技术和审美改变驱动的。
  • 消融实验/深层分析:聚类分析揭示了“稳定的均值”掩盖了内部结构——速度的稳定是因为慢/中/快三种传统同时存在;1970年后整体略微加速,并非某种传统变快了,而是选择“快速传统”的人稍微多了一点。

5. 优势与局限

  • 主要优势
    1. 用数据终结玄学:将“历史标记偏快”的模糊感知转化为确凿的量化证据(如15-39%的偏差)。
    2. 极具实践价值:提出的“速度区间”比单一的学术规定更符合演奏现场的复杂生态,对演奏者极具启发性。
    3. 多维交叉验证:不仅看速度,还引入了演奏时长容忍度和滑音分析,证明了表现手段的变化是独立的,速度框架本身具有惊人稳定性。
  • 局限性
    1. 样本量与时效性:每部奏鸣曲仅22个录音,且未包含2012年后的录音,无法验证近年来的趋势是否延续。
    2. 录音室效应:数据源于商业录音,演奏家在录音棚可能会为了音色干净而避免极端速度或减少滑音,这与现场音乐会可能存在偏差。
    3. 测量误差:采用人工逐小节秒表测速,存在约±0.1秒/小节的反应时间误差(尽管对整体均值影响较小)。

6. 关键结论与启发

  • 最重要的Takeaway:历史节拍器标记与实际演奏之间的鸿沟不是当代演奏家“能力不足”或“过于保守”,而是乐器声学改变、审美演变下的结构性必然;专家演奏家群体的实践构成了比历史文献更稳固的“可演奏现实”。
  • 对后续研究的启发
    1. 方法论延伸:可以将此实证+聚类的方法论推广到贝多芬的小提琴奏鸣曲、弦乐四重奏乃至交响乐中,验证这种“系统性偏慢”和“多传统并存”是否是普遍规律。
    2. 技术赋能:未来可引入Spleeter等音源分离技术,解决多声部复调音乐中自动节拍追踪困难的问题,从而获取更精细的局部表现数据。
    3. 理念转变:音乐学研究和乐谱编辑应从追求“还原作曲家唯一正确数字”的执念中走出来,转向提供“基于历史实践的诠释光谱”,这更符合音乐作为活态艺术的本质。
#12
cs.SD

Virtual boundary integral neural network for three-dimensional exterior acoustic problems

Jiahao Li, Qiang Xi, Ilia Marchevskiy, Zhuojia Fu
Sound (cs.SD); Machine Learning (cs.LG)
查看摘要
This paper presents a virtual boundary integral neural network (VBINN) for exterior acoustic problems in three dimensions. The method introduces a virtual boundary inside the scatterer or vibrating body and represents the associated source density with a neural network. Coupled with the acoustic fundamental solution, this representation satisfies the Sommerfeld radiation condition by construction and enables direct evaluation of the acoustic pressure and its normal derivative at arbitrary field points. Because the integration surface is separated from the physical boundary, the formulation avoids the singular and near singular kernel evaluations associated with coincident source and collocation points in conventional boundary integral learning methods. To reduce sensitivity to boundary placement, the geometric parameters of the virtual boundary are optimized jointly with the source density during training. Numerical examples for acoustic scattering, multiple body interaction, and underwater acoustic propagation show close agreement with analytical solutions and COMSOL results, and the Burton Miller extension further improves stability near characteristic frequencies. These results demonstrate the potential of VBINN for exterior acoustic analysis in three dimensions.

📖 深度解读

1. 一句话总结

本文提出了一种虚拟边界积分神经网络(VBINN),通过在散射体内部引入虚拟边界并用神经网络学习源密度,从根本上避免了传统边界积分方法中的奇异积分计算难题,同时自动优化虚拟边界位置,实现了三维外部声学问题的高效、稳定求解。

2. 研究背景与动机

  • 核心问题:如何高效且高精度地求解三维无界区域的外部声学辐射与散射问题。
  • 重要性:该问题在噪声控制、声学设计和水声学等工程领域具有广泛应用,但其无界域特性和无穷远处的Sommerfeld辐射条件使得数值求解极具挑战性。
  • 现有方法不足
    1. 传统区域方法(FEM/FDM):需要截断无界域并引入人工吸收边界,增加了网格生成难度和计算成本。
    2. 物理信息神经网络(PINN):需要在计算域内大量配点,训练成本高且不稳定,且无法自然满足远场辐射条件,仍需人工截断边界。
    3. 传统边界积分神经网络(BINN):虽然降维且自然满足辐射条件,但源点与配点重合会导致格林函数核出现强奇异或近奇异积分,处理复杂且代价高昂。
    4. 传统虚拟边界法(如基本解法):虽能避免奇异性,但虚拟边界的位置对数值稳定性极度敏感(太近易近奇异,太远易病态),通常依赖试错法人工选取,缺乏自适应机制。

3. 核心方法

  • 提出方法:虚拟边界积分神经网络(VBINN)。
  • 关键创新点
    1. 虚拟边界解耦:将积分面从物理边界移至散射体内部的虚拟边界上,几何上彻底避开了源点与配点重合引发的奇异积分问题。
    2. 源密度与几何参数联合学习:不仅用神经网络参数化虚拟边界上的未知源密度,还将虚拟边界的几何参数(如球半径)设为可训练变量,在训练中自动寻优,解决了传统方法对虚拟边界位置极度敏感的痛点。
    3. 无缝嵌入Burton-Miller(BM)方法:通过单层与双层势的线性组合克服特征频率处的非唯一性(虚假共振),且由于虚拟边界与物理边界分离,BM方法中原本难以处理的高阶超奇异积分在此框架下自然成为非奇异积分,无需特殊处理。
  • 核心思路直觉解释
    想象我们要听清舞台上的声音(物理边界条件),传统BINN是直接把麦克风贴在歌手嘴边,容易过载爆音(奇异积分);VBINN则是让歌手在内室(虚拟边界)发声,我们在外厅(物理边界)收音,既听清了声音,又避免了爆音。同时,内室的位置(虚拟边界参数)不再是凭感觉乱定,而是由AI在训练过程中自动微调到“收音最清晰、最稳定”的黄金位置。此外,由于内室与外厅有距离,原本需要复杂消音设备处理的回音干扰(超奇异积分),在这里自然就不存在了。

4. 实验与结果

  • 使用数据集/基准:解析解、商业软件COMSOL仿真结果。
  • 对比基线方法:PINN、BINN、传统虚拟边界元全局扫描法。
  • 主要实验结果
    1. 单位球散射:VBINN与解析解高度吻合,相对误差低于PINN和BINN;训练时间(22.31s)远低于PINN(1466.90s),虽略长于BINN(16.08s),但精度更高。
    2. 豌豆形散射体:准确重建了包括凹面在内的复杂声场;虚拟边界半径从不同初始值(0.2~0.94)出发,均自动收敛至0.89,与全局扫描得到的最优值0.88极为接近,验证了自适应机制的有效性。
    3. 四球系统散射:成功捕捉了多体干涉下远场指向性随频率、间距和入射角的复杂变化。
    4. 浅海水下声传播:VBINN预测的声压级频响曲线及空间分布与COMSOL结果一致,且在普通PC上将高频预测极限从COMSOL的400Hz扩展到了500Hz。
  • 消融实验揭示
    引入Burton-Miller方法后,VBINN在特征频率附近的数值振荡被有效消除,结果在全频段保持平滑且与解析解一致;未引入时则在特定波数处出现明显偏差。

5. 优势与局限

  • 主要优势
    1. 无奇异积分:通过虚拟边界几何解耦,彻底消除了传统边界积分法中最棘手的奇异/超奇异积分计算。
    2. 自适应边界寻优:将虚拟边界参数纳入神经网络联合优化,摆脱了传统方法对经验试错的依赖,提升了鲁棒性。
    3. 降维与天然满足远场条件:继承边界积分法优点,只需边界配点,计算代价大幅降低,且解的形式天然满足Sommerfeld辐射条件。
  • 局限性
    1. 几何泛化能力弱:当前模型针对单一几何或单一频率设置进行训练,无法像算子学习那样实现跨几何形状或跨频段的泛化推理。
    2. 大规模/多尺度计算瓶颈:对于超大规模问题,当前的全局求和计算效率仍有待提升(论文也指出未来需引入快速多极子等加速技术)。
    3. 虚拟边界拓扑限制:目前虚拟边界的参数化主要基于简单几何(如球面),对于极端复杂的拓扑结构,如何参数化虚拟边界仍是一个开放问题。

6. 关键结论与启发

  • 最重要的Takeaway:将积分面从物理边界移至内部虚拟边界,并利用神经网络联合学习源密度与虚拟边界几何参数,是解决边界积分神经网络中奇异积分和边界位置敏感性的有效且优雅的方案。
  • 对后续研究的启发/延伸方向
    1. 算法加速:将传统数值计算中的快速多极子法(FMM)与VBINN结合,以突破三维大规模声学问题的计算瓶颈。
    2. 算子学习融合:结合Green函数先验和神经算子(如DeepONet/FNO),训练跨几何和跨频率的泛化模型,实现“一次训练,多场景推理”。
    3. 拓扑泛化:探索更灵活的虚拟边界参数化方式(如隐式神经表示SDF),以适应更复杂、非凸的散射体几何形状。
#13
cs.SD

APRVOS: 1st Place Winner of 5th PVUW MeViS-Audio Track

Deshui Miao, Yameng Gu, Chao Yang, Xin Li, Haijun Zhang 等 (6 人)
Sound (cs.SD)
查看摘要
This report presents an Audio-aware Referring Video Object Segmentation (Ref-VOS) pipeline tailored to the MEVIS\_Audio setting, where the referring expression is provided in spoken form rather than as clean text. Compared with a standard Sa2VA-based Ref-VOS pipeline, the proposed system introduces two additional front-end stages: speech transcription and visual existence verification. Specifically, we first employ VibeVoice-ASR to convert long-form spoken input into a structured textual transcript. Since audio-derived queries are inherently noisy and may describe entities that are not visually present in the video, we then introduce an Omni-based judgment module to determine whether the transcribed target can be grounded in the visual content. If the target is judged to be absent, the pipeline terminates early and outputs all-zero masks. Otherwise, the transcript is transformed into a segmentation-oriented prompt and fed into Sa2VA to obtain a coarse mask trajectory over the full video. Importantly, this trajectory is treated as an initial semantic hypothesis rather than a final prediction. On top of it, an agentic refinement layer evaluates query reliability, temporal relevance, anchor quality, and potential error sources, and may invoke SAM3 to improve spatial boundary precision and temporal consistency. The resulting framework explicitly decomposes the MEVIS\_Audio task into audio-to-text conversion, visual existence verification, coarse video segmentation, and agent-guided refinement. Such a staged design is substantially more appropriate for audio-conditioned Ref-VOS than directly sending noisy ASR outputs into a segmentation model.

📖 深度解读

1. 一句话总结

这篇论文提出了一个分阶段的音频感知指代视频目标分割流水线,通过显式解耦语音识别、目标存在性验证、粗分割和智能体精修,解决了音频输入带来的噪声和目标可能不存在等不确定性问题,赢得了MeViS-Audio赛道第一名。

2. 研究背景与动机

  • 核心问题:在MeViS_Audio任务设定下,如何根据语音(而非干净文本)指代来分割视频中的目标。
  • 重要性:传统的指代视频目标分割(Ref-VOS)通常假设输入是清晰无歧义的文本,但真实场景中指令往往以语音形式给出,这更符合人机交互的自然逻辑。
  • 现有方法不足:直接将音频转文本(ASR)的输出丢给标准分割模型存在三大隐患:1) ASR错误会扭曲语义,导致分割失败;2) 口语表达包含停顿、重复、不完整短语,不如书面语规范;3) 说话人提到的目标可能根本不在视频中,直接分割会导致模型“幻觉”(强行分割不存在的目标)。

3. 核心方法

  • 提出框架:APRVOS,一个包含六个关键步骤的级联流水线:语音输入 → VibeVoice-ASR转录 → Omni视觉存在性判断 → 提示词构建 → Sa2VA粗分割 → 智能体验证与SAM3精修。
  • 关键创新点
    1. 视觉存在性判断门控:在分割前增加一个基于Qwen3-VL的判断模块,如果语音提到的目标不在视频中,直接输出全零掩码,提前终止,避免无效计算和模型幻觉。
    2. 智能体验证与精修机制:不盲目信任粗分割结果,引入智能体对粗掩码的可靠性、时序连贯性进行显式推理,挑选出可靠的“锚点帧”。
    3. SAM3锚点传播精修:利用智能体选出的高置信度锚点帧生成几何提示词,调用SAM3进行前后向传播,同时优化空间边界的锐度和时序的稳定性。
  • 核心思路直觉解释:这就像给一个听指令干活的画师配了三个助手。第一个助手负责把老板含糊的语音转成文字;第二个助手抬头看一眼现场,确认老板说的东西到底在不在,不在就直接回复“没有”;第三个助手在画师(Sa2VA)画完草图后,充当质检员,挑出画得最准的几帧作为样板(锚点),然后让另一位精修画师(SAM3)照着样板把整段视频的细节和连贯性补齐。

4. 实验与结果

  • 数据集/基准:MeViS_Audio(5th PVUW Challenge的音频赛道)。
  • 对比方法:主要是框架内部不同模块的叠加对比(消融实验),以及排行榜上其他参赛队伍的方法。
  • 主要实验结果
  • 提出的流水线在排行榜上以 0.846857 的最终得分获得第一,大幅领先第二名的0.807134。
  • 在J&F指标上达到0.6700,N-acc和T-acc分别达到0.8939和0.9767。
  • 消融实验揭示
  • 单纯堆大模型(Sa2VA从4B扩到26B)只能让分数从0.45涨到0.53。
  • 加入存在性判断模块后,4B模型分数直接跃升至0.55,超越了裸跑的26B模型,证明过滤无效目标比单纯增加模型容量更重要。
  • 加入SAM3精修提升至0.59,再加入Planner进一步提升至0.67,验证了分阶段解耦和精修的必要性。

5. 优势与局限

  • 主要优势
    1. 鲁棒性强:通过显式解耦语音噪声和视觉存在性,有效避免了“垃圾进,垃圾出”和模型幻觉问题。
    2. 性价比高:消融实验证明,合理的流程设计(加判断模块)比单纯暴力放大模型参数更有效且成本更低。
    3. 分割精度高:结合大模型的语义理解(Sa2VA)和分割基础模型的细节传播(SAM3),兼顾了语义正确性和时空连贯性。
  • 局限性
    1. 级联误差与延迟:多阶段串行流水线(ASR→VLM→VLM→SAM)必然带来误差累积,且推理延迟较高,难以满足极端实时性要求。
    2. 高度依赖上游模型:ASR和存在性判断的准确性是硬上限,如果ASR出现严重同音词误判,且判断模块未纠正,后续流程将彻底失效。
    3. 缺乏端到端联合优化:各模块独立运作,目前没有跨模态或跨阶段的梯度传导或特征共享机制。

6. 关键结论与启发

  • 最重要的Takeaway:音频驱动的视频目标分割绝不能简单等同于“ASR+文本VOS”。必须显式地对语音识别的噪声和目标在视觉中的存在性进行建模和解耦,这是提升系统鲁棒性的关键。
  • 后续研究启发
    1. 从串行到并行的演进:未来可以探索如何将存在性判断、粗分割和精修融合进一个端到端的网络中,在保持解耦逻辑的同时减少推理开销。
    2. 智能体在视觉中的深度应用:本文的Agentic层展示了大语言模型作为“调度员”和“质检员”在视觉任务中的潜力,后续可研究让智能体根据ASR的置信度动态调整分割策略。
    3. 负样本处理机制:视觉存在性判断的思路可以推广到其他多模态任务中,为处理“指令与内容不匹配”的开放世界问题提供了参考范式。
#14
cs.SD

Comparison of sEMG Encoding Accuracy Across Speech Modes Using Articulatory and Phoneme Features

Chenqian Le, Ruisi Li, Beatrice Fumagalli, Xupeng Chen, Amirhossein Khalilian-Gourtani 等 (8 人)
Sound (cs.SD); Computation and Language (cs.CL)
查看摘要
We test whether Speech Articulatory Coding (SPARC) features can linearly predict surface electromyography (sEMG) envelopes across aloud, mimed, and subvocal speech in twenty-four subjects. Using elastic-net multivariate temporal response function (mTRF) with sentence-level cross-validation, SPARC yields higher prediction accuracy than phoneme one-hot representations on nearly all electrodes and in all speech modes. Aloud and mimed speech perform comparably, and subvocal speech remains above chance, indicating detectable articulatory activity. Variance partitioning shows a substantial unique contribution from SPARC and a minimal unique contribution from phoneme features. mTRF weight patterns reveal anatomically interpretable relationships between electrode sites and articulatory movements that remain consistent across modes. This study focuses on representation/encoding analysis (not end-to-end decoding) and supports SPARC as a robust and interpretable intermediate target for sEMG-based silent-speech modeling.

📖 深度解读

1. 一句话总结

这篇论文证明了,在预测肌肉电信号时,基于发音动作的连续特征(SPARC)比传统的离散音素特征更准确、更具独特贡献且更具解剖学可解释性,为静默语音接口提供了更优的中间表征目标。

2. 研究背景与动机

  • 核心问题:在基于表面肌电信号的静默语音接口(SSI)中,应该选择什么作为中间解码目标(即让模型预测什么)最合适?
  • 重要性:SSI旨在帮助失语症或构音障碍患者恢复交流,但目前系统的准确率和跨受试者的鲁棒性仍然有限。选择一个与肌肉运动生理机制高度契合的中间表征,是提升系统性能和实用性的关键。
  • 现有方法不足:现有方法通常使用离散的音素作为解码目标,但音素只是语言学上的抽象分类,与实际的肌肉运动(如嘴唇、下巴、舌头的连续运动)关联较弱,特别是在没有发声的静默语音下,强行预测音素可能非常困难且缺乏生理依据。

3. 核心方法

  • 提出框架:论文采用编码分析框架,使用带弹性网络正则化的多变量时间响应函数,比较SPARC(发音动作编码)与音素独热编码在预测sEMG信号包络上的能力。
  • 关键创新点
    1. 表征对比范式:将神经科学中的编码分析(mTRF和方差分解)引入肌肉电信号领域,系统比较发音动作特征与音素特征,而非直接做端到端解码。
    2. 跨模式对齐与评估:利用动态时间规整(DTW)将默读和默念的sEMG信号与出声信号对齐,实现了出声、默念和默读三种语音模式下的严格对比。
    3. 方差分解证明独特性:不仅比较预测准确率,还通过方差分解量化了SPARC和音素特征对sEMG信号的独特解释力。
  • 核心思路直觉解释:与其让肌肉电信号去硬凑抽象的“拼音字母”(音素),不如让它去预测嘴巴和舌头到底是怎么动的(SPARC特征)。研究就像是在测试“肌肉听不听话”:用mTRF建一个线性模型,看是“发音动作”还是“音素”能更好地还原肌肉的电活动。结果发现,肌肉显然更懂“动作”,而且不同电极捕捉到的权重模式完美对应了人脸的解剖结构。

4. 实验与结果

  • 数据集/基准
  • 主数据集:24名受试者,每人以出声、默念、默读三种模式各说50个TIMIT语料库句子,记录8通道面部/颈部sEMG。
  • 外部验证集:Gaddy数据集(单受试者),验证结论的泛化性。
  • 基线方法:40维音素独热编码。
  • 主要实验结果
  • SPARC全面胜出:在几乎所有电极和所有语音模式下,SPARC的预测相关性均显著高于音素特征。例如在Gaddy数据集上,出声模式下平均相关性从0.443(音素)提升至0.455(SPARC)。
  • 跨模式表现:出声和默念的表现相当高,默读虽然信噪比低,但依然显著高于随机水平,证明默读时仍有可探测的发音动作。
  • 方差分解:SPARC贡献了大量独特的解释方差,而音素特征的独特贡献微乎其微(两者共享的方差占主导,音素本身几乎不提供额外信息)。
  • 消融/深入分析揭示
  • 解剖学特异性:mTRF的权重图谱显示,口周电极主要捕捉唇部运动,颏下电极捕捉唇和下颌,喉部电极反映下颌和舌头运动。这种映射关系在不同语音模式下保持稳定,证明模型学到了符合生理解剖的结构,而非过拟合的噪声。

5. 优势与局限

  • 主要优势
    1. 生理学契合度高:SPARC直接描述运动学特征,比抽象的音素更贴合sEMG的生成机制。
    2. 可解释性强:模型的权重映射能够指导可穿戴设备的电极摆放位置,具有实际工程价值。
    3. 分析范式严谨:引入方差分解,清晰剥离了不同特征的冗余与独特贡献,论证扎实。
  • 局限性
    1. 仅限编码分析,未验证解码:论文只证明了SPARC是更好的“预测目标”,但没有验证将其作为中间目标进行端到端语音合成或识别时,是否真的能带来最终性能的提升。
    2. DTW对齐的潜在偏差:为了对齐静默和出声信号使用了DTW,虽然作者论证了它不会造成SPARC对音素的相对优势,但DTW本身可能会平滑掉静默语音中特有的一些时间动态细节。
    3. 默读模式性能下降明显:虽然默读高于随机,但绝对性能较低,距离实际应用仍有差距。

6. 关键结论与启发

  • 最重要的Takeaway:在构建基于sEMG的静默语音系统时,应摒弃传统的离散音素目标,转向使用连续的发音动作特征(如SPARC),因为它们与肌肉活动具有更本质的生理联系,且包含音素无法提供的独特信息。
  • 后续研究启发
    1. 向端到端解码延伸:最直接的下一步是将SPARC作为中间损失函数或预测目标,引入到深度学习端到端解码框架中,验证其在生成可懂语音上的实际收益。
    2. 电极优化设计:利用mTRF权重揭示的解剖映射关系,可以指导高密度或低功耗可穿戴sEMG设备的电极阵列优化配置。
    3. 提升默读解码:针对默读模式下信噪比低的问题,未来可探索更高级的非线性编码模型或降噪策略,挖掘微弱肌电信号中的发音动作信息。
#15
cs.SD

Tadabur: A Large-Scale Quran Audio Dataset

Faisal Alherran
Sound (cs.SD); Artificial Intelligence (cs.AI)
查看摘要
Despite growing interest in Quranic data research, existing Quran datasets remain limited in both scale and diversity. To address this gap, we present Tadabur, a large-scale Quran audio dataset. Tadabur comprises more than 1400+ hours of recitation audio from over 600 distinct reciters, providing substantial variation in recitation styles, vocal characteristics, and recording conditions. This diversity makes Tadabur a comprehensive and representative resource for Quranic speech research and analysis. By significantly expanding both the total duration and variability of available Quran data, Tadabur aims to support future research and facilitate the development of standardized Quranic speech benchmarks.

📖 深度解读

1. 一句话总结

本文发布了Tadabur,一个包含1400+小时音频、600+诵读者的大规模古兰经语音数据集,并通过自动化流水线提供了精确的词级时间对齐标注,填补了该领域在数据规模和多样性上的空白。

2. 研究背景与动机

  • 核心问题:现有的古兰经语音数据集在规模、诵读者多样性、音频质量和标注深度上都非常有限,无法支撑高级语音任务(如ASR、诵读者识别、韵律分析等)的发展。
  • 重要性:古兰经诵读具有极高的全球宗教意义,且在声学上极具独特性(如延长的音素时长、严格的发音规则Tajwid、旋律化的表达)。缺乏高质量数据导致当前的通用或阿拉伯语语音模型在处理古兰经音频时表现极差。
  • 现有不足:现有数据集(如Kaggle分类数据集、SLR132、Buraaq)要么只适合简单的分类任务缺乏文本标注,要么只有粗粒度的节级对齐而缺乏词级时间戳,且诵读者数量极少(通常不超过30人),声学多样性严重不足。

3. 核心方法

  • 提出框架:Tadabur数据集及其全自动化的构建流水线,包含数据收集、元数据提取、节级对齐和数据清洗四个阶段。
  • 关键创新点
    1. LLM驱动的元数据提取与清洗:利用Gemini 2.5 Flash从杂乱无章的文件名和描述中推断、标准化元数据,并过滤无效音频。
    2. 基于语义嵌入的经文对齐模块(AAM):摒弃传统的文本模糊匹配,使用SILMA AI嵌入模型计算转录文本与标准古兰经文本的余弦相似度,实现更鲁棒的节级切分。
    3. 诵读边界精细修正:在WhisperX初步切分的基础上,加入5秒缓冲区并使用专用的边界检测模型,精确定位诵读者的自然停顿点,避免截断或混入下一节内容。
    4. 基于图去重的音频清洗:提取音频的EAT嵌入,通过余弦相似度和并查集结构,高效合并同一诵读者同一经文的重复录音。
  • 核心思路直觉解释:构建这个数据集就像是从一堆杂乱的录音带中整理出标准化的图书馆。首先用AI“图书管理员”(LLM)给录音贴上准确的标签并扔掉垃圾;然后用语音识别模型把长录音切成一段段,再通过“语义理解”而不是死板的字面匹配,找到每段录音对应的具体经文;最后,用“智能剪刀”在诵读者停顿的呼吸点精准剪断,并把完全一样的重复录音挑出来扔掉。

4. 实验与结果

  • 数据集/基准:自建的Tadabur数据集(1400+小时,600+诵读者,365,000+音频片段)。
  • 基线方法
  • 流水线评估:对比了模糊匹配 vs SILMA嵌入对齐;Whisper Small vs Whisper-Quran vs Tadabur微调模型。
  • ASR基准评估:对比了8个主流ASR模型(Whisper-Quran, Whisper Small, Wav2Vec2, MMS 1B, Qwen3-ASR, Cohere, Voxtral, VibeVoice)。
  • 主要实验结果
  • 流水线评估中,SILMA嵌入对齐 + Tadabur微调模型组合表现最佳,平均对齐覆盖率达到96.63%,比模糊匹配高出10个百分点以上。
  • ASR基准测试中,仅有74M参数的Whisper-Quran取得了最佳的8.7% WER6.5% CER,远超参数量高达7B的通用模型(如VibeVoice-ASR WER为24.3%,Wav2Vec2 XLSR-53 Arabic WER高达57.4%)。
  • 消融实验揭示
  • 对齐方法上,语义级匹配对古兰经特有的音素延长和发音规则更具鲁棒性。
  • 模型选择上,领域适应性远比模型规模重要。未经古兰经数据微调的通用多语言或阿拉伯语模型,在该领域表现极其糟糕。

5. 优势与局限

  • 主要优势
    1. 规模与多样性断层式领先:时长和诵读者数量远超现有同类数据集(从30人跃升至600+人),极大地丰富了声学特征。
    2. 细粒度高质量标注:提供了现有数据集普遍缺失的词级时间对齐和结构化元数据。
    3. 高度自动化的鲁棒流水线:结合LLM和语义嵌入,解决了大规模无结构数据处理的痛点。
  • 局限性
    1. 诵读者覆盖不全:部分诵读者并非录制了所有经文,且部分缺失是由于流水线中ASR识别错误导致匹配失败。
    2. 词级时间戳精度受限:由于使用的对齐模型并非专门针对古兰经独特发音风格训练,词级时间戳的精度仍有提升空间。

6. 关键结论与启发

  • 最重要的Takeaway:在高度专业化、规则化且韵律独特的语音领域(如古兰经诵读),数据规模和领域适应性是碾压通用大模型参数规模的决定性因素。一个74M的领域微调模型可以轻松击败7B的通用SOTA模型。
  • 后续研究启发
    1. 模型改进:亟需开发专门针对古兰经发音规则和长音素特征微调的强制对齐模型,以解决当前词级时间戳不精准的问题。
    2. 基准拓展:Tadabur可作为标准化基准,推动古兰经ASR、诵读者识别、发音错误检测及韵律风格迁移等下游任务的爆发。
    3. 流水线复用:该论文提出的“LLM元数据清洗 + 语义嵌入对齐 + 边界精细修正”的框架,具有很强的通用性,可迁移至其他长篇朗读、布道或高度结构化的语音数据集构建中。
#16
cs.SD

ATRIE: Adaptive Tuning for Robust Inference and Emotion in Persona-Driven Speech Synthesis 解读失败

Aoduo Li, Haoran Lv, Shengmin Li, Sihao Qin, Hongjian Xu
Sound (cs.SD)
查看摘要
High-fidelity character voice synthesis is a cornerstone of immersive multimedia applications, particularly for interacting with anime avatars and digital humans. However, existing systems struggle to maintain consistent persona traits across diverse emotional contexts. To bridge this gap, we present ATRIE, a unified framework utilizing a Persona-Prosody Dual-Track (P2-DT) architecture. Our system disentangles generation into a static Timbre Track (via Scalar Quantization) and a dynamic Prosody Track (via Hierarchical Flow-Matching), distilled from a 14B LLM teacher. This design enables robust identity preservation (Zero-Shot Speaker Verification EER: 0.04) and rich emotional expression. Evaluated on our extended AnimeTTS-Bench (50 characters), ATRIE achieves state-of-the-art performance in both generation and cross-modal retrieval (mAP: 0.75), establishing a new paradigm for persona-driven multimedia content creation.

📖 深度解读

[LLM 解读失败: HTTP 429]

#17
cs.SD

Audio Spoof Detection with GaborNet

Waldek Maciejko
Sound (cs.SD)
查看摘要
An direction of development in the extraction of features from audio signals is based on processing raw samples in the time domain. Such an approach appears to be effective, especially in the era of neural networks. An example is SincNet. In this solution, the core of the neural network layer is a set of sinc functions that are convolved with the input signal. Due to the finite length of sinc functions, distortions appear in the frequency domain of the convolved signal, the same as in the case of windowing the signal. Recently, a new approach has been developed that uses Gabor filters to replace sinc functions. Due to the complex results, further modifications had to be applied, such as squared modulus or Gaussian Lowpass Pooling. In this work, an ingestion layer based on a bank of Gabor filters, named GaborNet, and its modifications are intensively examined within the popular RawNet2 and RawGAT- ST architectures. These have been developed for the purpose of audio spoof detection. Another issue that has been investigated was audio augmentation using codec conversions, room responses, and additive noises.

📖 深度解读

1. 一句话总结

本文将基于Gabor滤波器的LEAF架构作为音频伪造检测模型的输入层以替代传统的SincNet,并系统评估了其在RawNet2和RawGAT-ST两种架构中的表现及不同数据增强策略的效果。

2. 研究背景与动机

  • 核心问题:如何从原始音频波形中提取更有效、失真更少的特征,以提升音频伪造检测系统的性能和泛化能力。
  • 重要性:随着语音合成(TTS)和语音转换(VC)技术的飞速发展,自动说话人验证系统面临严重的欺骗威胁,开发更鲁棒的检测算法至关重要。
  • 现有方法不足
    1. 传统手工特征(如梅尔频谱图)平滑了语音频谱,可能丢失对防伪至关重要的窄带特征,且固定了频带限制了神经网络的灵活性。
    2. 现有直接处理原始波形的SincNet方法,由于在实际应用中必须截断无限长的sinc函数,相当于对信号加窗,这会导致频域上的高频泄漏和通带/阻带波纹,从而扭曲学习到的特征。

3. 核心方法

  • 提出的方法:提出了“GaborNet”作为音频伪造检测架构的摄入层,即用可学习的Gabor滤波器组替代SincNet,并结合LEAF架构的后续处理模块(平方模、高斯低通池化、PCEN),嵌入到RawNet2和RawGAT-ST两种主流防伪网络中。
  • 关键创新点
    1. 引入Gabor滤波器替代sinc函数:Gabor滤波器天然具有有限持续时间,无需像sinc函数那样被截断,从而避免了加窗效应带来的频域失真和高频泄漏。
    2. 适配复数域输出的处理流水线:由于Gabor卷积输出为复数,引入了平方模运算将其转为实数(可理解为子带Hilbert包络,对微小时间偏移具有不变性),并使用高斯低通池化进行下采样。
    3. 结合PCEN归一化:使用可学习的逐通道能量归一化(PCEN),替代传统的对数压缩,动态调整特征对信号强度的响应。
  • 核心思路直觉解释:如果把SincNet比作用一把带有锯齿(截断波纹)的刀去切分音频的频率成分,那么GaborNet就是用一把边缘平滑的刀。Gabor滤波器在时域上自然衰减,不需要“硬切断”,因此在频域上切分得更干净。切分后,通过“平方模”提取信号的能量包络,再用“高斯低通池化”平滑降采样,最后用PCEN做动态增益控制,让网络能更清晰地听到伪造音频留下的“蛛丝马迹”。

4. 实验与结果

  • 数据集/基准:ASVspoof 2019 Logical Access (LA) 数据集,评估指标为等错误率(EER)。
  • 基线方法:原始的RawNet2和RawGAT-ST(均使用SincNet作为输入层)。
  • 主要实验结果
    1. RawNet2架构:GaborNet的引入带来了性能提升。原始RawNet2的EER为4.131%,替换为GaborNet后降至4.025%,加上高斯池化和PCEN(完整LEAF)后进一步降至3.807%
    2. RawGAT-ST架构:GaborNet的引入反而导致了性能下降。原始RawGAT-ST的EER为1.778%,替换为GaborNet后升至2.000%,完整LEAF版本升至2.406%。
    3. 数据增强:对于RawNet2,使用有损编解码器(Codec,如A-law, MP3等)增强数据效果最好,将EER降至3.073%;但房间脉冲响应(RIR)和加性噪声(MUSAN)反而干扰了性能。对于RawGAT-ST,所有数据增强方法均导致性能退化。
  • 消融实验揭示了什么
    1. 单独对比前端:LEAF前端(EER 21.588%)远优于SincNet前端(EER 50.116%),证明Gabor+PCEN提取的特征质量更高。
    2. RawGAT-ST性能下降的根源:消融实验表明,LEAF前端与RawGAT-ST中的频谱图注意力机制(Spectral GAT)存在严重冲突,两者结合导致了性能退化;而时间注意力机制则配合较好。

5. 优势与局限

  • 主要优势
    1. 理论上更优的滤波器设计:Gabor滤波器从根本上解决了SincNet截断带来的频域泄漏问题。
    2. 特征表达更强:消融实验证实,作为独立的前端特征提取器,LEAF/GaborNet提取的信息量远大于SincNet。
    3. 对特定架构有提升:在RawNet2这类相对简单的架构上,GaborNet及Codec增强能切实提升检测性能。
  • 局限性
    1. 架构泛化性差:在更先进的RawGAT-ST架构上表现不佳,说明GaborNet并非“即插即用”的万能模块,其复数域/能量包络的输出特性可能与某些图注意力机制不兼容。
    2. 数据增强策略敏感:常用的RIR和MUSAN增强在本文设定的防伪任务中失效,甚至起反作用,说明音频防伪模型对数据增强的容忍度与常规语音识别不同。
    3. 复杂度增加:引入了复数卷积、高斯池化和PCEN,相比简单的SincNet增加了模型和训练的复杂度。

6. 关键结论与启发

  • 最重要的takeaway:更先进的信号处理前端(如GaborNet/LEAF)虽然能提取更高质量的音频特征,但它与后端网络架构存在强烈的耦合关系;特征提取器不是越复杂越好,而是必须与后端(如图注意力机制)的归纳偏置相匹配。
  • 对后续研究的启发或延伸方向
    1. 解决前端与GAT的冲突:未来需要研究为何频谱GAT与LEAF前端冲突,可能需要调整GAT的图构建方式,使其适应包络类特征而非原始频谱特征。
    2. 防伪专属的数据增强:既然RIR和噪声增强失效而Codec有效,后续可探索更多针对“伪造痕迹”的数据增强,例如模拟声码器伪影、相位失真等,而非仅仅模拟物理环境的畸变。
    3. Gabor滤波器的变体探索:可以尝试将Gabor滤波器与其他轻量级后端(如Conformer或Squeeze-Excitation模块)结合,寻找能最大化发挥其无截断优势的架构组合。
#18
cs.SD

HalluAudio: A Comprehensive Benchmark for Hallucination Detection in Large Audio-Language Models

Feiyu Zhao, Yiming Chen, Wenhuan Lu, Daipeng Zhang, Xianghu Yue 等 (6 人)
Sound (cs.SD); Artificial Intelligence (cs.AI)
查看摘要
Large Audio-Language Models (LALMs) have recently achieved strong performance across various audio-centric tasks. However, hallucination, where models generate responses that are semantically incorrect or acoustically unsupported, remains largely underexplored in the audio domain. Existing hallucination benchmarks mainly focus on text or vision, while the few audio-oriented studies are limited in scale, modality coverage, and diagnostic depth. We therefore introduce HalluAudio, the first large-scale benchmark for evaluating hallucinations across speech, environmental sound, and music. HalluAudio comprises over 5K human-verified QA pairs and spans diverse task types, including binary judgments, multi-choice reasoning, attribute verification, and open-ended QA. To systematically induce hallucinations, we design adversarial prompts and mixed-audio conditions. Beyond accuracy, our evaluation protocol measures hallucination rate, yes/no bias, error-type analysis, and refusal rate, enabling a fine-grained analysis of LALM failure modes. We benchmark a broad range of open-source and proprietary models, providing the first large-scale comparison across speech, sound, and music. Our results reveal significant deficiencies in acoustic grounding, temporal reasoning, and music attribute understanding, underscoring the need for reliable and robust LALMs.

📖 深度解读

1. 一句话总结

本文提出了HalluAudio,这是首个大规模、人工验证的音频幻觉评测基准,覆盖语音、环境声和音乐三大领域,通过多维度的任务和指标系统性地揭示了当前大型音频语言模型在声学接地、时序推理和属性理解上存在严重的幻觉问题。

2. 研究背景与动机

  • 核心问题:大型音频语言模型(LALMs)在生成回复时,经常产生与输入音频内容不符或缺乏声学依据的“幻觉”。
  • 重要性:随着LALMs在现实场景中的广泛应用,其准确性和可靠性至关重要。幻觉会导致模型“一本正经地胡说八道”,严重影响系统的可信度和安全性。
  • 现有方法不足:目前的幻觉研究主要集中在文本和视觉领域,音频领域的探索极少。仅有的少数音频幻觉基准(如AHa-Bench)规模小、任务单一(多为简单的二元判断),且缺乏对“是/否偏见”、“错误拒绝”等深层失败模式的诊断能力。

3. 核心方法

  • 提出框架HalluAudio 基准测试框架,包含超过5K人工验证的QA对。
  • 关键创新点
    1. 全模态覆盖与多样化任务:首次同时覆盖语音、环境声和音乐三大音频子领域,任务形式从二元判断、多选推理到属性验证和开放式问答,全面诱发幻觉。
    2. 对抗性与对比式构建:通过设计对抗性提示(如故意询问音频中不存在的属性)和混合音频条件(如重叠语音、多乐器),主动“诱骗”模型产生幻觉。
    3. 多维诊断指标体系:超越传统的准确率,引入幻觉率、是/否偏见、错误类型分析和错误拒绝率(FRR),实现对模型失败模式的细粒度剖析。
  • 核心思路直觉解释:就像给AI做一次全方位的“听力与诚实度测谎”。不仅问它听到了什么(常规QA),还故意设陷阱(问没出现的声音),看它是否会瞎编(幻觉)、盲目点头(肯定偏见),还是过度谨慎明明听到了却不敢答(错误拒绝)。

4. 实验与结果

  • 数据集/基准:HalluAudio(基于Common Voice, FSD50K, GTZAN等开源音频库构建,包含5720个QA对,其中57.4%为对比/对抗性样本)。
  • 对比基线:12个主流LALMs,包括闭源的GPT-4o-Audio、Gemini-2.5-Flash,以及开源的Qwen-Audio系列、Llama-Omni系列、Kimi-Audio、MiMo-Audio等。
  • 主要实验结果
  • 整体表现差:所有模型在三大领域均存在显著幻觉,没有模型能全面抗打。例如在语音领域的时序和计数任务上,多数模型准确率低于50%,Llama-Omni在响度比较上甚至接近0%。
  • 肯定偏见严重:Qwen系列和Kimi-Audio在二元问题上表现出强烈的“点头”倾向,即使证据不足也倾向于回答“Yes”。
  • 错误拒绝频发:Gemini-2.5-Flash和Qwen2-Audio在证据充分时频繁“拒绝回答”,表现出过度保守的幻觉模式。
  • 消融实验/鲁棒性测试:通过对1000个样本进行语义改写测试,发现模型表现偏差极小(平均仅0.7%),证明HalluAudio测出的是模型真实的声学推理缺陷,而非对特定提示词模板的敏感。

5. 优势与局限

  • 主要优势
    1. 填补空白:首个大规模、跨音频全子领域的人工标注幻觉基准,具有开创性。
    2. 诊断深度:不仅测“错不错”,还通过偏见和拒绝率指标揭示“怎么错”,对后续算法改进指导性强。
    3. 高质量数据:经过严格的多轮人工验证(Cohen's κ达0.91),并剔除了模板带来的语言偏差。
  • 局限性
    1. 任务类型局限:目前主要针对判别型和短问答任务,对长音频开放式生成(如长篇音频摘要)的幻觉评估仍较难量化。
    2. 音频操作粒度:对抗性构建主要在提示词和属性层面,对音频信号本身的深度对抗扰动(如对抗性音频攻击)涉及较少。
    3. 动态评估缺失:未涉及多轮交互中的幻觉累积现象评估。

6. 关键结论与启发

  • 最重要的Takeaway传统能力评测的高分不等于高可靠性。即使模型在标准音频基准上表现优异,在面临对抗性或需要细粒度声学接地的场景时,仍会暴露严重的幻觉(如瞎编内容、盲目肯定或过度拒绝)。
  • 对后续研究的启发
    1. 算法改进方向:未来LALMs的训练需引入负样本和缺失证据的训练,以缓解“肯定偏见”;同时需增强时序和结构对齐能力,减少结构性幻觉。
    2. 评估范式转变:音频模型评估应从单一的“准确率至上”转向“能力+可靠性”双轨制,将幻觉率、拒绝率纳入核心考量。
    3. 跨域一致性:同一模型在不同音频域(语音vs音乐)的幻觉表现差异巨大,提示我们需要开发具有跨域鲁棒性的统一音频架构。
#19
cs.SD

Deep Supervised Contrastive Learning of Pitch Contours for Robust Pitch Accent Classification in Seoul Korean 解读失败

Hyunjung Joo, GyeongTaek Lee
Sound (cs.SD); Computation and Language (cs.CL)
查看摘要
The intonational structure of Seoul Korean has been defined with discrete tonal categories within the Autosegmental-Metrical model of intonational phonology. However, it is challenging to map continuous $F_0$ contours to these invariant categories due to variable $F_0$ realizations in real-world speech. Our paper proposes Dual-Glob, a deep supervised contrastive learning framework to robustly classify fine-grained pitch accent patterns in Seoul Korean. Unlike conventional local predictive models, our approach captures holistic $F_0$ contour shapes by enforcing structural consistency between clean and augmented views in a shared latent space. To this aim, we introduce the first large-scale benchmark dataset, consisting of manually annotated 10,093 Accentual Phrases in Seoul Korean. Experimental results show that our Dual-Glob significantly outperforms strong baseline models with state-of-the-art accuracy (77.75%) and F1-score (51.54%). Therefore, our work supports AM-based intonational phonology using data-driven methodology, showing that deep contrastive learning effectively captures holistic structural features of continuous $F_0$ contours.

📖 深度解读

[LLM 解读失败: HTTP 502]

#20
cs.SD

BEAT: Tokenizing and Generating Symbolic Music by Uniform Temporal Steps 解读失败

Lekai Qian, Haoyu Gu, Jingwei Zhao, Ziyu Wang
Sound (cs.SD); Artificial Intelligence (cs.AI)
查看摘要
Tokenizing music to fit the general framework of language models is a compelling challenge, especially considering the diverse symbolic structures in which music can be represented (e.g., sequences, grids, and graphs). To date, most approaches tokenize symbolic music as sequences of musical events, such as onsets, pitches, time shifts, or compound note events. This strategy is intuitive and has proven effective in Transformer-based models, but it treats the regularity of musical time implicitly: individual tokens may span different durations, resulting in non-uniform time progression. In this paper, we instead consider whether an alternative tokenization is possible, where a uniform-length musical step (e.g., a beat) serves as the basic unit. Specifically, we encode all events within a single time step at the same pitch as one token, and group tokens explicitly by time step, which resembles a sparse encoding of a piano-roll representation. We evaluate the proposed tokenization on music continuation and accompaniment generation tasks, comparing it with mainstream event-based methods. Results show improved musical quality and structural coherence, while additional analyses confirm higher efficiency and more effective capture of long-range patterns with the proposed tokenization.

📖 深度解读

[LLM 解读失败: HTTP 502]

#21
cs.SD

Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model

Shuhai Peng, Hui Lu, Jinjiang Liu, Liyang Chen, Guiping Zhong 等 (11 人)
Sound (cs.SD); Artificial Intelligence (cs.AI)
查看摘要
While generative models have set new benchmarks for Target Speaker Extraction (TSE), their inherent reliance on global context precludes deployment in real-time applications. Direct adaptation to streaming scenarios often leads to catastrophic inference performance degradation due to the severe mismatch between training and streaming inference. To bridge this gap, we present the first autoregressive (AR) models tailored for streaming TSE. Our approach introduces a Chunk-wise Interleaved Splicing Paradigm that ensures highly efficient and stable streaming inference. To ensure the coherence between the extracted speech segments, we design a historical context refinement mechanism that mitigates boundary discontinuities by leveraging historical information. Experiments on Libri2Mix show that while AR generative baseline exhibits performance degradation at low latencies, our approach maintains 100% stability and superior intelligibility. Furthermore, our streaming results are comparable to or even surpass offline baselines. Additionally, our model achieves a Real-Time-Factor (RTF) of 0.248 on consumer-level GPUs. This work provides empirical evidence that AR generative backbones are viable for latency-sensitive applications through the Chunk-wise Interleaved Splicing Paradigm.

📖 深度解读

1. 一句话总结

本文提出了首个基于自回归语言模型的流式目标说话人提取框架,通过“块级交错拼接范式”和“历史上下文优化机制”,解决了生成式模型在低延迟流式场景下性能崩溃和边界不连续的问题,实现了媲美甚至超越离线模型的实时语音提取。

2. 研究背景与动机

  • 核心问题:如何将依赖全局上下文的生成式目标说话人提取(TSE)模型,有效部署到对延迟极其敏感的实时流式场景中。
  • 重要性:TSE技术(从混合语音中提取特定目标说话人的声音)在电话会议、语音助手等实时交互场景中具有巨大的应用价值。
  • 现有方法不足
    1. 判别式方法(如SpEx+):计算快,但容易引入伪影,难以重建高频细节,音质受限。
    2. 生成式方法(如基于扩散模型或语言模型的TSE):音质好,但高度依赖全局上下文。直接强制其进行流式推理会导致严重的“训练-推理不匹配”,在低延迟下性能急剧下降甚至推理崩溃(生成空输出)。
    3. 扩散模型的局限:迭代采样的机制导致计算开销大,不如自回归(AR)模型的一次性前向执行更适合流式处理。

3. 核心方法

  • 提出框架:基于LauraGPT骨干网络,提出了一种由粗到细的流式TSE框架,包含共享编码器、语义提取语言模型(SELM)、声学优化语言模型(ARLM)和编解码器。
  • 关键创新点
    1. 块级交错拼接范式:将混合语音块和目标语音token按时间顺序交错排列输入(如:[参考语音, 混合块1, 目标token1, 混合块2, 目标token2...]),强制模型只能看到当前和历史信息,严格保证因果性,杜绝未来信息泄露。
    2. 历史上下文优化机制:在Codec解码器阶段,将上一个时间步生成的隐状态拼接到当前步的输入中,利用历史信息“润滑”块与块之间的边界,解决流式生成中常见的相位和语义不连续问题。
    3. 高效的O(1)追加式推理:交错拼接的设计使得推理时只需将新数据追加到序列末尾,无需像顺序拼接那样破坏KV缓存导致全量重算,极大提升了推理效率。
  • 核心思路直觉解释:传统生成模型像是在看完整幅拼图后才动笔画画,一旦只能看局部(流式),就画不好了。本文的方法是让模型“走一步看一步”:先听一段混合音,马上画出对应的目标音,再听下一段,接着画;同时,为了防止两段画之间接缝处出现裂缝,每次动笔前都看一眼上一笔画完的边缘,以此保证整幅画的连贯。

4. 实验与结果

  • 数据集/基准:基于LibriSpeech-460h和Libri2Mix数据集。
  • 基线方法
  • 生成式:LauraTSE(同骨干的AR基线)、TSELM-L。
  • 判别式:SpEx+、WeSep(均为离线模型)。
  • 主要实验结果
  • 稳定性:在低延迟(如80ms-560ms)下,基线LauraTSE的推理成功率(ISR)暴跌至15%-89%,而本文方法在所有延迟设置下均保持100% ISR
  • 性能对比:在560ms延迟下,本文方法的WER(词错率)降至0.152(基线为0.174),信号质量(SIG 3.535)甚至超越了离线的判别式模型SpEx+(3.472)和WeSep(3.486)。
  • 实时性:在消费级GPU(RTX 4090)上,实时率(RTF)达到0.248,意味着处理1秒音频仅需0.248秒,远超实时要求。
  • 消融实验揭示
  • ARLM输入策略:仅用参考语音效果差,必须引入混合语音上下文;交错拼接与顺序拼接性能相当,但交错拼接支持KV缓存追加,计算效率完胜。
  • 历史上下文:去掉历史信息会导致WER上升、NISQA下降;使用“单块历史”在性能和计算/内存开销之间取得了最佳平衡(全量历史收益极小但内存开销大)。

5. 优势与局限

  • 主要优势
    1. 突破流式瓶颈:首次证明了AR生成式骨干完全可以胜任低延迟的流式TSE任务,彻底解决了生成模型在流式场景下的崩溃问题。
    2. 工程效率极高:交错拼接范式支持O(1)的KV缓存追加操作,RTF极低,对硬件极其友好。
    3. 边界处理巧妙:历史上下文机制用极低的成本(仅引入上一块隐状态)有效缓解了流式生成的边界断裂问题。
  • 局限性
    1. 超低延迟下的性能折损:虽然稳定性100%,但在极低延迟(如80ms、160ms)下,音质和可懂度(如NISQA、WER)相较于高延迟仍有明显下降。
    2. 说话人相似度仍有提升空间:论文结果显示,在560ms延迟下,其WavLM说话人相似度(0.959)略逊于离线的LauraTSE(0.973),说明流式截断对声纹特征的保持有一定影响。
    3. 依赖离散编解码器:框架受限于Funcodec的性能(如要求块大小为40ms的倍数),可能引入编解码器本身的量化误差。

6. 关键结论与启发

  • 最重要的Takeaway:生成式模型并非天然与流式低延迟场景绝缘,关键在于输入范式的重新设计。通过“交错拼接”强制因果对齐,配合“历史信息”弥合边界,生成式模型不仅能稳定流式推理,还能在音质上打败传统的离线判别式模型。
  • 后续研究启发/延伸方向
    1. 超低延迟优化:如何进一步改善80ms-160ms等极低延迟下的语音质量和说话人相似度,是推向实际产品化的关键。
    2. 范式泛化:这种“块级交错拼接”+“历史上下文”的思路,是否可以无缝迁移到其他基于AR的流式音频生成任务(如流式语音合成、流式音乐生成)中?
    3. 与扩散模型结合:虽然本文论证了AR比扩散模型更适合流式,但能否借鉴扩散模型的去噪思想来进一步提升AR模型在流式场景下的高频细节恢复能力?
#22
cs.SD

Environmental Sound Deepfake Detection Using Deep-Learning Framework 解读失败

Lam Pham, Khoi Vu, Dat Tran, Phat Lam, Vu Nguyen 等 (9 人)
Sound (cs.SD); Artificial Intelligence (cs.AI)
查看摘要
In this paper, we propose a deep-learning framework for environmental sound deepfake detection (ESDD) -- the task of identifying whether the sound scene and sound event in an input audio recording is fake or not. To this end, we conducted extensive experiments to explore how individual spectrograms, a wide range of network architectures and pre-trained models, ensemble of spectrograms or network architectures affect the ESDD task performance. The experimental results on the benchmark datasets of EnvSDD and ESDD-Challenge-TestSet indicate that detecting deepfake audio of sound scene and detecting deepfake audio of sound event should be considered as individual tasks. We also indicate that the approach of finetuning a pre-trained model is more effective compared with training a model from scratch for the ESDD task. Eventually, our best model, which was finetuned from the pre-trained WavLM model with the proposed three-stage training strategy, achieve the Accuracy of 0.98, F1 Score of 0.95, AuC of 0.99 on EnvSDD Test subset and the Accuracy of 0.88, F1 Score of 0.77, and AuC of 0.92 on ESDD-Challenge-TestSet dataset.

📖 深度解读

[LLM 解读失败: HTTP 502]

#23
cs.SD

Voice of India: A Large-Scale Benchmark for Real-World Speech Recognition in India 解读失败跨领域

Kaushal Bhogale, Manas Dhir, Amritansh Walecha, Manmeet Kaur, Vanshika Chhabra 等 (13 人)
Computation and Language (cs.CL); Sound (cs.SD); Audio and Speech Processing (eess.AS)
查看摘要
Existing Indic ASR benchmarks often use scripted, clean speech and leaderboard driven evaluation that encourages dataset specific overfitting. In addition, strict single reference WER penalizes natural spelling variation in Indian languages, including non standardized spellings of code-mixed English origin words. To address these limitations, we introduce Voice of India, a closed source benchmark built from unscripted telephonic conversations covering 15 major Indian languages across 139 regional clusters. The dataset contains 306230 utterances, totaling 536 hours of speech from 36691 speakers with transcripts accounting for spelling variations. We also analyze performance geographically at the district level, revealing disparities. Finally, we provide detailed analysis across factors such as audio quality, speaking rate, gender, and device type, highlighting where current ASR systems struggle and offering insights for improving real world Indic ASR systems.

📖 深度解读

[LLM 解读失败: HTTP 502]

#24
cs.SD

UAF: A Unified Audio Front-end LLM for Full-Duplex Speech Interaction 解读失败跨领域

Yadong Li, Guoxin Wu, Haiping Hou, Biye Li
Artificial Intelligence (cs.AI); Sound (cs.SD); Audio and Speech Processing (eess.AS)
查看摘要
Full-duplex speech interaction, as the most natural and intuitive mode of human communication, is driving artificial intelligence toward more human-like conversational systems. Traditional cascaded speech processing pipelines suffer from critical limitations, including accumulated latency, information loss, and error propagation across modules. To address these issues, recent efforts focus on the end-to-end audio large language models (LLMs) like GPT-4o, which primarily unify speech understanding and generation task. However, most of these models are inherently half-duplex, and rely on a suite of separate, task-specific front-end components, such as voice activity detection (VAD) and turn-taking detection (TD). In our development of speech assistant, we observed that optimizing the speech front-end is equally crucial as advancing the back-end unified model for achieving seamless, responsive interactions. To bridge this gap, we propose the first unified audio front-end LLM (UAF) tailored for full-duplex speech systems. Our model reformulates diverse audio front-end tasks into a single auto-regressive sequence prediction problem, including VAD, TD, speaker recognition (SR), automatic speech recognition (ASR) and question answer (QA). It takes streaming fixed-duration audio chunk (e.g., 600 ms) as input, leverages a reference audio prompt to anchor the target speaker at the beginning, and regressively generates discrete tokens encoding both semantic content and system-level state controls (e.g., interruption signals). Experiments demonstrate that our model achieves leading performance across multiple audio front-end tasks and significantly enhances response latency and interruption accuracy in real-world interaction scenarios.

📖 深度解读

[LLM 解读失败: HTTP 403]

#25
cs.SD

Protecting Bystander Privacy via Selective Hearing in Audio LLMs 解读失败跨领域

Xiao Zhan, Guangzhi Sun, Jose Such, Phil Woodland
Sound (cs.SD); Artificial Intelligence (cs.AI)
查看摘要
Audio Large language models (LLMs) are increasingly deployed in the real world, where they inevitably capture speech from unintended nearby bystanders, raising privacy risks that existing benchmarks and defences did not consider. We introduce SH-Bench, the first benchmark designed to evaluate selective hearing: a model's ability to attend to an intended main speaker while refusing to process or reveal information about incidental bystander speech. SH-Bench contains 3,968 multi-speaker audio mixtures, including both real-world and synthetic scenarios, paired with 77k multiple-choice questions that probe models under general and selective operating modes. In addition, we propose Selective Efficacy (SE), a novel metric capturing both multi-speaker comprehension and bystander-privacy protection. Our evaluation of state-of-the-art open-source and proprietary LLMs reveals substantial bystander privacy leakage, with strong audio understanding failing to translate into selective protection of bystander privacy. To mitigate this gap, we also present Bystander Privacy Fine-Tuning (BPFT), a novel training pipeline that teaches models to refuse bystander-related queries without degrading main-speaker comprehension. We show that BPFT yields substantial gains, achieving an absolute 47% higher bystander accuracy under selective mode and an absolute 16% higher SE compared to Gemini 2.5 Pro, which is the best audio LLM without BPFT. Together, SH-Bench and BPFT provide the first systematic framework for measuring and improving bystander privacy in audio LLMs.

📖 深度解读

[PDF 下载失败,无法解读]

#26
cs.SD

Affectron: Emotional Speech Synthesis with Affective and Contextually Aligned Nonverbal Vocalizations 解读失败跨领域

Deok-Hyeon Cho, Hyung-Seok Oh, Seung-Bin Kim, Seong-Whan Lee
Sound (cs.SD)
查看摘要
Nonverbal vocalizations (NVs), such as laughter and sighs, are central to the expression of affective cues in emotional speech synthesis. However, learning diverse and contextually aligned NVs remains challenging in open settings due to limited NV data and the lack of explicit supervision. Motivated by this challenge, we propose Affectron as a framework for affective and contextually aligned NV generation. Built on a small-scale open and decoupled corpus, Affectron introduces an NV-augmented training strategy that expands the distribution of NV types and insertion locations. We further incorporate NV structural masking into a speech backbone pre-trained on purely verbal speech to enable diverse and natural NV synthesis. Experimental results demonstrate that Affectron produces more expressive and diverse NVs than baseline systems while preserving the naturalness of the verbal speech stream.

📖 深度解读

[PDF 下载失败,无法解读]

#27
cs.SD

NVBench: A Benchmark for Speech Synthesis with Non-Verbal Vocalizations 解读失败跨领域

Liumeng Xue, Weizhen Bian, Jiahao Pan, Wenxuan Wang, Yilin Ren 等 (12 人)
Sound (cs.SD)
查看摘要
Non-verbal vocalizations (NVVs) like laugh, sigh, and sob are essential for human-like speech, yet standardized evaluation remains limited in jointly assessing whether systems can generate the intended NVVs, place them correctly, and keep them salient without harming speech. We present Non-verbal Vocalization Benchmark (NVBench), a bilingual (English/Chinese) benchmark that evaluates speech synthesis with NVVs. NVBench pairs a unified 45-type taxonomy with a curated bilingual dataset and introduces a multi-axis protocol that separates general speech naturalness and quality from NVV-specific controllability, placement, and salience. We benchmark 15 TTS systems using objective metrics, listening tests, and an LLM-based multi-rater evaluation. Results reveal that NVVs controllability often decouples from quality, while low-SNR oral cues and long-duration affective NVVs remain persistent bottlenecks. NVBench enables fair cross-system comparison across diverse control interfaces under a unified, standardized framework.

📖 深度解读

[LLM 连接失败: http://192.168.12.100:3000/v1/chat/completions]

#28
cs.SD

Real-Time Streamable Generative Speech Restoration with Flow Matching 解读失败跨领域

Simon Welker, Bunlong Lay, Maris Hillemann, Tal Peer, Timo Gerkmann
Signal Processing (eess.SP); Machine Learning (cs.LG); Sound (cs.SD)
查看摘要
Diffusion-based generative models have greatly impacted the speech processing field in recent years, exhibiting high speech naturalness and spawning a new research direction. Their application in real-time communication is, however, still lagging behind due to their computation-heavy nature involving multiple calls of large DNNs. Here, we present Stream$.$FM, a frame-causal flow-based generative model with an algorithmic latency of 32 milliseconds (ms) and a total latency of 48 ms, paving the way for generative speech processing in real-time communication. We propose a buffered streaming inference scheme and an optimized DNN architecture, show how learned few-step numerical solvers can boost output quality at a fixed compute budget, explore model weight compression to find favorable points along a compute/quality tradeoff, and contribute a model variant with 24 ms total latency for the speech enhancement task. Our work looks beyond theoretical latencies, showing that high-quality streaming generative speech processing can be realized on consumer GPUs available today. Stream$.$FM can solve a variety of speech processing tasks in a streaming fashion: speech enhancement, dereverberation, codec post-filtering, bandwidth extension, STFT phase retrieval, and Mel vocoding. As we verify through comprehensive evaluations and a MUSHRA listening test, Stream$.$FM establishes a state-of-the-art for generative streaming speech restoration, exhibits only a reasonable reduction in quality compared to a non-streaming variant, and outperforms our recent work (Diffusion Buffer) on generative streaming speech enhancement while operating at a lower latency.

📖 深度解读

[PDF 下载失败,无法解读]