arXiv 每日论文精读 — eess.AS

#1

eess.AS

Rewriting TTS Inference Economics: Lightning V2 on Tenstorrent Achieves 4x Lower Cost Than NVIDIA L40S

Ranjith M. S., Akshat Mandloi, Sudarshan Kamath

Audio and Speech Processing (eess.AS); Distributed, Parallel, and Cluster Computing (cs.DC); Sound (cs.SD)

📄 Abstract 📥 PDF

查看摘要

Text-to-Speech (TTS) models are significantly more numerically fragile than Large Language Models (LLMs) due to their continuous waveform generation and perceptual sensitivity to small numerical perturbations. While aggressive precision reduction techniques such as BlockFloat8 (BFP8) and low-fidelity (LoFi) compute have been widely adopted in language models, applying similar strategies to TTS systems often results in audible artifacts, phase instability, and spectral distortion. In this work, we present Lightning V2, a production-grade TTS model co-optimized for Tenstorrent hardware. Through precision-aware architectural design and hardware-software co-optimization, we achieve over 95% LoFi computational fidelity and more than 80% BlockFloat8 deployment without measurable degradation in audio quality. Leveraging Tenstorrent's Network-on-Chip (NoC), distributed SRAM, and deterministic execution model, we reduce memory movement and redundant weight fetches, enabling efficient low-precision inference. Compared to an NVIDIA L40S baseline, Lightning V2 achieves approximately 4x lower on-prem accelerator cost at equivalent throughput, while maintaining production audio fidelity. Our results demonstrate that precision co-design, combined with hardware-aware optimization, can fundamentally reshape the economics of real-time speech inference.

📖 深度解读

一句话总结

这篇论文提出了一种名为Lightning V2的文本到语音（TTS）模型，通过在Tenstorrent硬件上的精度感知设计和软硬件协同优化，实现了比NVIDIA L40S低4倍的成本，同时保持了高质量的音频输出。

研究背景与动机

核心问题：如何在不牺牲音频质量的前提下，降低TTS系统的推理成本。
重要性：随着TTS系统在语音助手、无障碍工具、对话代理和实时通信系统中的广泛应用，推理成本成为主要的经济因素，特别是在对延迟敏感和本地部署的情况下。
现有方法不足：现有的高精度计算方法虽然能保证音频质量，但成本高昂。而直接将大型语言模型（LLM）中使用的低精度计算技术（如FP8、BFP8和LoFi）应用于TTS系统时，会导致明显的音频失真和不稳定。

核心方法

提出的方法/模型/框架：Lightning V2，一种基于扩散模型的TTS系统，针对Tenstorrent硬件进行了优化。
关键创新点：

1. 精度感知的TTS优化：超过95%的层可以在低精度计算保真度下运行，同时保持感知音频质量。 2. 高比例的BlockFloat8部署：超过80%的模型层使用BlockFloat8格式，减少了约两倍的模型大小和显著的内存传输量。 3. 软硬件协同设计：利用Tenstorrent的片上网络（NoC）、分布式SRAM和确定性执行模型，减少内存移动和冗余权重获取，实现高效的低精度推理。

核心思路：通过选择性地应用低精度计算和块浮点格式，并结合硬件特性进行优化，从而在保持音频质量的同时大幅降低推理成本。

实验与结果

数据集/基准：实验在NVIDIA L40S GPU、Tenstorrent P100和P150加速器上进行。
基线方法：NVIDIA L40S GPU。
主要实验结果：

- 在相同的并发请求下，Lightning V2在Tenstorrent硬件上的成本比NVIDIA L40S低约4倍。 - 音频质量方面，Tenstorrent的DNSMOS评分略低于NVIDIA（3.872 vs 3.801），但差异很小，且语义一致性（WER）几乎相同。

消融实验：展示了不同层的精度降低对整体性能的影响，验证了精度感知设计的有效性。

优势与局限

主要优势：

1. 显著的成本降低：在保持高质量音频的同时，实现了4倍的成本降低。 2. 高效的内存管理：通过减少内存移动和冗余权重获取，提高了内存效率。 3. 灵活的精度控制：能够根据层的敏感性选择合适的精度格式，避免全局量化带来的负面影响。

局限性：

1. 部分层的精度敏感性：某些层仍然需要高精度计算以避免感知质量下降。 2. 编译器成熟度：当前的程序配置尚未完全优化，存在进一步提升的空间。 3. 硬件限制：尽管Tenstorrent硬件提供了良好的支持，但仍有部分性能受限于软件配置。

关键结论与启发

最重要的takeaway：通过精度感知的软硬件协同设计，可以显著降低TTS系统的推理成本，而不牺牲音频质量。
对后续研究的启发：

- 进一步优化特定层的内核实现，以提高整体性能。 - 探索更多适用于TTS系统的低精度计算技术。 - 将类似的方法扩展到其他连续信号生成任务，如图像合成等。

#2

eess.AS

MALEFA: Multi-grAnularity Learning and Effective False Alarm Suppression for Zero-shot Keyword Spotting

Lo-Ya Li, Tien-Hong Lo, Jeih-Weih Hung, Shih-Chieh Huang, Berlin Chen

Audio and Speech Processing (eess.AS)

📄 Abstract 📥 PDF

查看摘要

User-defined keyword spotting (KWS) without resorting to domain-specific pre-labeled training data is of fundamental importance in building adaptable and personalized voice interfaces. However, such systems are still faced with arduous challenges, including constrained computational resources and limited annotated training data. Existing methods also struggle to distinguish acoustically similar keywords, often leading to a pesky false alarm rate (FAR) in real-world deployments. To mitigate these limitations, we put forward MALEFA, a novel lightweight zero-shot KWS framework that jointly learns utterance- and phoneme-level alignments via cross-attention and a multi-granularity contrastive learning objective. Evaluations on four public benchmark datasets show that MALEFA achieves a high accuracy of 90%, significantly reducing FAR to 0.007% on the AMI dataset. Beyond its strong performance, MALEFA demonstrates high computational efficiency and can readily support real-time deployment on resource-constrained devices.

📖 深度解读

一句话总结

这篇论文提出了一种名为MALEFA的轻量级零样本关键词识别框架，通过多粒度学习和有效的误报抑制技术，显著提高了关键词识别的准确性和计算效率。

研究背景与动机

核心问题：用户自定义的关键词识别（KWS）系统在没有领域特定预标记训练数据的情况下，如何在有限的计算资源和标注数据条件下实现高精度和低误报率。
重要性：构建适应性强且个性化的语音接口对于提升用户体验至关重要。然而，现有的方法在处理声学上相似的关键词时容易产生较高的误报率，这在实际应用中是一个亟待解决的问题。
现有方法不足：当前的方法通常需要大量的标注数据，并且在计算资源受限的情况下表现不佳。此外，它们难以区分声学上相似的关键词，导致误报率较高。

核心方法

提出的方法/模型/框架：MALEFA是一种轻量级的零样本关键词识别框架，它通过跨注意力机制联合学习句子级和音素级对齐，并使用多粒度对比学习目标来提高识别性能。
关键创新点：

1. 多粒度学习：同时考虑句子级和音素级的信息，使得模型能够更好地捕捉关键词的细微特征。 2. 跨注意力机制：通过跨注意力机制，模型能够在不同粒度之间进行信息交互，从而提高识别的准确性。 3. 对比学习目标：引入多粒度对比学习目标，进一步增强模型对关键词的区分能力。

核心思路：MALEFA的核心思路是通过多粒度的学习方式，结合跨注意力机制和对比学习，使模型能够在有限的数据和计算资源下，更准确地识别关键词并减少误报。可以类比为在一张地图上不仅看整体轮廓，还仔细观察每个细节，从而更准确地找到目标位置。

实验与结果

数据集/基准：实验在四个公开基准数据集上进行，包括AMI、LibriSpeech等。
基线方法：对比了多种现有的关键词识别方法，如基于深度神经网络的方法和传统的声学模型。
主要实验结果：

- 在AMI数据集上，MALEFA达到了90%的高准确率。 - 误报率（FAR）显著降低至0.007%。

消融实验：消融实验表明，多粒度学习和跨注意力机制对提高识别准确性和降低误报率起到了关键作用。去除任何一个组件都会导致性能下降。

优势与局限

主要优势：

1. 高准确性和低误报率：MALEFA在多个数据集上表现出色，特别是在误报率方面有显著改进。 2. 计算效率高：该框架设计轻量级，适合在资源受限的设备上实时部署。 3. 无需大量标注数据：零样本学习特性使得MALEFA可以在没有大量预标记数据的情况下工作。

局限性：

1. 依赖高质量的音频输入：如果输入音频质量较差，可能会影响识别效果。 2. 泛化能力有待验证：虽然在多个数据集上表现良好，但其在更多样化场景下的泛化能力仍需进一步验证。 3. 复杂度增加：引入多粒度学习和跨注意力机制可能会增加模型的复杂度，尽管总体上仍然保持轻量级。

关键结论与启发

最重要的takeaway：MALEFA通过多粒度学习和跨注意力机制，显著提高了零样本关键词识别的准确性和计算效率，特别适用于资源受限的设备。
对后续研究的启发：

1. 多模态融合：未来可以探索将视觉或其他模态的信息融入到关键词识别中，进一步提高识别性能。 2. 更广泛的测试：在更多样化的真实场景中测试MALEFA，以验证其泛化能力和鲁棒性。 3. 优化模型复杂度：继续优化模型结构，使其在保持高性能的同时，进一步降低计算复杂度。

#3

eess.AS

AffectSpeech: A Large-Scale Emotional Speech Dataset with Fine-Grained Textual Descriptions for Speech Emotion Captioning and Synthesis

Tianhua Qi, Wenming Zheng, Björn W. Schuller, Zhaojie Luo, Haizhou Li

Audio and Speech Processing (eess.AS); Sound (cs.SD); Signal Processing (eess.SP)

📄 Abstract 📥 PDF

查看摘要

Emotion is essential in spoken communication, yet most existing frameworks in speech emotion modeling rely on predefined categories or low-dimensional continuous attributes, which offer limited expressive capacity. Recent advances in speech emotion captioning and synthesis have shown that textual descriptions provide a more flexible and interpretable alternative for representing affective characteristics in speech. However, progress in this direction is hindered by the lack of an emotional speech dataset aligned with reliable and fine-grained natural language annotations. To tackle this, we introduce AffectSpeech, a large-scale corpus of human-recorded speech enriched with structured descriptions for fine-grained emotion analysis and generation. Each utterance is characterized across six complementary dimensions, including sentiment polarity, open-vocabulary emotion captions, intensity level, prosodic attributes, prominent segments, and semantic content, enabling multi-granular modeling of vocal expression. To balance annotation quality and scalability, we adopt a human-LLM collaborative annotation pipeline that integrates algorithmic pre-labeling, multi-LLM description generation, and human-in-the-loop verification. Furthermore, these annotations are reformulated into diverse descriptive styles to enhance linguistic diversity and reduce stylistic bias in downstream modeling. Experimental results on speech emotion captioning and synthesis demonstrate that models trained on AffectSpeech consistently achieve superior performance across multiple evaluation settings.

📖 深度解读

一句话总结

这篇论文介绍了AffectSpeech，一个大规模的情感语音数据集，通过细粒度的自然语言描述来支持情感语音标注和合成任务，从而克服了传统情感表示方法的局限性。

研究背景与动机

核心问题：现有的情感语音建模框架主要依赖于预定义的类别或低维连续属性，这限制了情感表达的灵活性和解释性。而基于自然语言描述的方法能够更灵活地表示情感特征，但缺乏高质量且细粒度的自然语言注释数据集。
重要性：情感是口语交流中不可或缺的一部分，准确理解和生成情感语音对于提高人机交互的自然性和有效性至关重要。
现有方法不足：现有的情感语音数据集通常只提供粗粒度的标注，无法捕捉情感强度、显著片段等细节。此外，许多数据集依赖于大语言模型生成描述，缺乏系统的人工验证，导致注释可靠性存疑。

核心方法

提出的方法/模型/框架：AffectSpeech，一个大规模的情感语音数据集，包含细粒度的自然语言描述。
关键创新点：

1. 多维度注释：每个语音样本在六个互补维度上进行注释，包括情感极性、开放词汇情感描述、情感强度、韵律属性、显著片段和语义内容。 2. 人机协作注释流程：结合算法预标注、多LLM描述生成和人工验证，确保注释的质量和多样性。 3. 多样化描述风格：将注释转换为六种不同的功能风格，以增强语言多样性和减少风格偏差。

核心思路：通过多维度的细粒度注释和多样化描述风格，AffectSpeech提供了更丰富和灵活的情感语音数据，支持更复杂的语音情感分析和生成任务。

实验与结果

数据集/基准：AffectSpeech包含253,799个真实录制的英语语音样本，覆盖九种基本情感类别，并提供1,522,794条文本描述。
基线方法：比较了多种开源和专有模型，包括GPT-4o Audio、Qwen2-Audio、Qwen2.5-Omni等。
主要实验结果：

- 在情感语音标注任务中，使用AffectSpeech训练的模型在情感分类（73.25%）、情感强度（45.75%）和韵律属性（65.50%）等方面显著优于其他数据集。 - 在情感语音合成任务中，AffectSpeech也表现出色，WER为4.36%，情感相似度为86.40%，情感多样性为19.91×10^-4。

消融实验：展示了不同注释粒度对模型性能的影响，细粒度注释显著提高了模型在情感和韵律方面的表现。

优势与局限

主要优势：

1. 细粒度注释：提供了多维度的细粒度注释，增强了情感表达的复杂性和准确性。 2. 多样化描述风格：通过多样化描述风格，减少了模型对特定模板的过拟合，增强了泛化能力。 3. 高质量注释：结合人机协作注释流程，确保了注释的可靠性和多样性。

局限性：

1. 计算成本：大规模细粒度注释和多样化描述风格的生成需要较高的计算资源。 2. 数据规模：尽管AffectSpeech已经是一个大规模数据集，但在某些特定情感类别上的样本量可能仍然有限。 3. 文化差异：目前的数据集主要针对英语语音，未来需要扩展到多语言环境。

关键结论与启发

最重要的takeaway：AffectSpeech通过细粒度的自然语言描述和多样化描述风格，显著提升了情感语音标注和合成任务的性能，为更复杂的情感语音建模提供了有力支持。
后续研究启发：

1. 多语言扩展：将AffectSpeech扩展到更多语言，以支持跨语言的情感语音研究。 2. 更细粒度注释：进一步细化注释维度，例如增加情感动态变化的注释，以支持更复杂的语音情感分析。 3. 实际应用：探索AffectSpeech在实际应用场景中的潜力，如情感感知的人机交互系统和情感语音合成应用。

#4

eess.AS

Full-Duplex-Bench-v3: Benchmarking Tool Use for Full-Duplex Voice Agents Under Real-World Disfluency

Guan-Ting Lin, Chen Chen, Zhehuai Chen, Hung-yi Lee

Audio and Speech Processing (eess.AS); Computation and Language (cs.CL)

📄 Abstract 📥 PDF

查看摘要

We introduce Full-Duplex-Bench-v3 (FDB-v3), a benchmark for evaluating spoken language models under naturalistic speech conditions and multi-step tool use. Unlike prior work, our dataset consists entirely of real human audio annotated for five disfluency categories, paired with scenarios requiring chained API calls across four task domains. We evaluate six model configurations -- GPT-Realtime, Gemini Live 2.5, Gemini Live 3.1, Grok, Ultravox v0.7, and a traditional Cascaded pipeline (Whisper$\rightarrow$GPT-4o$\rightarrow$TTS) -- across accuracy, latency, and turn-taking dimensions. GPT-Realtime leads on Pass@1 (0.600) and interruption avoidance (13.5\%); Gemini Live 3.1 achieves the fastest latency (4.25~s) but the lowest turn-take rate (78.0\%); and the Cascaded baseline, despite a perfect turn-take rate, incurs the highest latency (10.12~s). Across all systems, self-correction handling and multi-step reasoning under hard scenarios remain the most consistent failure modes.

📖 深度解读

一句话总结

这篇论文介绍了Full-Duplex-Bench-v3（FDB-v3），一个用于评估在自然语音条件下和多步骤工具使用场景下的全双工语音代理的基准测试工具，通过对比六种模型配置在准确性、延迟和对话轮次方面的表现，揭示了当前语音代理系统在处理真实世界中的不流畅语音时面临的挑战。

研究背景与动机

核心问题：现有的语音代理系统在处理真实世界的不流畅语音（如填充词、自我纠正等）和多步骤工具调用时表现不佳。
重要性：语音代理在实际应用中需要能够执行复杂的多步骤任务，例如预订航班、更新账户设置或追踪包裹。这些功能不仅提高了用户体验，还增加了系统的实用价值。
现有方法不足：

- 大多数现有的语音对话系统仅限于简单的聊天，无法调用外部API或执行用户指令。 - 早期的级联方法（如AudioGPT和Speech-Copilot）虽然展示了LLM驱动的工具使用能力，但其多阶段管道设计不适合实时对话。 - 最近的一些研究（如StreamRAG和SHANKS）虽然针对对话场景进行了优化，但它们依赖于合成数据，并且模型不可公开访问，因此其在真实世界中的表现未得到验证。

核心方法

提出的方法/模型/框架：Full-Duplex-Bench-v3（FDB-v3），一个用于评估全双工语音代理在自然语音条件和多步骤工具使用场景下的性能的基准测试工具。
关键创新点：

1. 使用真实的、带有系统标注的不流畅语音数据集。 2. 包含自我纠正和状态回滚场景，测试模型能否识别并正确更新意图。 3. 跨四个任务领域（旅行与身份、金融与账单、住房与位置、电子商务支持）进行多步骤函数链调用。

核心思路：FDB-v3通过提供包含真实人类录音的数据集，以及系统标注的五类不流畅语音（填充词、停顿、犹豫、错误开始和自我纠正），来全面评估语音代理在工具使用、对话轮次和延迟方面的表现。该基准测试工具旨在模拟真实世界的对话环境，从而更准确地评估模型的实际性能。

实验与结果

数据集/基准：FDB-v3数据集包含100个来自12位说话者的录音，涵盖了四种任务领域，每个领域都有多个可调用的工具函数。
基线方法：GPT-Realtime、Gemini Live 2.5、Gemini Live 3.1、Grok、Ultravox v0.7 和传统的级联管道（Whisper→GPT-4o→TTS）。
主要实验结果：

- GPT-Realtime 在Pass@1（0.600）和中断避免（13.5%）方面表现最佳。 - Gemini Live 3.1 具有最快的延迟（4.25秒），但最低的对话轮次率（78.0%）。 - 级联基线尽管具有完美的对话轮次率，但延迟最高（10.12秒）。

消融实验：所有系统在处理自我纠正和复杂场景下的多步骤推理方面仍然存在一致的失败模式。

优势与局限

主要优势：

1. 提供了一个开放、可重复的基准测试工具，结合了真实的人类语音和多步骤工具使用。 2. 详细标注了五类不流畅语音，有助于深入分析模型的鲁棒性。 3. 涵盖了多种任务领域，能够全面评估模型在不同场景下的表现。

局限性：

1. 所有基于云的模型评估都是从单一固定服务器区域执行的，可能存在网络延迟和服务器负载的影响。 2. 本地模拟API虽然隔离了模型推理过程，但没有测试模型对真实世界网络异常（如API超时、访问拒绝或格式错误的响应）的鲁棒性。 3. 自我纠正处理仍然是所有模型面临的最大挑战，即使是表现最好的GPT-Realtime也只成功处理了不到59%的此类场景。

关键结论与启发

最重要的takeaway：处理真实世界中的不流畅语音和多步骤工具调用是当前语音代理系统面临的主要挑战。优化延迟的同时，还需要平衡对话流程和可靠的推理能力。
对后续研究的启发：

1. 未来的研究应关注如何在保持快速响应的同时，提高模型对用户意图变化的灵活性。 2. 需要进一步探索如何在实时对话中实现有效的状态回滚机制，以应对用户的中途纠正。 3. 开发更加鲁棒的语音代理系统，能够在复杂和不断变化的真实对话环境中表现出色。

#5

eess.AS

FastTurn: Unifying Acoustic and Streaming Semantic Cues for Low-Latency and Robust Turn Detection 跨领域

Chengyou Wang, Hongfei Xue, Chunjiang He, Jingbin Hu, Shuiyuan Wang 等 (11 人)

Sound (cs.SD); Audio and Speech Processing (eess.AS)

📄 Abstract 📥 PDF

查看摘要

Recent advances in AudioLLMs have enabled spoken dialogue systems to move beyond turn-based interaction toward real-time full-duplex communication, where the agent must decide when to speak, yield, or interrupt while the user is still talking. Existing full-duplex approaches either rely on voice activity cues, which lack semantic understanding, or on ASR-based modules, which introduce latency and degrade under overlapping speech and noise. Moreover, available datasets rarely capture realistic interaction dynamics, limiting evaluation and deployment. To mitigate the problem, we propose \textbf{FastTurn}, a unified framework for low-latency and robust turn detection. To advance latency while maintaining performance, FastTurn combines streaming CTC decoding with acoustic features, enabling early decisions from partial observations while preserving semantic cues. We also release a test set based on real human dialogue, capturing authentic turn transitions, overlapping speech, backchannels, pauses, pitch variation, and environmental noise. Experiments show FastTurn achieves higher decision accuracy with lower interruption latency than representative baselines and remains robust under challenging acoustic conditions, demonstrating its effectiveness for practical full-duplex dialogue systems.

📖 深度解读

一句话总结

这篇论文提出了一种名为FastTurn的框架，通过结合声学特征和流式CTC解码来实现低延迟且鲁棒的对话轮次检测，从而提高全双工对话系统的性能。

研究背景与动机

核心问题：现有的全双工对话系统在决定何时发言、让步或打断时，依赖于语音活动检测（VAD）或基于自动语音识别（ASR）的方法。这些方法要么缺乏语义理解能力，要么引入了延迟，并且在噪声和重叠语音条件下表现不佳。
重要性：全双工对话系统需要实时处理用户的语音输入并做出响应，这对系统的延迟和准确性提出了很高的要求。解决这一问题可以显著提升用户体验，特别是在复杂的对话场景中。
现有方法不足：

- VAD方法虽然快速但主要捕捉语音存在而非交流意图，容易受到背景噪声和犹豫等干扰。 - 基于ASR的方法虽然能提供更丰富的语义信息，但引入了额外的延迟，并且在噪声环境下表现较差。

核心方法

方法/模型/框架：FastTurn框架结合了流式CTC解码和声学特征，以实现低延迟和高鲁棒性的轮次检测。
关键创新点：

1. 流式CTC解码：通过快速对齐和贪婪解码，减少生成转录本的延迟。 2. 声学特征集成：将声学特征与语言模型（LLM）相结合，减少对转录本质量的依赖，提高鲁棒性。 3. 多模态融合：在最终决策前融合语义和声学线索，进一步提高轮次预测的准确性。

核心思路：FastTurn通过流式CTC解码快速生成部分转录本，并将其与声学特征一起输入到语言模型中进行推理。这样既保留了早期文本条件的优势，又利用了声学信息来增强鲁棒性。最后，通过多层感知机（MLP）进行最终的轮次检测决策。

实验与结果

数据集/基准：使用了AISHELL-1, AISHELL-2, WenetSpeech, LibriSpeech, GigaSpeech, MLS等大规模开源语料库，以及内部数据集。此外，还发布了专门用于评估真实对话轮次转换的FastTurn测试集。
基线方法：对比了Paraformer+Ten Turn, Smart Turn, Easy Turn等代表性基线方法。
主要实验结果：

- FastTurn-Unified在所有类别上都取得了最佳性能，特别是在完整和不完整的轮次检测中，准确率分别达到了81.64%和81.01%。 - 在延迟方面，FastTurn-Unified相比Easy Turn和FastTurn-Cascaded实现了更低的延迟，同时保持了相似或更好的准确性。

消融实验：FastTurn-Semantic通过减少对转录本质量的依赖和引入声学特征，提高了轮次检测性能。FastTurn-Unified进一步展示了结合语义和声学线索的有效性。

优势与局限

主要优势：

1. 低延迟：通过流式CTC解码和声学特征集成，显著降低了决策延迟。 2. 高鲁棒性：在噪声和重叠语音条件下表现出色，提高了系统的实用性。 3. 多模态融合：结合语义和声学线索，提高了轮次检测的准确性。

局限性：

1. 训练复杂度：多阶段训练过程较为复杂，需要大量的计算资源。 2. 数据依赖：尽管发布了新的测试集，但高质量的标注数据仍然有限，可能影响模型的泛化能力。 3. 优化空间：在某些特定场景下（如英语对话），性能仍有提升空间。

关键结论与启发

最重要takeaway：FastTurn框架通过结合流式CTC解码和声学特征，实现了低延迟且鲁棒的轮次检测，适用于实际的全双工对话系统。
后续研究启发：

- 进一步优化模型结构和训练策略，以降低计算成本和提高性能。 - 扩展应用范围，探索更多动态对话场景下的轮次检测。 - 收集更多高质量的标注数据，以提高模型的泛化能力和鲁棒性。

#6

eess.AS

DHFP-PE: Dual-Precision Hybrid Floating Point Processing Element for AI Acceleration 跨领域

Shubham Kumar, Vijay Pratap Sharma, Vaibhav Neema, Santosh Kumar Vishvakarma

Hardware Architecture (cs.AR); Robotics (cs.RO); Audio and Speech Processing (eess.AS); Image and Video Processing (eess.IV)

📄 Abstract 📥 PDF

查看摘要

The rapid adoption of low-precision arithmetic in artificial intelligence and edge computing has created a strong demand for energy-efficient and flexible floating-point multiply-accumulate (MAC) units. This paper presents a fully pipelined dual-precision floating-point MAC processing engine supporting FP8 formats (E4M3, E5M2) and FP4 formats (E2M1, E1M2), specifically optimized for low-power and high-throughput AI workloads. The proposed architecture employs a novel bit-partitioning technique that enables a single 4-bit unit multiplier to operate either as a standard 4x4 multiplier for FP8 or as two parallel 2x2 multipliers for 2-bit operands, achieving 100 percent hardware utilization without duplicating logic. Implemented in 28 nm technology, the proposed processing engine achieves an operating frequency of 1.94 GHz with an area of 0.00396 mm^2 and power consumption of 2.13 mW, resulting in up to 60.4 percent area reduction and 86.6 percent power savings compared to state-of-the-art designs.

📖 深度解读

一句话总结

这篇论文提出了一种支持FP8和FP4格式的双精度浮点乘累加（MAC）处理单元，通过创新的位分割技术实现了高效能、低功耗的人工智能加速。

研究背景与动机

核心问题：现有的MAC或处理单元（PE）架构主要针对中高精度数据（≥8位），无法有效利用FP8和FP4等低精度格式的细粒度数据特性。此外，新兴AI工作负载需要支持多种FP8和FP4格式，并且能够动态调整精度。
重要性：随着人工智能和边缘计算的发展，对低功耗、高吞吐量的硬件加速器的需求日益增长。低精度格式如FP8和FP4在推理和边缘AI应用中具有显著的优势，包括减少内存需求和提高计算效率。
现有方法不足：现有的多精度浮点处理单元通常需要额外的硬件来支持不同精度的运算，导致面积和功耗增加。此外，这些设计往往不能灵活地在不同精度之间切换，限制了其在实际应用中的灵活性。

核心方法

提出的方法/模型/框架：本文提出了一种完全流水线化的双精度浮点MAC处理引擎，支持FP8 (E4M3, E5M2) 和 FP4 (E2M1, E1M2) 格式，特别优化了低功耗和高吞吐量的AI工作负载。
关键创新点：

1. 位分割技术：通过一种新颖的位分割技术，使得单个4位单元乘法器可以作为标准的4×4乘法器用于FP8，或者作为两个并行的2×2乘法器用于2位操作数，实现100%的硬件利用率而无需重复逻辑。 2. 可配置的4位单元乘法器：该乘法器可以根据不同的精度要求进行配置，支持FP8和FP4格式之间的无缝切换。 3. 高效的流水线结构：采用6级流水线结构，每个阶段都经过精心设计，以确保在不同精度模式下都能高效运行。

核心思路：通过位分割技术，将一个4位乘法器拆分为两个2位乘法器，从而在不增加硬件复杂度的情况下支持多种低精度格式。这种设计不仅减少了硬件资源的使用，还提高了计算效率和灵活性。

实验与结果

数据集/基准：实验在28nm工艺下进行，评估了处理单元的性能。
基线方法：对比了多个现有的多精度浮点处理单元设计，包括文献[1]、[3]、[5]等。
主要实验结果：

- 面积：0.00396 mm²，相比现有设计减少了60.4%。 - 功耗：2.13 mW，相比现有设计减少了86.6%。 - 操作频率：1.94 GHz，比现有设计提高了31.8%。

消融实验：通过对各个流水线阶段的详细分析，展示了每个阶段的面积、功耗和延迟。结果显示，S1阶段（乘法器和比较器）占用了最大的面积和功耗，但整体流水线延迟仅为0.5158 ns，表明各阶段平衡良好。

优势与局限

主要优势：

1. 高硬件利用率：通过位分割技术，实现了100%的硬件利用率，避免了冗余逻辑。 2. 低功耗和小面积：相比现有设计，显著降低了功耗和面积，适合低功耗和资源受限的应用。 3. 灵活性：支持多种低精度格式，并能在不同精度之间无缝切换，适应不同的计算需求。

局限性：

1. 精度范围有限：目前仅支持FP8和FP4格式，对于更高精度的需求可能需要进一步扩展。 2. 应用场景限制：虽然适用于低功耗和高吞吐量的AI工作负载，但在某些高性能计算场景中可能不够灵活。 3. FPGA实现：实验结果主要基于FPGA实现，实际ASIC实现的效果可能有所不同。

关键结论与启发

最重要的takeaway：通过位分割技术和可配置的4位单元乘法器，本文提出的双精度浮点MAC处理单元在低功耗和高吞吐量方面表现出色，为低精度AI加速提供了有效的解决方案。
对后续研究的启发：

1. 扩展精度范围：未来可以考虑扩展支持更多精度格式，以满足更广泛的应用需求。 2. ASIC实现：进一步研究在ASIC上的实现效果，以验证其在实际硬件中的性能。 3. 混合精度训练：探索在混合精度训练中的应用，结合高精度和低精度的优势，进一步提高计算效率和模型准确性。

#7

eess.AS

Joint Fullband-Subband Modeling for High-Resolution SingFake Detection 跨领域

Xuanjun Chen, Chia-Yu Hu, Sung-Feng Huang, Haibin Wu, Hung-yi Lee 等 (6 人)

Sound (cs.SD); Audio and Speech Processing (eess.AS); Signal Processing (eess.SP)

📄 Abstract 📥 PDF

查看摘要

Rapid advances in singing voice synthesis have increased unauthorized imitation risks, creating an urgent need for better Singing Voice Deepfake (SingFake) Detection, also known as SVDD. Unlike speech, singing contains complex pitch, wide dynamic range, and timbral variations. Conventional 16 kHz-sampled detectors prove inadequate, as they discard vital high-frequency information. This study presents the first systematic analysis of high-resolution (44.1 kHz sampling rate) audio for SVDD. We propose a joint fullband-subband modeling framework: the fullband captures global context, while subband-specific experts isolate fine-grained synthesis artifacts unevenly distributed across the spectrum. Experiments on the WildSVDD dataset demonstrate that high-frequency subbands provide essential complementary cues. Our framework significantly outperforms 16 kHz-sampled models, proving that high-resolution audio and strategic subband integration are critical for robust in-the-wild detection.

📖 深度解读

一句话总结

这篇论文提出了一种联合全频带-子频带建模框架（Sing-HiResNet），利用高分辨率音频（44.1 kHz采样率）来提高唱歌声音深度伪造检测的准确性。

研究背景与动机

核心问题：现有的唱歌声音深度伪造检测方法大多基于16 kHz采样的音频，这会丢失重要的高频信息，导致检测效果不佳。
重要性：随着唱歌合成技术的进步，未经授权的模仿风险增加，迫切需要更有效的唱歌声音深度伪造检测方法。
现有方法不足：现有的方法主要依赖于语音领域的成熟技术，但唱歌声音具有复杂的音调、宽动态范围和音色变化，这些特性在高频段尤为重要。16 kHz采样的系统无法捕捉这些细微的频谱“指纹”。

核心方法

提出的方法/模型/框架：Sing-HiResNet，一种联合全频带-子频带建模框架。
关键创新点：

1. 利用44.1 kHz采样的高分辨率音频，保留了扩展谐波和呼吸纹理等重要信息。 2. 结合全频带模型和多个子频带专家模型，分别捕捉全局上下文和局部频谱特征。 3. 提出了四种融合策略：决策级聚合、特征级拼接、跨专家交互和跨专家蒸馏。

核心思路：通过全频带模型捕捉整体频谱模式，同时通过子频带专家模型捕捉特定频率范围内的细微合成伪影。通过不同的融合策略，将全局上下文和局部细节结合起来，以实现更鲁棒的检测性能。

实验与结果

数据集/基准：WildSVDD数据集，包含真实和AI合成的唱歌声音。
基线方法：包括Wav2vec、Raw、PDL Ensemble、NTU SingGraph、IMS-SCU WavLM、IMS-SCU Ensemble和UNIBS ResNet18。
主要实验结果：

- 在Test A上，Sing-HiResNet FBFSA-D-LM达到了1.58%的EER，比重新实现的UNIBS降低了31.6%。 - 在Test B上，Sing-HiResNet FBI-LM达到了7.45%的EER，比重新实现的UNIBS降低了30.9%。

消融实验：通过比较不同子频带配置和融合策略，发现决策级聚合和跨专家蒸馏是最有效的融合方法。特别是，低频和中高频子频带（SB L 和 SB M）对性能提升贡献最大。

优势与局限

优势：

1. 利用高分辨率音频保留了重要的高频信息，提高了检测精度。 2. 联合全频带-子频带建模能够同时捕捉全局上下文和局部细节。 3. 多种融合策略提供了灵活的选择，可以根据具体需求进行优化。

局限性：

1. 高分辨率音频处理增加了计算复杂度和存储需求。 2. 子频带划分和融合策略的选择需要进一步优化，以适应不同的应用场景。 3. 对于某些极端情况下的高频噪声，模型可能仍存在误判。

关键结论与启发

最重要的takeaway：高分辨率音频和联合全频带-子频带建模是提高唱歌声音深度伪造检测性能的关键。
后续研究启发：

- 进一步探索不同子频带划分和融合策略的组合，以找到最优配置。 - 将该方法扩展到其他类型的音频伪造检测任务，如语音或音乐。 - 探索更高效的模型压缩和加速技术，以降低计算成本。

#8

eess.AS

SenSE: Semantic-Aware High-Fidelity Universal Speech Enhancement 跨领域

Xingchen Li, Hanke Xie, Ziqian Wang, Zihan Zhang, Longshuai Xiao 等 (7 人)

Audio and Speech Processing (eess.AS)

📄 Abstract 📥 PDF

查看摘要

Generative Universal Speech Enhancement (USE) methods aim to leverage generative models to improve speech quality under various types of distortions. However, existing generative speech enhancement methods often suffer from semantic inconsistency in the generated outputs. Therefore, we propose SenSE, a novel two-stage generative universal speech enhancement framework, by modeling semantic priors with a language model, the flow matching-based speech enhancement process is guided to generate semantically faithful speech, thereby effectively improving context fidelity. In addition, we introduce a dual-path masked conditioning training strategy that enables flow matching-based enhancement to flexibly integrate multi-source conditioning signals from degraded speech, semantic tokens, and reference speech, thereby improving model flexibility and adaptability. Experimental results demonstrate that SenSE achieves state-of-the-art performance among generative speech enhancement models and exhibits a high performance ceiling, particularly under challenging distortion conditions. Codes and demos are available at this https URL .

📖 深度解读

一句话总结

这篇论文提出了一种名为SenSE的两阶段语音增强框架，通过引入语义先验和双路径掩码条件训练策略，有效提高了生成语音的语义一致性和保真度。

研究背景与动机

核心问题：现有的生成式通用语音增强方法在处理严重失真的语音时，常常出现语义不一致的问题，导致生成的语音质量不高。
重要性：高质量的语音增强对于提高语音通信的可懂度和感知质量至关重要，特别是在噪声、混响等恶劣声学条件下。
现有方法不足：传统的判别模型在严重失真条件下容易引入额外的失真和伪影；而生成式方法虽然能产生更自然的语音，但难以保证内容的保真度，经常出现语义幻觉。

核心方法

方法/模型/框架：SenSE是一种两阶段的生成式语音增强框架。第一阶段使用语言模型从降质语音中提取纯净的语义标记，第二阶段利用这些语义标记指导基于流匹配的语音增强过程。
关键创新点：

1. 语义先验建模：通过语言模型显式地建模语义信息，从而提高生成语音的语义一致性。 2. 双路径掩码条件训练策略：允许模型灵活地整合来自降质语音、语义标记和参考语音的多源条件信号，提高模型的灵活性和适应性。

核心思路：通过引入语义先验和双路径掩码条件训练策略，SenSE能够在生成过程中更好地保留原始语音的结构和语义信息，从而提高语音增强的质量和保真度。

实验与结果

数据集/基准：使用了Emilia数据集进行训练，并在DNS Challenge no-reverb、DNS Challenge HardSet、DNS Challenge GSR和VCTK GSR等多个测试集上进行了评估。
基线方法：对比了VoiceFixer、TF-GridNet、PGUSE、GenSE、LLaSE-G1、FlowSE和AnyEnhance等最先进的语音增强系统。
主要实验结果：

- 在语音质量指标（DNSMOS和NISQA）上，SenSEbase的表现与其它生成式方法相当，仅在少数情况下略逊于AnyEnhance，但在语义相似性指标（Speech-BERTScore和dWER）上明显优于所有基线模型。 - 在说话人相似性（SIM-o）方面，SenSEbase超越了所有生成式基线，并且与判别式方法相比具有高度竞争力。 - 即使模型规模大幅减小，SenSEtiny在大多数指标上仍显著优于其他生成式方法。

消融实验：移除降质掩码或语义引导机制后，模型性能下降，表明这两种机制对提高语音增强效果的重要性。

优势与局限

优势：

1. 语义一致性：通过引入语义先验，有效解决了生成语音中的语义不一致问题。 2. 灵活性：双路径掩码条件训练策略使得模型能够灵活地利用多种条件信号，提高适应性。 3. 高效性：即使在计算资源有限的情况下，SenSEtiny仍能表现出色。

局限性：

1. 计算复杂度：尽管SenSEtiny在低计算预算下表现良好，但大规模模型（如SenSEbase）的计算开销仍然较高。 2. 依赖高质量参考语音：在某些情况下，模型性能的提升依赖于高质量的参考语音，这在实际应用中可能不易获得。 3. 训练复杂度：两阶段训练过程较为复杂，需要更多的训练时间和资源。

关键结论与启发

最重要takeaway：通过引入语义先验和双路径掩码条件训练策略，SenSE能够有效提高生成语音的语义一致性和保真度，尤其在严重失真条件下表现出色。
后续研究启发：

- 进一步优化语义先验建模，探索更多有效的语义表示方法。 - 探索更高效的训练策略，减少计算开销，提高模型的实用性和可扩展性。 - 结合更多的上下文信息，进一步提高生成语音的自然度和可懂度。

#9

eess.AS

Noise-Robust Contrastive Learning with an MFCC-Conformer For Coronary Artery Disease Detection 跨领域

Milan Marocchi, Matthew Fynn, Yue Rong

Audio and Speech Processing (eess.AS); Sound (cs.SD)

📄 Abstract 📥 PDF

查看摘要

Cardiovascular diseases (CVD) are the leading cause of death worldwide, with coronary artery disease (CAD) comprising the largest subcategory of CVDs. Recently, there has been increased focus on detecting CAD using phonocardiogram (PCG) signals, with high success in clinical environments with low noise and optimal sensor placement. Multichannel techniques have been found to be more robust to noise; however, achieving robust performance on real-world data remains a challenge. This work utilises a novel multichannel energy-based noisy-segment rejection algorithm, using heart and noise-reference microphones, to discard audio segments with large amounts of nonstationary noise before training a deep learning classifier. This conformer-based classifier takes mel-frequency cepstral coefficients (MFCCs) from multiple channels, further helping improve the model's noise robustness. The proposed method achieved 78.4% accuracy and 78.2% balanced accuracy on 297 subjects, representing improvements of 4.1% and 4.3%, respectively, compared to training without noisy-segment rejection.

📖 深度解读

一句话总结

这篇论文提出了一种基于多通道MFCC-Conformer模型和噪声段拒绝算法的冠状动脉疾病检测方法，通过对比实验展示了其在真实世界嘈杂环境中的鲁棒性和准确性。

研究背景与动机

核心问题：冠状动脉疾病（CAD）是心血管疾病的主要类型之一，需要准确且及时的诊断。现有的心音图（PCG）信号分析方法在临床环境中表现良好，但在真实世界的嘈杂环境中仍面临挑战。
重要性：CAD是全球死亡的主要原因之一，准确的预筛查工具可以显著提高患者的生存率和生活质量。
现有方法不足：现有的PCG信号分析方法在低噪声和理想传感器位置下表现良好，但在实际医院环境中，由于背景噪声和不理想的传感器位置，这些方法的性能会大幅下降。

核心方法

提出的方法/模型/框架：本文提出了一种结合多通道能量基噪声段拒绝算法和MFCC-Conformer分类器的方法，用于在嘈杂环境中进行CAD检测。
关键创新点：

1. 多通道噪声感知信号处理方法，利用心脏麦克风和噪声参考麦克风的能量线索联合拒绝噪声段。 2. 集成MFCC-Conformer管道，并采用监督混合对比学习，以提高在真实世界嘈杂环境中的CAD检测性能。

核心思路：首先，通过多通道能量基噪声段拒绝算法识别并去除包含大量非平稳噪声的音频段。然后，使用MFCC特征提取和Conformer模型进行分类。这种方法通过减少噪声干扰，提高了模型的鲁棒性和准确性。

实验与结果

数据集/基准：使用了从Fortis Hospital, Kolkata收集的297名男性受试者的数据，其中155名被诊断为CAD，142名为正常人。
基线方法：对比了未使用噪声段拒绝的MFCC-Conformer模型和Wav2Vec 2.0模型。
主要实验结果：

- 提出的方法在受试者级别上达到了78.4%的准确率和78.2%的平衡准确率，分别比未使用噪声段拒绝的方法提高了4.1%和4.3%。 - 在片段级别上，提出的Denoised MFCC Conformer模型也优于其他基线方法。

消融实验：消融实验表明，噪声段拒绝算法对提高模型性能至关重要，特别是在TPR和TNR之间的平衡方面。

优势与局限

优势：

1. 通过多通道噪声段拒绝算法有效减少了非平稳噪声的影响，提高了模型的鲁棒性。 2. 使用MFCC-Conformer模型和监督混合对比学习，进一步增强了模型的分类性能。 3. 模型在真实世界嘈杂环境中表现出色，具有较高的准确率和平衡准确率。

局限性：

1. 数据集仅包含男性受试者，可能无法完全代表所有人群。 2. 噪声段拒绝算法依赖于特定的噪声源，可能在不同类型的噪声环境下表现不佳。 3. 模型训练和推理过程较为复杂，需要较多的计算资源。

关键结论与启发

最重要的takeaway：通过结合多通道噪声段拒绝算法和MFCC-Conformer模型，可以在真实世界嘈杂环境中实现更鲁棒和平衡的CAD检测。
对后续研究的启发：

1. 可以进一步探索不同类型的噪声源对模型性能的影响，并优化噪声段拒绝算法。 2. 扩展数据集，包括更多样化的受试者群体，以验证模型的泛化能力。 3. 探索更多的特征提取方法和模型架构，以进一步提高CAD检测的准确性和鲁棒性。

#10

eess.AS

Validating Computational Markers of Depressive Behavior: Cross-Linguistic Speech-Based Depression Detection with Neurophysiological Validation 跨领域

Fuxiang Tao, Dongwei Li, Shuning Tang, Xuri Ge, Wei Ma 等 (7 人)

Audio and Speech Processing (eess.AS)

📄 Abstract 📥 PDF

查看摘要

Speech-based depression detection has shown promise as an objective diagnostic tool, yet the cross-linguistic robustness of acoustic markers and their neurobiological underpinnings remain underexplored. This study extends Cross-Data Multilevel Attention (CDMA) framework, initially validated on Italian, to investigate these dimensions using a Chinese Mandarin dataset with Electroencephalography (EEG) recordings. We systematically fuse read speech with spontaneous speech across different emotional valences (positive, neutral, negative) to investigate whether emotional arousal is a more critical factor than valence polarity in enhancing detection performance in speech. Additionally, we establish the first neurophysiological validation for a speech-based depression model by correlating its predictions with neural oscillatory patterns during emotional face processing. Our results demonstrate strong cross-linguistic generalizability of the CDMA framework, achieving state-of-the-art performance (F1-score up to 89.6%) on the Chinese dataset, which is comparable to the previous Italian validation. Critically, emotionally valenced speech (both positive and negative) significantly outperformed neutral speech. This comparable performance between positive and negative tasks supports the emotional arousal hypothesis. Most importantly, EEG analysis revealed significant correlations between the model's speech-derived depression estimates and neural oscillatory patterns (theta and alpha bands), demonstrating alignment with established neural markers of emotional dysregulation in depression. This alignment, combined with the model's cross-linguistic robustness, not only supports that the CDMA framework's approach is a universally applicable and neurobiologically validated strategy but also establishes a novel paradigm for the neurophysiological validation of computational mental health models.

📖 深度解读

一句话总结

这篇论文通过扩展Cross-Data Multilevel Attention (CDMA) 框架，利用中文普通话数据集和脑电图（EEG）记录，验证了基于语音的抑郁检测方法在跨语言环境中的鲁棒性，并首次提供了神经生理学验证。

研究背景与动机

核心问题：传统的抑郁症诊断依赖于患者的自我报告和临床观察，但这种方法存在主观性和不准确性。基于语音的抑郁症检测方法虽然有潜力，但在跨语言鲁棒性和神经生物学基础方面仍需进一步研究。
重要性：开发客观、可量化的生物标志物对于提高抑郁症早期筛查和个性化治疗至关重要。
现有方法不足：

- 自发语音处理过于简化，忽略了不同情感状态的影响。 - 跨语言鲁棒性不足，特别是在不同语言系统（如汉语和英语）之间的迁移效果不佳。 - 缺乏对模型的神经生物学解释，导致临床可信度存疑。

核心方法

提出的方法/模型/框架：扩展了Cross-Data Multilevel Attention (CDMA) 框架，应用于中文普通话数据集，并结合EEG记录进行神经生理学验证。
关键创新点：

1. 验证了情感唤醒（而非情感效价）是抑郁症检测的关键因素。 2. 展示了CDMA框架在跨语言环境中的鲁棒性。 3. 提供了基于EEG的神经生理学验证，证明模型预测与已知的抑郁症神经标记一致。

核心思路：

- 通过融合朗读语音和自发语音，特别是不同情感效价（正向、中性、负向）的语音，来增强抑郁症检测性能。 - 使用多层注意力机制分别处理朗读语音和自发语音，提取局部和全局特征。 - 通过EEG分析，验证模型预测与大脑振荡模式（如theta和alpha频段）的相关性。

实验与结果

数据集/基准：使用了MODMA中文普通话数据集，并结合EEG记录。
基线方法：比较了多种基线方法，包括经典的机器学习算法（如决策树）和深度学习架构（如RNN、CNN等）。
主要实验结果：

- CDMA框架在中文普通话数据集上达到了最先进的性能，F1分数高达89.6%。 - 情感唤醒（正向和负向）显著优于中性情感，支持情感唤醒假设。 - EEG分析显示，模型预测的抑郁症概率与theta和alpha频段的振荡模式显著相关。

消融实验：展示了每个组件的重要性，特别是情感唤醒在提升检测性能方面的关键作用。

优势与局限

主要优势：

1. 跨语言鲁棒性，适用于不同语言系统的抑郁症检测。 2. 提供了神经生理学验证，增强了模型的临床可信度。 3. 高召回率（95.7%），减少了假阴性，适合抑郁症筛查。

局限性：

1. 数据集规模相对较小，需要在更大规模的数据集上进行验证。 2. 相关性分析不能确定因果关系，未来需要纵向研究来探究潜在的因果路径。 3. 缺乏其他生理信号（如心率、皮肤电导）的整合，可能限制了模型的全面性。

关键结论与启发

最重要的takeaway：情感唤醒（而非情感效价）是抑郁症检测的关键因素，CDMA框架在跨语言环境中具有鲁棒性，并且得到了神经生理学验证。
后续研究启发：

1. 进一步探索跨语言抑郁症检测的通用原则，为迁移学习提供理论基础。 2. 结合更多生理信号，如心率和皮肤电导，以丰富模型对患者心理状态的理解。 3. 开展纵向研究，探究潜在的因果关系，提高模型的解释力和临床应用价值。

#11

eess.AS

PhiNet: Speaker Verification with Phonetic Interpretability 跨领域

Yi Ma, Shuai Wang, Tianchi Liu, Haizhou Li

Audio and Speech Processing (eess.AS); Sound (cs.SD)

📄 Abstract 📥 PDF

查看摘要

Despite remarkable progress, automatic speaker verification (ASV) systems typically lack the transparency required for high-accountability applications. Motivated by how human experts perform forensic speaker comparison (FSC), we propose a speaker verification network with phonetic interpretability, PhiNet, designed to enhance both local and global interpretability by leveraging phonetic evidence in decision-making. For users, PhiNet provides detailed phonetic-level comparisons that enable manual inspection of speaker-specific features and facilitate a more critical evaluation of verification outcomes. For developers, it offers explicit reasoning behind verification decisions, simplifying error tracing and informing hyperparameter selection. In our experiments, we demonstrate PhiNet's interpretability with practical examples, including its application in analyzing the impact of different hyperparameters. We conduct both qualitative and quantitative evaluations of the proposed interpretability methods and assess speaker verification performance across multiple benchmark datasets, including VoxCeleb, SITW, and LibriSpeech. Results show that PhiNet achieves performance comparable to traditional black-box ASV models while offering meaningful, interpretable explanations for its decisions, bridging the gap between ASV and forensic analysis.

📖 深度解读

一句话总结

这篇论文提出了一种具有音素可解释性的说话人验证网络 PhiNet，通过利用音素证据来增强局部和全局的可解释性，从而在保持高准确性的同时提供有意义的决策解释。

研究背景与动机

核心问题：现有的自动说话人验证（ASV）系统通常是黑盒模型，缺乏透明度，难以在高责任应用中建立信任。
重要性：在法医语音比较（FSC）等高责任应用中，透明度、可靠性和可问责性至关重要。传统的 ASV 系统无法提供详细的决策依据，限制了其在这些领域的应用。
现有方法不足：大多数 ASV 模型仅提供单一的相似度分数，缺乏对决策过程的详细解释。这不仅影响用户对系统的信任，也阻碍了开发者对错误的追踪和改进。

核心方法

提出的方法/模型/框架：PhiNet 是一种具有音素可解释性的说话人验证网络，旨在通过音素级别的比较来增强局部和全局的可解释性。
关键创新点：

1. 局部可解释性：PhiNet 提供每个音素对验证决策的贡献，使用户能够手动检查特定音素的特征。 2. 全局可解释性：PhiNet 通过排名音素的重要性来揭示模型的整体决策逻辑，帮助研究人员理解潜在的系统偏差。

核心思路：PhiNet 通过提取音素特征并计算音素之间的相似度得分，然后根据音素的重要性进行加权平均，生成最终的验证分数。这种方法不仅提供了详细的音素级别比较，还揭示了哪些音素对说话人识别最为关键。

实验与结果

数据集/基准：实验使用了多个基准数据集，包括 VoxCeleb1、VoxCeleb2、SITW 和 LibriSpeech。
基线方法：对比了传统的黑盒 ASV 模型 ECAPA-TDNN。
主要实验结果：

- PhiNet 在多个数据集上的性能与传统黑盒模型相当，同时提供了有意义的解释。 - 例如，在 VoxCeleb1-O 数据集上，PhiNet 的 EER 为 5.673%，minDCF 为 0.439，而 ECAPA-TDNN 的 EER 为 3.541%，minDCF 为 0.279。

消融实验：通过移除特定音素的实验，验证了音素权重的有效性。结果显示，移除高权重音素会导致性能显著下降，而移除低权重音素的影响较小。

优势与局限

主要优势：

1. 提高透明度：PhiNet 提供了详细的音素级别比较，增强了用户的信任。 2. 便于错误追踪：明确的决策依据简化了错误追踪和超参数选择。 3. 全局可解释性：揭示了模型的整体决策逻辑，有助于理解潜在的系统偏差。

局限性：

1. 计算复杂度：引入音素级别的处理增加了计算复杂度。 2. 训练时间：需要更多的训练时间和资源来优化音素权重。 3. 泛化能力：在某些情况下，音素权重可能会影响模型在短时长测试样本上的泛化能力。

关键结论与启发

最重要的 takeaway：PhiNet 通过引入音素可解释性，成功地在保持高准确性的同时提供了有意义的决策解释，填补了 ASV 和 FSC 之间的差距。
后续研究启发：

1. 进一步优化训练机制：探索专门针对可解释模型的训练策略，以提高性能和可解释性。 2. 混合策略：将 PhiNet 作为强黑盒模型（如 ECAPA-TDNN）的微调步骤，结合两者的优点。 3. 更细粒度的分析：进一步研究如何从语音内容中分离出说话人身份，以提高模型性能。

#12

eess.AS

WhisperRT -- Turning Whisper into a Causal Streaming Model 跨领域

Tomer Krichli, Bhiksha Raj, Joseph Keshet

Computation and Language (cs.CL); Machine Learning (cs.LG); Sound (cs.SD); Audio and Speech Processing (eess.AS)

📄 Abstract 📥 PDF

查看摘要

Automatic Speech Recognition (ASR) has seen remarkable progress, with models like OpenAI Whisper and NVIDIA Canary achieving state-of-the-art (SOTA) performance in offline transcription. However, these models are not designed for streaming (online or real-time) transcription, due to limitations in their architecture and training methodology. We propose a method to turn the transformer encoder-decoder model into a low-latency streaming model. The encoder is made causal to process audio incrementally, while the decoder conditions on partial encoder states to generate tokens aligned with the available temporal context. This requires explicit synchronization between encoded input frames and token emissions. Since tokens are produced only after sufficient acoustic evidence is observed, an inherent latency arises, necessitating fine-tuning of the encoder-decoder alignment mechanism. We propose an updated inference mechanism that utilizes the fine-tuned causal encoder and decoder to yield greedy and beam-search decoding, and is shown to be locally optimal. Experiments on low-latency chunk sizes (less than 300 msec) show that our fine-tuned model outperforms existing non-fine-tuned streaming approaches in most cases, while using a lower complexity. We release our training and inference code, along with the fine-tuned models, to support further research and development in streaming ASR.

📖 深度解读

一句话总结

本文提出了一种将非因果的Transformer ASR模型（如Whisper）转换为低延迟流式模型的方法，通过因果编码器和解码器的微调，实现了高效的实时语音识别。

研究背景与动机

核心问题：现有的高性能ASR模型（如Whisper）在离线转录方面表现出色，但不适用于流式（在线或实时）转录，因为其架构和训练方法限制了其实时处理能力。
重要性：实时语音识别在许多应用场景中非常重要，例如实时字幕、语音助手等。现有的非流式模型无法满足这些需求。
现有方法不足：现有的流式ASR方法要么需要额外的训练，要么依赖于辅助头和多遍解码，导致计算效率低下或性能不佳。

核心方法

方法/模型/框架：本文提出了一种将Whisper模型转换为低延迟流式模型的方法，称为WhisperRT。
关键创新点：

1. 将编码器改为因果编码器，使其能够逐步处理音频输入。 2. 解码器根据部分编码器状态生成对齐的标记预测，并引入时间同步机制。 3. 通过LoRA（Low-Rank Adaptation）进行微调，以适应流式设置。

核心思路：通过将编码器改为因果编码器，使其能够逐步处理音频输入，同时解码器根据部分编码器状态生成标记预测。为了确保标记生成的准确性，引入了时间同步机制，使得解码器能够在新的音频块到达时更新之前的预测。此外，通过LoRA进行微调，使得模型能够在保持原有性能的同时，适应流式设置。

实验与结果

数据集/基准：使用LibriSpeech和TED-LIUM3数据集进行评估。
基线方法：对比了Simul-Whisper和Ufal-Whisper等现有流式ASR方法。
主要实验结果：

- 在低延迟块大小（小于300毫秒）的情况下，WhisperRT在大多数情况下优于现有的非微调流式方法，同时具有更低的复杂度。 - 在LibriSpeech测试集上，WhisperRT在不同块大小下的ARWER（对齐相对词错误率）均优于Simul-Whisper和Ufal-Whisper。 - 在多语言转录任务中，WhisperRT在法语、德语、葡萄牙语和西班牙语上的表现优于Simul-Whisper，但在某些语言上略逊于Ufal-Whisper。

消融实验：实验表明，使用KV缓存会显著降低转录性能，这表明交叉注意力机制从新到达的帧中受益，有助于提高标记预测的准确性。

优势与局限

优势：

1. 低延迟：通过因果编码器和解码器的设计，实现了低延迟的流式转录。 2. 高效性：通过LoRA微调，减少了模型的参数量，提高了计算效率。 3. 可扩展性：支持随机块大小掩码，增强了模型在不同块大小下的泛化能力。

局限性：

1. 多语言性能：在多语言转录任务中，WhisperRT的表现不如Ufal-Whisper，可能是因为微调过程中缺乏足够的多语言暴露。 2. KV缓存：使用解码器自注意力KV缓存会导致转录性能下降，需要进一步优化。 3. 计算复杂度：虽然相比现有方法有所改进，但在极低延迟场景下仍有一定的计算负担。

关键结论与启发

最重要的takeaway：本文提出了一种有效的方法，将非因果的Transformer ASR模型转换为低延迟流式模型，通过因果编码器和解码器的设计以及LoRA微调，实现了高效的实时语音识别。
后续研究启发：

- 进一步优化解码器自注意力KV缓存机制，以提高转录性能。 - 探索更多的正则化方法，减少非对齐头在交叉注意力中的影响。 - 增加多语言数据的微调，提高模型在多语言环境下的泛化能力。 - 结合其他优化技术（如FlashAttention），进一步提升模型的运行效率。

#13

eess.AS

When Spoof Detectors Travel: Evaluation Across 66 Languages in the Low-Resource Language Spoofing Corpus 跨领域

Kirill Borodin, Vasiliy Kudryavtsev, Maxim Maslov, Mikhail Gorodnichev, Grach Mkrtchian

Sound (cs.SD); Audio and Speech Processing (eess.AS)

📄 Abstract 📥 PDF

查看摘要

We introduce LRLspoof, a large-scale multilingual synthetic-speech corpus for cross-lingual spoof detection, comprising 2,732 hours of audio generated with 24 open-source TTS systems across 66 languages, including 45 low-resource languages under our operational definition. To evaluate robustness without requiring target-domain bonafide speech, we benchmark 11 publicly available countermeasures using threshold transfer: for each model we calibrate an EER operating point on pooled external benchmarks and apply the resulting threshold, reporting spoof rejection rate (SRR). Results show model-dependent cross-lingual disparity, with spoof rejection varying markedly across languages even under controlled conditions, highlighting language as an independent source of domain shift in spoof detection. The dataset is publicly available at \href{ this https URL }{\textbf{\underline{\textit{HuggingFace}}}} and \href{ this https URL }{\textbf{\underline{\textit{ModelScope}}}}

📖 深度解读

一句话总结

这篇论文构建了一个大规模多语言合成语音语料库LRL-Spoof，用于评估跨语言的音频伪造检测模型，并通过实验揭示了不同语言和合成器对检测性能的影响。

研究背景与动机

核心问题：现有的音频伪造检测方法在跨语言场景下的鲁棒性不足，特别是在低资源语言上的表现较差。
重要性：随着文本转语音（TTS）和语音转换技术的进步，音频伪造变得越来越普遍，这对语音验证和其他基于语音的安全应用构成了威胁。因此，开发能够跨语言有效工作的伪造检测模型至关重要。
现有方法的不足：许多现有的基准数据集主要集中在少数高资源语言上，这可能导致检测模型依赖于特定语言或音系特征，而不是伪造特有的线索。此外，这些模型在面对新的TTS系统、录音条件变化、压缩伪影等时，性能会显著下降。

核心方法

提出的方法/模型/框架：LRL-Spoof，一个包含66种语言和24个开源TTS系统的大型多语言合成语音语料库。
关键创新点：

1. 覆盖广泛的低资源语言，使研究者能够更好地评估跨语言的伪造检测性能。 2. 提供了一种统一的零样本诊断方法，通过固定阈值来评估不同语言和合成器组合下的模型性能。 3. 使用多种开源TTS系统生成合成语音，确保了多样性和可控性。

核心思路：通过控制合成器和语言的变化，直接比较不同语言和合成器组合下的检测性能，从而揭示语言作为独立领域偏移源的影响。

实验与结果

使用的数据集/基准：LRL-Spoof，包含2,732小时的合成语音，涵盖66种语言和24个TTS系统。
对比的基线方法：11个公开可用的伪造检测模型，包括aasist3、dfarena1b、dfarena500等。
主要实验结果：

- 不同模型在不同语言上的伪造拒绝率（SRR）差异显著。例如，aasist3在英语和车臣语上的SRR分别为93.33%和99.86%，而w2v2 300在英语和波兰语上的SRR分别为62.27%和30.78%。 - 在低资源语言子集上，多个模型的性能明显下降，揭示了鲁棒性差距。

消融实验揭示：即使在固定合成器的情况下，不同语言之间的SRR差异仍然很大，表明语言本身是影响检测性能的重要因素。

优势与局限

优势：

1. 提供了广泛的低资源语言覆盖，有助于更全面地评估跨语言伪造检测性能。 2. 通过控制合成器和语言的变化，能够直接比较不同组合下的性能，揭示语言作为独立领域偏移源的影响。 3. 提供了一种统一的零样本诊断方法，便于评估模型在未见过的语言和合成器上的泛化能力。

局限性：

1. 仅包含合成语音，没有真实语音，无法直接计算EER。 2. 依赖外部基准进行阈值校准，可能无法覆盖所有实际遇到的语言和录音条件。 3. 无法简单地添加其他数据集中的真实语音，因为模型可能会学习区分不同领域的特征，而不是伪造与真实的特征。

关键结论与启发

最重要的takeaway：跨语言鲁棒性是当前反伪造模型的主要失败模式之一。同一模型在不同语言上的表现可能大相径庭，即使攻击生成器保持不变。
对后续研究的启发：

1. 需要更多关注跨语言鲁棒性的训练和评估，明确针对语言偏移进行优化。 2. 报告跨语言差异指标，而不仅仅是语言匹配的结果。 3. 开发不依赖特定语言或音系特征的模型设计，以提高跨语言泛化能力。

#14

eess.AS

IQRA 2026: Interspeech Challenge on Automatic Pronunciation Assessment for Modern Standard Arabic (MSA) 跨领域

Yassine El Kheir, Amit Meghanani, Mostafa Shahin, Omnia Ibrahim, Shammur Absar Chowdhury 等 (8 人)

Sound (cs.SD); Audio and Speech Processing (eess.AS)

📄 Abstract 📥 PDF

查看摘要

We present the findings of the second edition of the IQRA Interspeech Challenge, a challenge on automatic Mispronunciation Detection and Diagnosis (MDD) for Modern Standard Arabic (MSA). Building on the previous edition, this iteration introduces \textbf{Iqra\_Extra\_IS26}, a new dataset of authentic human mispronounced speech, complementing the existing training and evaluation resources. Submitted systems employed a diverse range of approaches, spanning CTC-based self-supervised learning models, two-stage fine-tuning strategies, and using large audio-language models. Compared to the first edition, we observe a substantial jump of \textbf{0.28 in F1-score}, attributable both to novel architectures and modeling strategies proposed by participants and to the additional authentic mispronunciation data made available. These results demonstrate the growing maturity of Arabic MDD research and establish a stronger foundation for future work in Arabic pronunciation assessment.

📖 深度解读

一句话总结

这篇论文介绍了IQRA 2026挑战赛，该挑战赛旨在改进现代标准阿拉伯语（MSA）的自动发音评估，通过引入新的真实人类误发音数据集Iqra Extra IS26，显著提高了系统的性能。

研究背景与动机

核心问题：自动发音评估（特别是针对现代标准阿拉伯语）缺乏标准化基准、开放标注的数据集和可重复的评估协议。
重要性：阿拉伯语的发音系统复杂，包括34个音素，其中包含28个辅音和6个元音。此外，阿拉伯语的双语现象使得发音评估更加困难。有效的自动发音评估工具对于自学者和语言学习者至关重要。
现有方法不足：现有的方法依赖于小规模的私有语料库、手工特征和不可比较的评估设置，导致难以跟踪研究进展。此外，缺乏真实的人类误发音数据限制了模型的泛化能力。

核心方法

提出的方法/模型/框架：IQRA 2026挑战赛引入了新的数据集Iqra Extra IS26，包含了真实的人类误发音数据，并提供了多个训练和测试数据集。参与者使用了多种方法，包括基于CTC的自监督学习模型、两阶段微调策略和大型音频-语言模型。
关键创新点：

1. 引入了第一个真实的人类误发音数据集Iqra Extra IS26。 2. 使用了多种先进的自监督学习和微调策略。 3. 首次在阿拉伯语发音评估中应用了生成式大音频-语言模型。

核心思路：通过引入真实的人类误发音数据，结合先进的自监督学习和微调策略，提高模型对真实语音的泛化能力和准确性。生成式大音频-语言模型则尝试将发音评估任务重新定义为生成任务，以提供更自然的语言反馈。

实验与结果

数据集/基准：Iqra train（79小时的真实语音）、Iqra TTS（52小时的合成语音）、Iqra Extra IS26（1.5小时的真实误发音语音）、QuranMB.v2（2.5小时的标注测试数据）。
基线方法：多语言mHuBERT模型，F1得分为0.4414。
主要实验结果：最佳系统whu-iasp的F1得分为0.7201，相比基线提升了0.2787。前六名系统均超过了F1=0.67和PER≤0.0445。
消融实验：使用真实误发音数据的系统表现明显优于仅使用合成数据的系统，表明真实数据在提高模型性能方面具有重要作用。

优势与局限

优势：

1. 引入了真实的人类误发音数据，显著提高了模型的泛化能力和准确性。 2. 多种先进的自监督学习和微调策略展示了不同的有效路径。 3. 生成式大音频-语言模型的应用为未来的研究提供了新的方向。

局限性：

1. 真实误发音数据集Iqra Extra IS26仍然较小，仅有1,333条语音。 2. 当前系统输出的是音素序列，而实际用户需要的是字符级别的反馈，存在映射问题。 3. 生成式模型虽然有潜力，但需要更丰富的监督和评估框架。

关键结论与启发

最重要的takeaway：真实的人类误发音数据对于提高阿拉伯语发音评估系统的性能至关重要。多种先进的自监督学习和微调策略展示了不同的有效路径，生成式大音频-语言模型的应用为未来的研究提供了新的方向。
对后续研究的启发：

1. 收集更大规模的真实误发音数据，进一步提高模型的泛化能力。 2. 解决音素到字符的映射问题，使系统能够提供更实用的字符级别反馈。 3. 探索生成式模型在发音评估中的应用，结合错误检测、诊断和解释，提供更自然的语言反馈。