WAVLab | 2026 Papers

Speech-LLM ICML

ADEPT: RL-Aligned Agentic Decoding of Emotion via Evidence Probing Tools – From Consensus Learning to Ambiguity-Driven Emotion Reasoning

Esther Sun, Bo-Hao Su, Abinay Reddy Naini, Shinji Watanabe, and Carlos Busso

In ICML 2026
Dialogue ICML

Stream RAG: Instant and Accurate Spoken Dialogue Systems with Streaming Tool Usage

Siddhant Arora, Haidar Khan, Kai Sun, Xin Luna Dong, Sajal Choudhary, Seungwhan Moon, Xinyuan Zhang, Adithya Sagar, Surya Teja Appini, Kaushik Patnaik, Sanat Sharma, Shinji Watanabe, Anuj Kumar, Ahmed A Aly, Yue Liu, Florian Metze, and Zhaojiang Lin

In ICML 2026
Evaluation ICML

LALM-as-a-Judge: Benchmarking Large Audio-Language Models for Safety Evaluation in Multi-Turn Spoken Dialogues

Amir Ivry, and Shinji Watanabe

In ICML 2026
Speech-LLM ICML

AudioChat: Unified Audio Storytelling, Editing, and Understanding with Transfusion Forcing

William Chen, Prem Seetharaman, Rithesh Kumar, Oriol Nieto, Shinji Watanabe, Justin Salamon, and Zeyu Jin

In ICML 2026
Evaluation ACL

Full-Duplex-Bench-v2: A Multi-Turn Evaluation Framework for Duplex Dialogue Systems with an Automated Examiner

Guan-Ting Lin, Shih-Yun Shan Kuan, Jiatong Shi, Kai-Wei Chang, Siddhant Arora, Shinji Watanabe, and Hung-yi Lee

In ACL 2026
ASR ACL

POWSM: A Phonetic Open Whisper-Style Speech Foundation Model

Chin-Jou Li, Kalvin Chang, Shikhar Bharadwaj, Eunjung Yeo, Kwanghee Choi, Jian Zhu, David R. Mortensen, and Shinji Watanabe

In ACL 2026
Evaluation ACL

PRiSM: Benchmarking Phone Realization in Speech Models

Shikhar Bharadwaj, Chin-Jou Li, Yoonjae Kim, Kwanghee Choi, Eunjung Yeo, Ryan Soh-Eun Shim, Hanyu Zhou, Brendon Boldt, Karen Rosero, Kalvin Chang, Darsh Agrawal, Keer Xu, Chao-Han Huck Yang, Jian Zhu, Shinji Watanabe, and David R. Mortensen

In ACL 2026
SLU ACLFindings

PlanRAG-Audio: Planning and Retrieval Augmented Generation for Long-form Audio Understanding

Masao Someki, Chien-yu Huang, Siddhant Arora, Samuele Cornell, Markus Müller, Nathan Susanj, Rupak Vignesh Swaminathan, Grant Strimel, Jing Liu, and Shinji Watanabe

In ACLFindings 2026
ASR ACL

Speech-Hands: A Self-Reflection Voice Agentic Approach to Speech Recognition and Audio Reasoning with Omni Perception

Zhen Wan, Chao-Han Huck Yang, Jinchuan Tian, Hanrong Ye, Ankita Pasad, Szu-Wei Fu, Arushi Goel, Ryo Hachiuma, Shizhe Diao, Kunal Dhawan, Sreyan Ghosh, Yusuke Hirota, Zhehuai Chen, Rafael Valle, Chenhui Chu, Shinji Watanabe, Boris Ginsburg, and Yu-Chiang Frank Wang

In ACL 2026
Dialogue ACLFindings

Optimizing Conversational Quality in Spoken Dialogue Systems with Reinforcement Learning from AI Feedback

Siddhant Arora, Jinchuan Tian, Jiatong Shi, Hayato Futami, Yosuke Kashiwagi, Emiru Tsunoo, and Shinji Watanabe

In ACLFindings 2026
Speech-LLM ICLR

UALM: Unified Audio Language Model for Understanding, Generation and Reasoning

Jinchuan Tian, Sang-gil Lee, Zhifeng Kong, Sreyan Ghosh, Arushi Goel, Chao-Han Huck Yang, Wenliang Dai, Zihan Liu, Hanrong Ye, Shinji Watanabe, Mohammad Shoeybi, Bryan Catanzaro, Rafael Valle, and Wei Ping

In ICLR 2026
SE ICLR

MAPSS: Manifold-based Assessment of Perceptual Source Separation

Amir Ivry, Samuele Cornell, and Shinji Watanabe

In ICLR 2026
SE ICASSP

ICASSP 2026 URGENT Speech Enhancement Challenge

Chenda Li, Wei Wang, Marvin Sach, Wangyou Zhang, Kohei Saijo, Samuele Cornell, Yihui Fu, Zhaoheng Ni, Tim Fingscheidt, Shinji Watanabe, and Yanmin Qian

In ICASSP 2026
ASR ICASSP

SSVD-O: Parameter-Efficient Fine-Tuning with Structured SVD for Speech Recognition

Pu Wang, Shinji Watanabe, and Hugo Van hamme

In ICASSP 2026
Speech-LLM ICASSP

Reasoning Beyond Majority Vote: An Explainable SpeechLM Framework for Speech Emotion Recognition

Bo-Hao Su, Hui-Ying Shih, Jinchuan Tian, Jiatong Shi, Chi-Chun Lee, Carlos Busso, and Shinji Watanabe

In ICASSP 2026
SE ICASSP

2025 URGENT Speech Enhancement Challenge Multilingual P.808 Listening Tests: Approach and Results

Marvin Sach, Yihui Fu, Kohei Saijo, Wangyou Zhang, Samuele Cornell, Robin Scheibler, Chenda Li, Zhaoheng Ni, Anurag Kumar, Wei Wang, Yanmin Qian, Shinji Watanabe, and Tim Fingscheidt

In ICASSP 2026
Evaluation ICASSP

Full-Duplex-Bench v1.5: Evaluating Overlap Handling for Full-Duplex Speech Models

Guan-Ting Lin, Shih-Yun Shan Kuan, Qirui Wang, Jiachen Lian, Tingle Li, Shinji Watanabe, and Hung-yi Lee

In ICASSP 2026
ASR ICASSP

CALM: Joint Contextual Acoustic-Linguistic Modeling for Personalization of Multi-Speaker ASR

Muhammad Shakeel, Yosuke Fukumoto, Chikara Maeda, Chyi-Jiunn Lin, and Shinji Watanabe

In ICASSP 2026
Tokenizer ICASSP

Phonological Tokenizer: Prosody-Aware Phonetic Token via Multi-Objective Fine-Tuning with Differentiable K-Means

Kentaro Onda, Hayato Futami, Yosuke Kashiwagi, Emiru Tsunoo, and Shinji Watanabe

In ICASSP 2026
SSL ICASSP

Online Register for Dual-Mode Self-Supervised Speech Models: Mitigating the Lack of Future Context

Keita Goto, Takashi Maekaku, Jin Sakuma, Jinchuan Tian, Yusuke Shinohara, and Shinji Watanabe

In ICASSP 2026
Evaluation EACL

CSPB: Conversational Speech Processing Benchmark for Self-supervised Speech Models

Zili Huang, Matthew Maciejewski, Leibny Paola Garcia Perera, Shinji Watanabe, and Sanjeev Khudanpur

In EACL 2026
Tokenizer EACLFindings

BSCodec: A Band-Split Neural Codec for High-Quality Universal Audio Reconstruction

Haoran Wang, Jiatong Shi, Jinchuan Tian, Bohan Li, Kai Yu, and Shinji Watanabe

In EACLFindings 2026