arxiv:2603.12046

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

Published on Mar 12

· Submitted by

Umberto Cappellazzo on Mar 13

Imperial College London

Upvote

Authors:

Umberto Cappellazzo ,

Abstract

Dr. SHAP-AV framework uses Shapley values to analyze modality contributions in audio-visual speech recognition, revealing how models balance acoustic and visual information under varying noise conditions.

AI-generated summary

Audio-Visual Speech Recognition (AVSR) leverages both acoustic and visual information for robust recognition under noise. However, how models balance these modalities remains unclear. We present Dr. SHAP-AV, a framework using Shapley values to analyze modality contributions in AVSR. Through experiments on six models across two benchmarks and varying SNR levels, we introduce three analyses: Global SHAP for overall modality balance, Generative SHAP for contribution dynamics during decoding, and Temporal Alignment SHAP for input-output correspondence. Our findings reveal that models shift toward visual reliance under noise yet maintain high audio contributions even under severe degradation. Modality balance evolves during generation, temporal alignment holds under noise, and SNR is the dominant factor driving modality weighting. These findings expose a persistent audio bias, motivating ad-hoc modality-weighting mechanisms and Shapley-based attribution as a standard AVSR diagnostic.

View arXiv page View PDF Project page GitHub 3 Add to collection

Community

hisoka94

Paper author Paper submitter about 19 hours ago

A Shapley-based framework revealing how audio-visual speech recognition models balance what they hear and what they see across architectures, decoding stages, and acoustic conditions.