基于跨模態(tài)注意力的目標(biāo)語音提取
計算機(jī)工程
頁數(shù): 9 2024-01-19
摘要: 目標(biāo)語音提取作為語音分離領(lǐng)域的一部分,旨在從混合語音數(shù)據(jù)中提取出目標(biāo)語音??紤]到視聽信息具有天然一致性,在進(jìn)行模型訓(xùn)練時,可以融合視覺信息指導(dǎo)模型對目標(biāo)語音的提取。對此,傳統(tǒng)方法是將視覺特征和音頻特征進(jìn)行簡單拼接,然后進(jìn)行卷積操作實現(xiàn)通道融合,這種方法無法有效挖掘到跨模態(tài)信息間的相關(guān)性。針對這個問題,設(shè)計一個基于兩階段的跨模態(tài)注意力特征融合模塊。在第一階段進(jìn)行點積注意力計算來挖...