聲紋識別的理論基礎
每個聲音都有壹個獨特的特征,通過這個特征可以有效地區分不同人的聲音。
這個特點主要是由兩個因素決定的。首先是聲腔的大小,包括咽喉、鼻腔、口腔。這些器官的形狀、大小和位置決定了聲帶張力的大小和聲音頻率的範圍。就像指紋壹樣,每個人的聲音都有自己獨特的特征。第二個因素是發聲器官的操縱方式,發聲器官之間的相互作用會產生清晰的語音。人們在學習說話的過程中,會通過模擬周圍不同人的說話方式,逐漸形成自己的聲紋特征。
理論上,聲紋就像指紋壹樣,很少有兩個人的聲紋特征是壹樣的。
小聲紋識別技術分析
超腦中中小型機器人所擁有的聲紋識別技術,其實屬於動態聲音實時檢測技術,還包括VAD、降噪和混響去除(VAD的目的是檢測是否是人聲,降噪和混響去除是為了排除環境幹擾)。
考慮到挑戰場景是從合唱團中尋找特征人聲,難點在於如何提取和表達語音信號中與說話人相關的信息,以及如何區分相似人聲的細微差異。壹般來說,語音的說話人相關特征的提取主要按照如圖所示的流程進行:
對於采集到的語音,會先進行有效語音檢測(VAD),切除采集語音的無效部分,然後提取聲學特征。由於語音信號是壹種變長的短時非平穩信號,壹般采用加窗的方法提取特征,以幀為單位獲取特征。目前常用的聲學特征有經典的梅爾倒譜系數MFCC,當前的感知預測系數PLP,以及當前基於深度學習的fiery deep特征。獲得聲學特征後,就是對說話人信息的進壹步提取。這裏使用的建模方法主要采用了ivector算法和帶殘差處理的深度卷積神經網絡算法。建模後,我們可以更深層次地表達語音的特征,從而進壹步呈現與說話人相關的信息。最終模型可以進壹步將在特征提取階段獲得的特征轉換成可以表征說話人特征的樣本。
這樣,我們就可以把特定說話人的語音完全轉換成壹個可以表征說話人特征的模型。(在實際比賽過程中,當21個合唱成員在演唱時,我們將這21個合唱成員的演唱聲分別饋入模型中,最終得到能夠代表這些合唱成員信息的21個模型)。
識別匹配階段相對容易理解。測試語音采集完成後,進行相應的特征提取操作,然後與模板庫中的所有模板樣本計算相似度距離,然後選取最接近的壹個作為最終判斷結果。(實際比賽中,這相當於三次測試。在每次測試中,我們將線人的代碼語音送入模型,提取特征,然後與21個模型進行對比,得分最高的就是機器認為最有可能的線人)。整個過程如下圖所示:
這次聲紋識別的難度
可能大家最感興趣的是,最強人工智能的渺小和我們的小選手鮑曉的3題,只對1題。這裏我簡單說壹下影響大家發揮的因素,如下:
1,噪音問題
2.許多人唱歌
3.遺忘聲音記憶
4.功能遷移
頭號問題是噪音,包括現場噪音和音樂噪音,比人臉識別影響更大(前期有輕度影響),音樂本身也會影響機器和玩家的判斷;第二是很多人唱歌。眾所周知,聲紋識別主要依靠光譜特征,很多人會出現光譜混疊的現象,導致特征難以分離和識別。第三,主要是對人類玩家的影響。壹般人記住時間序列比記住空間序列更難,尤其是記住三個音序列之後,這也是魏醫生反復希望多聽幾遍的原因。最後說壹下特征轉移。挑戰是憑記憶說話,識別唱腔。而人們說話唱歌往往聲紋不同,所以存在特征轉移的問題,對應的是我們兩個選手需要壹定的歸納推理能力。
以上四個因素讓最終的結果沒有那麽完美,但正是這些不完美,才會讓我們在技術上不斷進步,超越過去的自己。