通常的陣列信號處理多為窄帶,即不同陣元在接受時延與相位差主要體現(xiàn)在載波頻率,而語音信號未經(jīng)過調(diào)制也沒有載波,且高低頻之比較大,不同陣元的相位延時與聲源本身的特性關系很大—頻率密切相關,使得傳統(tǒng)的陣列信號處理方法不再完全適用。
傳統(tǒng)陣列處理中,多為平穩(wěn)信號,而麥克風陣列的處理信號多是非平穩(wěn)信號,或者短時平穩(wěn)信號,因此麥克風陣列一般對信號做短時頻域處理,每個頻域均對應一個相位差,將寬帶信號在頻域上分成多個子帶,每個子帶做窄帶處理,再合并成寬帶譜。
聲音傳播受空間影響較大,由于空間反射,衍射,麥克風收到的信號除了直達信號以外,還有多徑信號疊加,使得信號被*,即為混響。在室內(nèi)環(huán)境中,受房間邊界或者障礙物衍射,反射導致聲音延續(xù),極大程度的影響語音的可懂度。
聲源定位技術在人工智能領域應用廣泛,利用麥克風陣列來形成空間笛卡爾坐標系,根據(jù)不同的線性陣列,平面陣列和空間陣列,來確定聲源在空間中的位置。智能設備首先可以對聲源的位置做進一步的語音增強,當智能設備獲取你的位置信息可以結合其他的傳感器進行進一步的智能體驗,比如機器人會聽到你的呼喚走到你的身邊,視頻設備會聚焦鎖定說話人等等。了解聲源定位技術之前,我們需要了解近場模型和遠場模型。