視頻會議的語音壓縮技術指的是對原始語音數字音頻信號流(PCM編碼) 運用適當的數字信號處理技術,在不損失有用信息量,或所引入損失可忽略的條件下,壓縮信號編碼速率,也稱為壓縮編碼。以生成適合傳輸的數字信號流,提高傳輸效率。對語音編碼技術中語音質量的評價主要分為兩類,客觀評定方法和主觀評定方法。其中客觀評定方法用客觀測量的手段來評價語音編碼的質量,其特點是計算簡單,但不能完全反映人對語音質量的感覺。主觀評定方法符合人類聽話時對語音質量的感覺,因而得到廣泛應用。最主要的主觀評定方法是主觀評定等(Subjective Opinion Scale) ,或稱平均評定得分(MOS Mean Opinion Score) 。MOS 得分采用五級評分標準,下表給出主觀評定等級的質量等級、分數和相應的收聽注意力等級。
在互聯網中傳輸語音主要通過兩個部分進行語音質量的保證
(1)回聲消除
分析聲學回聲的產生的機理,可以知道:聲學回聲最簡單的控制方法是改善揚聲器的周圍環境,盡量減少揚聲器播放聲音的反射。例如,可以在周圍的墻壁上附加一層吸音材料,或增加一層襯墊以增加散射,理想的周圍環境是其回響時間或RT-60(聲音衰減60dB所需要的時間)在300ms~600ms之間。因為這樣的環境一方面可以控制反射,又可以不會使講話者感到不適。改善環境可以有效地抑制間接聲學回聲,但對直接聲學回聲卻無能為力。
回聲抑制器回聲抑制器是使用較早的一種回聲控制方法?;芈曇种破魇且环N非線性的回聲消除。它通過簡單的比較器將接收到準備由揚聲器播放的聲音與當前話筒拾取的聲音的電平進行比較。如果前者高于某個閾值,那么就允許傳至揚聲器,而且話筒被關閉,以阻止它拾取揚聲器播放的聲音而引起遠端回聲。如果話筒拾取的聲音電平高于某全閾值,揚聲器被禁止,以達到消除回聲的目的。由于回聲抑制是一種非線性的回聲控制方法,會引起揚聲器播放的不連續。影響回聲消除的效果,隨著高性能的回聲消除器的出現,回聲抑制器已很少人使用了。
聲學回聲消除器聲學回聲消除的另一方法是使用聲學回聲消除器(AEC:AcousticEcho Chancellor),AEC是對揚聲器信號與由它產生的多路徑回聲的相關性為基礎,建立遠端信號的語音模型,利用它對回聲進行估計,并不斷地修改濾波器的系數,使得估計值更加逼近真實的回聲。然后,將回聲估計值從話筒的輸入信號中減去,從而達到消除回聲的目的,AEC還將話筒的輸入與揚聲器過去的值相比較,從而消除延長延遲的多次反射的聲學回聲。根椐存儲器存放的過去的揚聲器的輸出值的多少,AEC可以消除各種延遲的回聲。
(2)丟包補償
語音實時傳輸中的丟包恢復技術按照連接關系可以劃分為兩個大類:基于發送端的修復和基于接收端的修復。
一、基于發送端的修復技術
基于發送端的丟包恢復由發送端發起,并需要發送端和接收端協同進行。
1、增加冗余度
最簡單的方法,是讓每個數據包除了自身數據之外還包含前k個包的數據備份。為了盡量降低冗余度,當前分組所包含的前k個分組的冗余數據可以用一個碼率更低的編碼器產生。增加數據的冗余度可以提高系統的容錯能力,但是同時增加了帶寬。這種方式與語音編碼方式無關,只是在分組時針對這些語音數據作了冗余數據備份。
2、分類處理
為了在收端更好地采用波形替換技術,發端可以根據語音信號的特性分類處理,具體做法是對于濁音信號先估算其基音周期L,然后把兩段長度為L的波形封裝到一個分組內。對于非濁音信號(包括清音、噪聲和靜音)則全部封裝到一個分組內。即用小數據包傳送濁音信號,用大數據包傳送其它信號。這種方式與語音編碼方式有關,主要對語音的內容分類,區分有用信息和無用信息,然后對這些信息分別編碼,分組采用自適應策略;一旦分組丟失,接收端可根據收到的分組來推測丟失的分組所含信號的類型并采取相應的策略。
3、前向糾錯
信道編碼用前向糾錯(FEC)碼來恢復在傳輸中發生差錯的比特,現在人們把FEC應用到語音分組傳輸中來恢復丟失的數據分組,有多種FEC碼可用于此目的。最簡單的是奇偶校驗碼,其基本原理是為每k個信息分組加入一個奇偶校驗分組,奇偶校驗分組的數據由k個信息分組的相應比特的校驗比特組成。這種方式與具體的語音編碼方式無關,主要在分組時增加對分組的校驗位信息。
4、交織
當語音信號發生大段的突發缺失,各種差錯掩蓋方法的效果就會大大降低,許多方法甚至無法工作,而突發的連續丟包是在Intemet上遇到的典型現象。為了最大限度地發揮這些差錯掩蓋技術,可以采用交織技術打亂數據的發送順序,把大段的突發連續語音丟失轉化為隨機的小段丟失。這種方式與具體的語音編碼方式無關,也與分組的編碼方式無關,主要是對編碼后的數據重新組織,但采用交織方法會給系統帶來很大的時延。
5、優先級設置
優先級設置方法是指發端依據某個準則為不同的語音分組設置不同的優先級,如依據語音的能量、與前一個分組的相似度、語音信號的平穩特性或者當前分組能否用前一個分組較好地預測等。當網絡發生阻塞時,網絡保留高優先級的分組,丟棄低優先級的分組。這種方式與語音的編碼方式有關,因為需要了解語音信息的優先級,這種技術需要網絡支持并按優先級傳輸分組,否則無法實現。
二、基于接收端的修復技術
基于收端的修復技術不需要發端的參與,本質上是對接收到的數據通過一系列的方法來估計丟失的數據,并根據人的生理特點進行優化,基本上是一種被動的修補,通常比較容易實現且不增加帶寬需求。
1、插入方式
插人是指用固定的波形來填補缺口,這種固定的波形與缺口處的實際波形是不相關的。這類技術包括接合、靜音和噪聲替代等方法。接合技術是最簡單的方法,它會擾亂系統的定時關系,對聽覺效果的改善也不大。靜音替代的適用范圍非常有限,當數據包的丟失頻率很低(小于2%)且缺口寬度小于4 ms時,這種方法比較有效;當缺口寬度達40 ms時,其效果會讓人無法接受。與靜音替代相比,噪聲替代可給人帶來更好的主觀聽覺感受,同時能改善語音信號的可分辨性。當采用背景噪聲而不是靜音的時候,人腦能下意識地用正確的聲音來修補語音信號中丟失的部分。插人方式與語音編碼無關,也與分組的編碼無關,只是對解碼后丟失的語音進行處理。
2、插值
與插人技術相比,插值技術對缺口處的實際波形做了估計,并試圖用與其相似的波形來修補波形缺口,這使得處理得到的聲音能給人帶來相對更好的主觀感受。目前屬于插值方法的有波形替代和時域修正兩種技術。
(1)波形替代
其原理是在缺口前面(或后面)的波形中尋找出和缺口處波形相似的一段信號并對其加工用來填補缺口。執行一般由兩個步驟構成,第一步是儲存最新重建的信號波形,第二步是對所存儲的波形進行分析,從中提取一段波形并加以改造用來替代缺口處原有的波形。這類技術常用重復、模式匹配、基音波形復制三種實現方式?;舨ㄐ螐椭剖峭ㄟ^峰值檢測來計算基音周期T并判斷語音信號是清音還是濁音。對于清音,它簡單地采用重復技術來填補波形缺口;對于濁音,它用缺口位置之前長度為T的一段波形通過重復來填補波形缺口。其效果最好,但是實現較復雜。模式匹配從存儲的缺口左側的重建波形中按某種匹配原則進行搜索,找到一段最佳匹配波
形,對它進行必要的修飾之后用來填補重建波形的缺口。它也可以同時從缺口兩側的重建波形中各找出一段最佳匹配波形,對它們進行加權合并,用來填補缺口。雙側搜索比單側搜索的聽覺效果好,但是它的代價是引入了很長的時延。其效果次于基音復制方式,但實現較簡單。重復方式用缺口前面最近的波彤來替代缺口處的實際波形。效果最差,但實現簡單。波形替代技術可使得填補缺口的波形與其前后的波形間的過渡比較平滑,但在缺口邊界,波形的相位存在突變。這種方式對解碼后的語音信息的修補,與具體的語音編碼和分組編碼無關。
(2)時域修正
這種技術采用缺口兩側的波形向缺口方向延展的方式來填補缺口。該方法計算量很大,但是由于它能夠避免邊界的相位不連續現象,聽覺效果優于波形替代法。該種方法也同樣也是一種對解碼后的語音信號進行處理的技術,與具體的語音編碼和分組編碼無關。
無論是基于發送端還是基于接收端的修復技術,針對丟包恢復的要求,上述這些技術在設計時,一般的出發點有:
①針對語音本身。考慮的方面主要是分析和區分語音本身的不同內容,如:濁音,噪音,背景音等,對這些內容分別編碼傳輸。
②針對分組。通過對分組增加冗余信息和校驗信息來獲取容錯能力,但會引起帶寬的增加;
③針對比特位。這里主要指交織技術,它是對編碼結果的再處理;
④針對語音復原后的信號?;谑斩说募夹g都采用這種原理來設計;
各種技術只在語音、分組、傳輸和語音復原階段采取了措施,而通常在發端采取的措施比在收端采取的措施有效,或者說發端采取的措施將直接影響收端對數據復原的效果,因此為了最大化丟包后數據的復原效果,應重點在發端采取措施,使收端在不增加帶寬的情況下,當丟包情況發生時,盡量減少對數據的影響。一般來說,采用基于發端修復的效果比基于收端的技術好,但是技術復雜,一般會增加網絡的帶寬和傳輸延遲,收端的技術簡單,取得的效果更適于人的聽覺生理特點。若能夠綜合考慮發端和收端過程中的不同階段的特點,既能取得好的修復效果,又能用簡單的方式實現,將是今后丟包恢復技術研究的一個重要方向。
(3)抖動抑制
Internet的實質是分組交換網絡,IP分組是存儲、轉發的最小單元。因此,同一信源的分組可能經過不同的路由傳輸到接收端,分組到達接收端的時延也不同。這種分組傳輸時延的不同被稱為時延抖動。時延抖動的存在引起收端解碼后的語音信號出現間斷,造成語音失真,所以必須進行時延抖動的吸收補償。與分組網傳輸數據相比,電路交換則是由于預先分配了信道資源,通信子網以流的方式對待數據,即各幀數據從A端到達B端的時間相等,這樣也就不存在抖動的問題。在設計語音抖動處理方案時,可以做如下考慮:采用智能緩沖平滑的方法,即讓接收端對抖動程度做出預測,并把接收到的信元存放在緩沖器中,采用適當長度的抗抖動緩存,吸收延時后再輸出。

售前咨詢專員
