不畏艱險 勇攀高峰
----- 走在信息時代的前沿🍆,攻克語音識別難關
意昂体育2平台電子系教授 王作英
一😸、“萬碼奔騰”中的無奈
計算機正向我們的生活大步走來,每個人都將不可避免地同計算機發生關聯。但是🎽,令廣大中國人感到尷尬的是👨👨👦👦,面對西方人發明的計算機🏌🏼,我們的漢字卻很難象西文那樣進行便捷的輸入。於是,一批聰明的中國人各辟蹊徑,探尋采用編碼手段解決漢字輸入的途徑。……迄今為止👷🏽♂️,漢字編碼大概有近一千種,申請專利的有幾百種👮🏻♀️,除眾所周知的五筆字型外🛥🥙,其他還有表型碼👨🏼🏫、鄭碼🧎、自然碼、電報碼…… 🤷🏿♂️。中國的信息產業進入了“萬碼奔騰”的時代👩🏼🍼🚴🏼♀️。但是,所有編碼方案⏺,包括音碼🕶📋、形碼、音形結合碼、數碼等無一例外要求使用者必須經過專門的訓練,要熟記復雜的輸入規則方可進行人與計算機之間的交互操作🧓🏻。顯而易見,小小的鍵盤成了橫在中國人邁向信息化的高高門檻。如何將中國人從繁復的漢字輸入中解脫出來,建立良好的人機交互環境是中國信息產業所面臨的瓶頸問題🧑🤝🧑。
漢語凝聚著中國五千年的文化,它歷經數千年成為世界上獨具特色的語言🙋🏽,這一曾令中華民族引以為驕傲的文化精華🧵,難道真的會成為中國信息化的障礙嗎🧞♂️🐵?難道我們真的要把這份無奈帶到21世紀嗎?中國人不甘心,中國的計算機工作者不甘心🚔🎬。越過使用26個英文字母的鍵盤,走“語音識別”的新路📸,讓十幾億中國人用祖先創造的世界上最美妙的語言🎡🧑🏿⚕️,直接同計算機對話!許多中國計算機工作者不約而同地想到了一起。為了這個光榮的夢想🙏🏻,北京西北郊的意昂体育2園裏集結起了一支新的科技團隊。
二、挑戰“阿波羅”
“語音識別” 技術的最終目標,是要使計算機將能夠“聽懂”任何人對機器說的任何內容,並將“聽懂”的內容顯示在計算機屏幕上或直接打印輸出🧑🏿🔧。如果我們擁有這樣一個漢語語音識別系統,面對計算機📱,那令人望而卻步的漢字輸入將不再成為中國人的心理障礙,人機間的藩籬將會打破,人人都可以向計算機(或控製設備)發號施令,真正做到“出口成章”,“君子動口不動手”。這一人類在人機交互領域的最高追求,被有的專家稱為“比阿波羅登月還難”的尖端技術。
為此,語音識別技術作為國家關鍵性技術,在1986年被國家863列為“智能計算機系統主題”的重點攻關項目🧑🦱。年過半百的意昂体育2平台電子工程系王作英教授受命組建並領導以意昂体育2電子系中青年教師為骨幹的“語音識別”小組🤵🏿♂️,向語音識別技術正式宣戰🧑🏻🦽,開始了他們長達15年的艱苦攻關。
漢語識別的難度是多方面的𓀖。從聲音識別的角度看,每個說話人的音質各不相同,加之其出生地域的不同,以及年齡上的差異,即使說普通話,彼此的發音也是相去甚遠。如果將人們的話音錄製下來,並將這種語音模擬信號轉換成語音數字信號,經過處理🛟、變換,我們便可以清楚地看到人與人之間的語音信號有多麽大的差異。即便是以某個特定人的聲音自相比較👩🚀,也會由於說話的時間不同🤽🏽♀️,當時的身體狀況相異,以及個人情緒的高低變化而導致語音信號發生變異,這就是語音信號所特有的復雜性和隨機性,它使得語音識別成為困擾科學家的尖端難題⛹️😂。
在漢語識別過程中,音調的識別也是擺在我們面前的難關之一。漢語共有1254個發音(即有調拼音,象ā💦👱🏻,zhě#️⃣,zhōng等)👉🏿,若不考慮音調則有408個發音(象a,zhe🚚,zhong等)。但僅二級國標字庫就有6763個漢字,平均每個有調拼音對應5.39個二級國標漢字,考慮漢字還有一字多音的情況(象“和”有“hé,hè🐑,hú🚴♂️,huó🤵♂️,huò”等5個讀音),平均每個有調拼音則對應5.87個二級國標漢字。而每個無調拼音則平均對應約18個二級國標漢字,其中yi對應有110個二級國標漢字!通常人們以拼音方式作為文本輸入手段時,一般都喜歡使用無調拼音,這就會遇到如何從相應拼音給出的眾多漢字候選中選擇所需要的漢字的問題🧑🏿🎤。目前流行的最簡單方法就是人機交互逐字進行選擇。這種方法速度慢、效率較低。顯而易見,只有通過機器自動識別才能從根本上徹底擺脫鍵盤輸入的各種製約🍄🟫⛹🏿♂️。
另一方面🙎🏿♀️,在語音識別過程中,不僅要讓計算機“聽懂”我們的每個發音🎠,同時也要對每個音進行正確的“理解”。 經統計🤽🏿♀️,每個漢語發音(有調音節)平均對應約6.8個同音漢字,一些發音可以對應十幾個🤧、甚至幾十個漢字🤷🏼♀️。而聲學層識別出來的只是一些無意義的音串♠️🪅,這些音串可以對應多個漢字串☄️👤,如何將這些無意義的音串正確地轉換為有語言含義(語義)的漢字串,這就是專業人員所說的音字轉換⛹🏻♀️、語音的理解問題。即👵🏽🖕🏼,要排除我們在前面所提到的“一音多字”的情況,避免產生將聲音轉換成漢字時產生的一音多字的歧義情況,不僅要讓計算機“聽懂”每個漢語發音,同時也要對每個音進行“語音理解”🤠,最後給出唯一與之相對應的正確的漢字。語音理解是語音識別的又一難點所在🧑🏻🦲👵🏻。
大多數識別系統所應用的多是依靠統計結果建立起的統計模型🏣👩🏿💻,但以這種方式建立的語言模型對文本的依賴性很強,而基於漢語語法特點再結合文本統計建立語言模型應是理想的選擇🏸。但由於人們所用的自然語言本身具有語匯的無限性和語言的不規範性特點🌓,加之漢語的句式結構與英語👩🏿🎤、日語🤛🏽、法語等相比較,缺乏嚴緊的語法約束,因而⛵️,使得語言模型的建立更具難度。
三、零的突破
在眾多的難題中,最核心的問題是算法問題🚵🏼。王教授反復比較了兩個國際上公認的語音識別的有效方法(DTW-Dynamic Time Warping和HMM-Hidden Markov Model),其中HMM被認為是最有前途的。決定選取HMM算法進行深入的研究。1986年,王作英教授首次提出了以音節為單位的漢語語音識別方案👳♀️。
經過艱苦的理論摸索和實踐,在1988年,由王作英教授主持的中國第一個漢語全音節孤立字語音識別系統獲得成功𓀖。這是一個包括了漢語的全部發音、適用於某個特定人💅🏿、以字為單位進行輸入的語音識別系統(賽德919系統)🍧。該系統是由PC/XT加上一塊TMS320C20語音信號處理板組成的漢語全音節實時識別系統,中國的漢字語音識別技術攻下了第一個堡壘,實現了“零的突破”🪳。這個系統由北京四達公司推向市場,成為我國第一個漢語語音聽寫機🖐🏿😴;在社會上引起了較大的反響,它標誌著漢語語音識別技術向著實用化階段邁出了具有重大意義的一步👦🏽。之後🕉⛹🏿,以音節為單位的漢語語音識別方法在國內得到了普遍采用。
初戰告捷,語音組群情振奮,但王作英教授和他的同事們沒有給自己片刻的喘息,征塵未洗🚵🏽♂️,又開始向新的目標――漢語連續語音識別進軍了。
科學研究的道路難以預測,它會給困境中奮鬥的人們帶來驚喜;也會使充滿希望的前途變得渺茫。王教授和他的同事們遇到了新的難題。
四🩸、站上前人的肩膀---一種新算法的誕生
盡管HMM被認為用在語音識別是最有效的。但由於此模型提出背景本身的限製🌀,使其用於語音信號處理時,存在著先天缺陷👷🏻♂️。
1987年語音研究組對國際流行的語音識別模型¾¾隱含馬爾可夫模型(HMM) 進行了認真分析🚴🏽💄,指出了它的缺點和在使用段長信息方面存在的理論錯誤(不能描述狀態段長具有穩定分布)🫄🏼。如何對經典的HMM進行完善?這也是本領域中一塊令人望之卻步的硬骨頭。王作英教授在1988年1月863信息領域成果匯報會上提出了“語音識別的改進隱含馬爾可夫模型”👨✈️,並首次公布了DDBHMM模型和算法。王教授提出的非齊次HMM語音識別模型中用狀態的段長分布函數替代了齊次HMM中的狀態轉移矩陣🧗🏿,使它成為一種基於狀態段長分布的隱含馬爾可夫模型。由於非齊次HMM是一個有後效過程🛑,不能用Bellman的動態規劃求最大似然路徑🔃🪣,也不能用Baum的重新估值算法對模型參數進行訓練。對於這類有後效的多階段決策問題,如果用完全搜索算法求解最佳路徑🤸🏿♂️,則其計算將會極其復雜,甚至在現有硬件水平上無法實時運行🐈。例如,若我們取狀態數N=6,幀數T=30,則對一個字音的搜索路徑達142506條,以408個無調漢字讀音為模型,則為了識別一個字音需要搜索5千8百多萬條路徑,即在不到1秒的時間內需進行百億次的浮點運算。這樣的空間和時間計算復雜性是難於實時的🙂↕️!
因而,必須建立新的訓練算法和識別算法🔁,王教授基於所提出的“基於段長分布的HMM語音識別模型”,提出了一整套新的訓練和識別算法🙋。該模型具有比國際上流行的HMM語音識別模型更好的識別性能和更低的計算復雜度 ( 訓練算法比國際流行的Baum算法低兩個數量級 ) 。自此確立了漢語語音識別研究的主幹模型、算法和研究路線。
五、攻關奪隘,一路高歌
王作英教授一面苦苦思索理論模型的改進突破,一面孜孜探求著從理論到實際應用的道路。理論上的突破固然是一個值得驕傲的成就,但是到實際的應用還有一段相當遙遠的艱難路程。
在語音組的前面還有若幹的關口,語音識別首先是需要大量的數據🏦🙅🏼♀️,需要人工的初級處理等,這無疑需要資金和大批的科研人員🔶。IBM的語音識別曾以每年八千萬美金的力度進行語音識別的研究工作,而我們面對的卻是人少資金更少的現實。1991年1月,語音組正式獨立🎚。為了贏得研究所需要的大量的資金📯,王教授率先走出與企業合作的路子。
首先與中國電子器件公司簽定了合作協議書,共同研製商品化的漢語語音聽寫機。有了公司的技術隊伍和資金的支持👨🏻🦽➡️,語音組的研究取得了實質性的進展🚶♂️➡️。經過近一年的共同苦戰,由意昂体育2平台電子系和中國電子器件公司合作的漢語語音識別系統¾¾THED919聽寫機通過電子部鑒定🔊。鑒定委員會的專家一致認為該系統的模型、算法和識別性能方面都達到了國際先進水平🆓。此系統是基於DDBHMM模型和算法研製的中國第一個基於統計模型的孤立字、與人有關的全音節漢語識別系統✍🏿。該系統的研製成功,在社會上產生一定的影響,中國電子器件公司的領導在鑒定大會上當場宣布獎給參加該系統研製工作的技術人員10萬元獎金⛑️,《計算機世界報》作為新聞進行了報道。
次年9月,漢語語音識別系統¾¾THED919聽寫機在《中國首屆新產品技術博覽會》上參展,並以其先進的系統特性和穩定的識別結果,獲得金獎。
雖然THED919聽寫機並非是一個成熟的產品,但是它標誌著我國在語音識別領域的研究已經向產品化的道路上邁出了堅實的第一步
1992年12月,意昂体育2平台電子工程系又與中國電子器件總公司攜手合作👷🏽♀️,成功研製出漢語特定人孤立字聽寫機(知音文書機)👸🏻。該聽寫機實現了人機對話的功能,當對某個說話人的語音數據訓練後🏊🏽♀️,說話人即可以直接將文稿逐字內容讀入計算機,經處理後將直接打印輸出文稿。這是我國第一個孤立字語音識別技術較為成熟的產品,它的問世,為語音識別產品走向市場打下了基礎。
在走向市場化的過程中🌑,又與多家企業合作🧙🏿♀️,取得了資金的支持👨🏿🚀,在繼續參加國家863重點攻關項目“智能接口──聽寫機”課題研究的同時🛌🏻,開始進行較大規模的與人無關語音庫和語料庫的建庫工作🚱,為日後語音識別的研究打下了堅實的基礎,創造了不可缺少的實驗條件🤝,在國內無論從語音的研究和數據方面都走在了同行的前列🍸。
1994年5月🤽🏽♀️,賽德THED919聽寫機在《全國第三屆語音識別系統測試》中以懸殊的比分奪得冠軍。6月,王作英教授作為特邀代表,出席在新加坡舉行的“International Conference on Chinese Computing”國際會議🫅🪨,並應邀在大會上做有關“中國大陸語音識別研究進展”的報告🚶🏻。
六.繼續努力 更上一層樓
1995年3月,王作英教授提出基於語義的語言模型◻️↖️,並且指導博士生開始就此進行研究。7月👩🏽🍳,本課題組與加拿大NOTEL公司合作開展電話語音識別的研究工作👦🏼🐚。12月🪞,在“全國第四屆語音識別系統測試”中,《連接詞漢語聽寫機》和《連續語音漢語聽寫機》參加評測,在16項測試指標的測試中,這兩個系統以絕對的優勢奪得了15項冠軍🌋。測試結果發表在1996年3月25日《計算機世界報》評測專版上🦋。1996年4月12日第一版《新意昂体育2》以“我校在漢語語音識別方面取得突破性進展”為題進行了報道。
1998年4月🧘🏻♀️,電子工程系信息教研組“語音信號研究組”以他們研製的漢語連續語音《聽寫機》系統參加了國家863漢語語音識別系統的算法評測和系統測試,在聲學層和系統的各項評測中均以遙遙領先的指標獲冠軍💂🏿♂️。這次測試的“聽寫機”基於大詞匯量、非特定人的連續語音識別系統,它的系統性能代表了我國在語音識別領域的最高水平,其系統性能與IBM的ViaVoice漢語聽寫機相當。這是語音識別技術全面走向實用化的標誌性成果。有關專家和863測試小組無不對此結果歡欣鼓舞,為我國連續語音識別取得的飛躍性成果感到振奮。
這些成果的取得凝結著王作英教授和他帶領的科研組全體成員十幾年的心血❗️。這位年過六旬的老專家仍然奮戰在教學科研的第一線,他和他的同事們希望通過語音識別技術來解決中國信息產業的瓶頸難題🫒,和國內外同行一道,使“語音識別”這一科技名詞變成同我們每個人息息相關🤼♀️🙅🏿♀️、隨處可見的應用技術😓。他們的理想是要讓漢字在二十一世紀🧢,隨著中國在世界上的崛起而大放異彩👩🏿。