語(yǔ)音搜索技術(shù)的未來(lái)應(yīng)用
顏永紅,中科院聲學(xué)所中科信利語(yǔ)音識(shí)別實(shí)驗(yàn)室主任。
1990年畢業(yè)于清華大學(xué),1995年獲得美國(guó)俄勒岡研究院博士學(xué)位,后在該校任教,曾擔(dān)任OGI口語(yǔ)研究中心的副主任、英特爾微處理器實(shí)驗(yàn)室的主任工程師和人機(jī)界面總框架師,英特爾中國(guó)研究中心的主任和首席研究員,英特爾全球人機(jī)界面學(xué)術(shù)委員會(huì)主席。
2002年入選中科院百人計(jì)劃,任聲學(xué)所研究員、博士生導(dǎo)師,中科信利語(yǔ)音實(shí)驗(yàn)室主任和所長(zhǎng)助理。長(zhǎng)期從事人機(jī)界面研究工作,目前從事的研究領(lǐng)域:大詞表非特定人連續(xù)語(yǔ)音識(shí)別,多?谡Z(yǔ)系統(tǒng),嵌入式系統(tǒng),多媒體數(shù)據(jù)檢索,系統(tǒng)自適應(yīng)和快速搜索算法。
在不久的將來(lái),互聯(lián)網(wǎng)將成為一個(gè)浩大的音視頻檔案庫(kù),對(duì)下一代搜索引擎來(lái)說(shuō),語(yǔ)音識(shí)別技術(shù)是關(guān)鍵。
10年前,他曾是英特爾微處理器實(shí)驗(yàn)室的主任工程師和人機(jī)界面總框架師,英特爾中國(guó)研究中心的主任和首席研究員。
如今,他一手創(chuàng)辦的中科院聲學(xué)所中科信利語(yǔ)音識(shí)別實(shí)驗(yàn)室已發(fā)展成為國(guó)內(nèi)語(yǔ)言聲學(xué)領(lǐng)域規(guī)模最大、學(xué)科最全的實(shí)驗(yàn)室,與實(shí)驗(yàn)室同時(shí)成立的中科信利技術(shù)有限公司也取得了長(zhǎng)足的發(fā)展。
兩個(gè)“孩子”的長(zhǎng)大讓他倍感欣慰。而同時(shí),他錯(cuò)過(guò)了兩個(gè)寶貝女兒的成長(zhǎng),這是他最遺憾的。
“沒(méi)有什么后悔的,時(shí)間無(wú)法倒流,只能往前看!敝锌圃郝晫W(xué)所中科信利語(yǔ)音識(shí)別實(shí)驗(yàn)室主任顏永紅說(shuō)。
一項(xiàng)技術(shù),牽制搜索引擎
“在不久的將來(lái),互聯(lián)網(wǎng)將成為一個(gè)浩大的音視頻檔案庫(kù),對(duì)下一代搜索引擎來(lái)說(shuō),語(yǔ)音識(shí)別技術(shù)是關(guān)鍵!鳖佊兰t說(shuō)。
在浩繁的音視頻數(shù)據(jù)庫(kù)中,要查找出所需的音視頻片斷,已經(jīng)成為困擾互聯(lián)網(wǎng)搜索的難題——目前的技術(shù)主要是搜索音視頻的關(guān)鍵詞,比如音視頻的名字或作者,并沒(méi)有辦法搜索音視頻內(nèi)容。而通過(guò)語(yǔ)音識(shí)別技術(shù),可以把多媒體文件變成可識(shí)別的計(jì)算機(jī)語(yǔ)言,從而有效快速的實(shí)現(xiàn)準(zhǔn)確搜索。
事實(shí)上,語(yǔ)音識(shí)別技術(shù)也是各大公司競(jìng)爭(zhēng)的一大焦點(diǎn)。
去年11月份,谷歌推出的語(yǔ)音搜索引起極大關(guān)注。用戶(hù)只需在手機(jī)上安裝一個(gè)軟件,然后利用手機(jī)原有的麥克風(fēng),用普通話(huà)對(duì)手機(jī)說(shuō)出需要查詢(xún)的內(nèi)容,谷歌中文語(yǔ)音搜索會(huì)自動(dòng)返回整合的搜索結(jié)果。
“從實(shí)驗(yàn)室成立到現(xiàn)在,我們一直在做這方面的技術(shù)積累,很快,我們和國(guó)內(nèi)公司合作的語(yǔ)音搜索將面世!鳖佊兰t笑著說(shuō)。
目前,中科信利的中文電視廣播新聞節(jié)目識(shí)別系統(tǒng),就已經(jīng)被多家公司采用,并作為其提供給全國(guó)各電視臺(tái)的數(shù)字媒體管理系統(tǒng)中一個(gè)核心技術(shù)模塊。
這個(gè)系統(tǒng)立刻引起本報(bào)記者的強(qiáng)烈興趣——當(dāng)系統(tǒng)“收聽(tīng)”到一段“新聞聯(lián)播”節(jié)目,自動(dòng)將節(jié)目?jī)?nèi)容生成文字,并且識(shí)別準(zhǔn)確率驚人地高。
“那是不是我們的采訪錄音直接可以被轉(zhuǎn)化成文字?”記者頓時(shí)興致勃勃。
“現(xiàn)在還不行。”顏永紅笑著說(shuō),“因?yàn)檎Z(yǔ)音識(shí)別包括語(yǔ)言模型和聲學(xué)模型,新聞?wù)Z言可以建立語(yǔ)言模型,但口語(yǔ)卻很難建立語(yǔ)言模型!
在語(yǔ)音識(shí)別實(shí)驗(yàn)室里,視頻精確搜索已不是問(wèn)題。
在一段王楠比賽的視頻中,你只要輸入“側(cè)身?yè)尷、“前三板”等關(guān)鍵詞,就可以找到精確到秒的視頻。這就意味著,如果你想找一部電影里的精彩片段,只需記得其中的經(jīng)典臺(tái)詞即可搜索。
兩塊牌子,連起創(chuàng)新鏈條
顏永紅記得,語(yǔ)音實(shí)驗(yàn)室獲得的第一筆項(xiàng)目經(jīng)費(fèi)來(lái)自科技部863項(xiàng)目2003年語(yǔ)音識(shí)別領(lǐng)域的比賽。“我們的識(shí)別率是最高的,獲得了20萬(wàn)元的項(xiàng)目!
如今,上千萬(wàn)的課題在這里已不是新聞。他領(lǐng)導(dǎo)的這個(gè)年輕的團(tuán)隊(duì),已獲得授權(quán)發(fā)明專(zhuān)利22項(xiàng);軟件著作權(quán)登記36項(xiàng);有30余項(xiàng)發(fā)明專(zhuān)利正在審查中;在國(guó)內(nèi)外各種學(xué)術(shù)會(huì)議和刊物上,已經(jīng)發(fā)表了200多篇學(xué)術(shù)文章。
中科信利技術(shù)有限公司在業(yè)內(nèi)也小有名氣,人們將他看成顏永紅的“著作”之一。
事實(shí)上,8年前,公司的成立僅僅是給科研人員“畫(huà)了個(gè)餅”。
“科研人員不會(huì)成為富翁,但是至少應(yīng)該體面地工作、體面地生活,所以,成立一個(gè)公司,讓大家研發(fā)出來(lái)的技術(shù)有一個(gè)走出去的載體,這就是田靜所長(zhǎng)和我當(dāng)時(shí)的想法。”顏永紅說(shuō)。于是,在只有100多萬(wàn)元啟動(dòng)資金的情況下,中科信利成立。
萬(wàn)事開(kāi)頭難。“公司前幾年都沒(méi)有收入,最困難的時(shí)候甚至瀕臨倒閉了!闭f(shuō)這話(huà)時(shí),顏永紅是微笑的,但笑容背后的艱辛是旁觀者無(wú)法體會(huì)的,而他也不愿多言。
峰回路轉(zhuǎn),中科信利等到了第一次商機(jī)。其研發(fā)的產(chǎn)品嵌入式語(yǔ)音軟件被應(yīng)用在了手機(jī)上,這就是大家比較熟悉的語(yǔ)音撥號(hào)。
“有些人的手機(jī)里存了幾百上千個(gè)電話(huà)號(hào)碼,找起來(lái)很麻煩,安裝這一軟件后,只要對(duì)著手機(jī)叫出對(duì)方名字,即可調(diào)出他的資料。”顏永紅介紹道。
這個(gè)嵌入式語(yǔ)音軟件支持語(yǔ)音撥號(hào)、命令控制、來(lái)電短信提醒、語(yǔ)音讀出短信、連呼數(shù)字撥號(hào)等功能。此外,他們還開(kāi)發(fā)出基于分布式集群架構(gòu)的語(yǔ)音處理平臺(tái)TSE。
“在此之前,電信級(jí)語(yǔ)音識(shí)別引擎技術(shù)完全被美國(guó)公司壟斷,但現(xiàn)在我們完全有底氣說(shuō),我們占據(jù)了大半壁江山!毖灾链耍佊兰t的語(yǔ)調(diào)高了很多。確實(shí),在國(guó)內(nèi),真正能夠?qū)⒄Z(yǔ)音識(shí)別產(chǎn)品拿出來(lái),放在電信網(wǎng)上規(guī)模使用的,也只有中科信利。
語(yǔ)音實(shí)驗(yàn)室承擔(dān)著國(guó)家科研任務(wù),中科信利公司開(kāi)發(fā)語(yǔ)音技術(shù)產(chǎn)品,這兩個(gè)牌子的作用互為配合,相得益彰。顏永紅介紹說(shuō):“實(shí)用技術(shù)的推廣應(yīng)用,不是所有實(shí)驗(yàn)室的人員能夠勝任的事情。在科技創(chuàng)新的整個(gè)鏈條上,我們分為概念產(chǎn)生、原理研究、原理性樣機(jī)研制、產(chǎn)品化、市場(chǎng)推廣,總共為五個(gè)階段。語(yǔ)音實(shí)驗(yàn)室基本承擔(dān)前三段,后兩段則由中科信利技術(shù)有限公司完成。”
“十一五”期間的策略是由公司支持實(shí)驗(yàn)室,而“十二五”期間,需要大力發(fā)展公司。顏永紅說(shuō):“下一步我們需要積極探索,怎樣通過(guò)發(fā)展公司帶來(lái)更多機(jī)會(huì),打破實(shí)驗(yàn)室發(fā)展的瓶頸!
——— 學(xué)生印象 ———
他已經(jīng)過(guò)了要勤奮的年紀(jì),但對(duì)他而言勤奮已成為一種態(tài)度
對(duì)于成績(jī)的取得,顏永紅反復(fù)說(shuō):“多虧了中科院和聲學(xué)所領(lǐng)導(dǎo),以及各方面的關(guān)心支持!
而在許多人看來(lái),更為重要的或許是他身體力行的“拼命三郎”的精神——早上不論多早,晚上不論多晚,人們都能在語(yǔ)音實(shí)驗(yàn)室的大樓看見(jiàn)他忙碌的身影。
董濱是顏永紅培養(yǎng)的第二位學(xué)生,2006年博士畢業(yè)后他進(jìn)入一家日本企業(yè)的研究機(jī)構(gòu)工作,但一年后他選擇回到實(shí)驗(yàn)室!邦伬蠋熃o我最大的影響是勤奮!毕肓讼耄终f(shuō)道,“應(yīng)該叫敬業(yè)吧,勤奮用來(lái)形容他似乎不太合適。”
也許在學(xué)生看來(lái),顏老師已經(jīng)過(guò)了要勤奮的年紀(jì)。但對(duì)于顏永紅自己而言,勤奮早已成為一種態(tài)度。
前幾年,顏永紅是大家公認(rèn)的“來(lái)得最早,走得最晚的人”。而現(xiàn)在,他不得不承認(rèn):“精力不如從前了,來(lái)得最早還能做到,但已經(jīng)不是走得最晚的人了!
但他對(duì)學(xué)生的第一要求依然是勤奮。
“面試研究生時(shí),我一般都問(wèn)兩個(gè)問(wèn)題:你想達(dá)到什么樣的目標(biāo),你是否足夠勤奮。這兩個(gè)問(wèn)題可不是那么好回答的,它是用接下來(lái)幾年時(shí)間去驗(yàn)證的。”顏永紅說(shuō)。
“我覺(jué)得自己這個(gè)導(dǎo)師當(dāng)?shù)眠行,這幾年我培養(yǎng)的9名博士生中,有4個(gè)拿到了中科院的院長(zhǎng)獎(jiǎng)勵(lì),一位是院優(yōu)秀畢業(yè)生,兩位是‘微軟學(xué)者’!睂(duì)于顏永紅來(lái)說(shuō),這個(gè)成績(jī)單顯然比研發(fā)出任何一種新技術(shù)更重要。
——— 兒女情長(zhǎng) ———
和科研團(tuán)聚,與家人分離
2002年11月,一則新聞讓顏永紅走進(jìn)公眾視野:曾任英特爾中國(guó)研究中心主任、首席研究員的顏永紅,和他麾下的6位科研人員,先后集體“跳槽”,來(lái)到中科院聲學(xué)研究所,組建中科信利語(yǔ)音實(shí)驗(yàn)室。
甚至有媒體以這一事件為切入口,來(lái)討論跨國(guó)企業(yè)的用人戰(zhàn)略調(diào)整等等。
這么大的動(dòng)靜或許是顏永紅沒(méi)想到的。
其實(shí)早在2001年4月,顏永紅就離開(kāi)英特爾中國(guó)研究中心,回到美國(guó)俄勒岡研究院工作了一段時(shí)間!耙?yàn)槲姨秃⒆佣荚诿绹?guó),聲學(xué)所田靜所長(zhǎng)當(dāng)時(shí)和我談的是每年回國(guó)工作3個(gè)月,后來(lái)事情太多,我自己就基本上全年都在國(guó)內(nèi)了,所以說(shuō),我是一步一步走回來(lái)的。”顏永紅頗有些調(diào)侃地說(shuō)。
2004年6月份,當(dāng)他在俄勒岡研究院的博士生畢業(yè)離校時(shí),顏永紅也正式辭職回國(guó)。
他的太太和兩個(gè)女兒,至今還生活在美國(guó)。“孩子們?cè)谀抢锍錾L(zhǎng)大,估計(jì)很難適應(yīng)國(guó)內(nèi)的教育強(qiáng)度!鳖佊兰t說(shuō)。
這8年里,他經(jīng)歷了酸甜苦辣。最苦的莫過(guò)于對(duì)妻女的思念。“我回國(guó)的時(shí)候大女兒6歲,小女兒4歲,一個(gè)父親,錯(cuò)過(guò)了孩子成長(zhǎng)中最關(guān)鍵的時(shí)刻,這是我這輩子都沒(méi)辦法彌補(bǔ)的遺憾。”顏永紅輕聲說(shuō),“每次我從美國(guó)回來(lái)的前一天,都能感覺(jué)到她們的情緒很低落,出門(mén)的時(shí)候真的很心酸!
好在有了視頻聊天,“至少現(xiàn)在我每天都能看到她們了。”每天早上7點(diǎn)鐘,只要不開(kāi)會(huì),顏永紅到辦公室的第一件事就是上網(wǎng)和她們聊天,因?yàn)檫@個(gè)時(shí)間剛好是美國(guó)波特蘭下午三點(diǎn)鐘女兒們放學(xué)回家的時(shí)候。