語言和語音是人類獲得的第一種通訊手段,也是人類進化的主要動力之一。因此,語音識別一直是計算機領(lǐng)域的圣杯,人們希望語音激活電腦,以獲得信息、建議、交易等等,但是過去語音識別一直更多是幻想而非現(xiàn)實。
現(xiàn)在,語音的時代終于到來了,因為深度神經(jīng)網(wǎng)絡(luò)等人工智能技術(shù)的進步,以及圖形處理單元(GPU)硬件的成熟,使得通過大量語音數(shù)據(jù)來訓(xùn)練語音引擎達到更高精度成為可能。
語音識別在印度可能尤為重要,早在《摩柯婆羅多》時代印度就一直是一個口頭社會,信息一直是靠口耳相傳,沒有使用電腦打字搜索的歷史,個人電腦推動了在線革命:文盲、多語言都意味著除了文字還需要有其他與數(shù)字世界互動的方式。廉價的智能手機和數(shù)據(jù)流量讓印度在移動時代發(fā)展迅速,手機正是作為語音交互的完美載體。
2017年,印度30%的搜索是用語音發(fā)起的。印地語搜索一年內(nèi)增長了400%,這證明了人們對于當(dāng)?shù)卣Z言的在線工具和內(nèi)容有著巨大的需求。
認識到語音技術(shù)在印度的巨大潛力,全球最重要的語音研究會議——Interspeech于今年9月首次在印度召開,主題就是新興市場多語言社會的語言研究,數(shù)百名研究人員展示了他們對深度神經(jīng)網(wǎng)絡(luò)、激活喚醒功能和超參數(shù)模型研究獲得的進展。印度眾多的語言、方言、口音是研究人員挑戰(zhàn)語音識別的理想試驗場。無論是百度還是谷歌,或者臉書和微軟都認為本地語言的語音識別對于觸達另外的3億使用其他語言印度人的重要性,亞馬遜和沃爾瑪?shù)壬虡I(yè)巨頭已經(jīng)認識到要發(fā)掘出印度市場的潛力,僅僅針對英語水平最高的那10%的印度人是遠遠不夠的。
使用當(dāng)?shù)卣Z言的印度讀者才是真正的市場,而通向多語種印度的競賽已經(jīng)開始,上個月Flipkart收購了Liv.ai,一個語音技術(shù)領(lǐng)域的初創(chuàng)企業(yè)要叫板亞馬遜的Alexa,亞馬遜上周發(fā)布了一個印地語網(wǎng)站,谷歌和微軟也正式推出了自己的印度語項目。不管怎樣,印度消費者都將是這場競爭的贏家,印度有著豐富的多樣性用戶,將成為研究人員、企業(yè)家的溫室,資本也將協(xié)助共同打造一個全球語音技術(shù)的巨頭和語音互聯(lián)網(wǎng)。【環(huán)球網(wǎng)科技報道 記者 張陽】
關(guān)鍵詞: