123,123

今年3月時，谷歌在Next云計算大會上發(fā)布了面向開發(fā)者的新機(jī)器學(xué)習(xí)平臺，并開放語音識別的API，即谷歌語音搜索和語音輸入的支持技術(shù)。Google Cloud SPeech API一開始將免費(fèi)提供，以后再進(jìn)行收費(fèi)。這一應(yīng)用包括了80多種語言，適用于各種實(shí)時語音識別與翻譯應(yīng)用。

在開放背后，互聯(lián)網(wǎng)公司希望借此推動智能語音模型的進(jìn)一步演進(jìn)和智能語音技術(shù)的快速普及。

對于百度公布的四項語音技術(shù)，吳恩達(dá)告訴第一財經(jīng)記者，目前百度還沒有收費(fèi)的計劃，這些技術(shù)旨在解決用戶在使用語音交互的場合時，普遍感到困擾的一些關(guān)鍵問題。“目前的語音識別已經(jīng)超過了正常人的語音識別能力。”

以情感合成為例，主要是基于深度學(xué)習(xí)和大數(shù)據(jù)處理技術(shù)，在數(shù)據(jù)采集、處理、建模等環(huán)節(jié)進(jìn)行一系列創(chuàng)新，實(shí)現(xiàn)更接近人聲的富有表現(xiàn)力的自然朗讀效果。

讀者甘肅數(shù)碼科技有限公司總經(jīng)理金大時告訴記者，目前“讀者數(shù)字農(nóng)家書屋”在甘肅慶陽市試點(diǎn)，根據(jù)百度大數(shù)據(jù)合成情感語音實(shí)現(xiàn)書籍有聲閱讀，讓很多不識字的老年人和留守兒童也享受到了閱讀的樂趣。

而遠(yuǎn)場方案技術(shù)則是百度自主研發(fā)的遠(yuǎn)場識別技術(shù)，基于麥克風(fēng)陣列，利用麥克風(fēng)陣列束形成、語音增強(qiáng)、回聲消除、聲源定位等技術(shù)綜合實(shí)現(xiàn)高準(zhǔn)確率遠(yuǎn)場識別。

百度稱，開發(fā)者可以通過這一新的技術(shù)接口，使語音識別距離增加到3~5米，設(shè)備的語音喚醒率提升到95%以上，或解決長時間語音識別的準(zhǔn)確率問題。這將為語音技術(shù)帶來遠(yuǎn)比現(xiàn)在更多的想象空間，而不只是遙控電視或解鎖手機(jī)。

例如，百度在上海肯德基旗艦店投入使用的“小度機(jī)器人人機(jī)語音交互點(diǎn)餐”，可遠(yuǎn)距離隨時應(yīng)答點(diǎn)餐。

百度語音喚醒技術(shù)，主要是通過通用喚醒詞解析、大數(shù)據(jù)聲學(xué)模型、雙層解碼等技術(shù)優(yōu)化，喚醒率達(dá)95%，支持用戶自定義喚醒詞。喚醒二期加入指令喚醒，優(yōu)化喚醒和識別性能。

長語音技術(shù)則在LSTM （Long Short-Term Memory，一種時間遞歸神經(jīng)網(wǎng)絡(luò)）音頻切分技術(shù)、深度學(xué)習(xí)預(yù)測停頓、說話人自適應(yīng)、智能糾錯等方面技術(shù)突破。這意味著它將在方便語音輸入、內(nèi)容記錄、智能客服、視頻轉(zhuǎn)寫等應(yīng)用場景表現(xiàn)出想象空間。

這也令來到中國的斯坦福大學(xué)的人工智能專家James Landay感慨：“近兩年，受益于大數(shù)據(jù)和深度學(xué)習(xí)技術(shù)的不斷發(fā)展，語音識別技術(shù)突飛猛進(jìn)，速度及準(zhǔn)確性都有了長足進(jìn)步。”

智能語音混戰(zhàn)

語音技術(shù)作為人機(jī)交互方式的入口，是人工智能重要的一環(huán)。不只是 BAT（百度、阿里巴巴、騰訊），搜狗、科大訊飛等加速智能語音的布局，不少圍繞AI的創(chuàng)業(yè)團(tuán)隊如云知聲也都將語音作為探索人工智能的方向。

要想順利進(jìn)入這一領(lǐng)域，需要的是多年的技術(shù)與經(jīng)驗積累。

吳恩達(dá)告訴第一財經(jīng)記者，語音識別技術(shù)非常復(fù)雜，最難的是核心技術(shù)的提升，例如識別率的提升，幾年前語音識別率還只有80%多，當(dāng)時用起來還是相當(dāng)困難；還有大數(shù)據(jù)語音合成等，現(xiàn)在的目標(biāo)是如何才能遠(yuǎn)遠(yuǎn)超過人類的識別能力。此外，百度語音識別97%的準(zhǔn)確率是在比較安靜的環(huán)境下達(dá)到的目標(biāo)，在噪音干擾的情況下如何提升識別率，百度還有工作要做。

除了百度之外，可以看到的是，今年9月，騰訊云技術(shù)團(tuán)隊和微信AI團(tuán)隊開放微信語音處理技術(shù)，推出了智能語音服務(wù)。在語音識別、語音合成、聲紋識別等功能上提供了垂直領(lǐng)域定制化的語音產(chǎn)品。阿里的人工智能系統(tǒng)，已具備智能語音交互、圖像識別、交通預(yù)測、情感分析等功能。

在語音識別領(lǐng)域，搜狗 CEO 王小川在不久前的世界互聯(lián)網(wǎng)大會上透露，搜狗輸入法一天處理的語音輸入請求達(dá)到1.9億次，產(chǎn)生超過16萬小時的語音數(shù)據(jù)。在龐大的用戶基礎(chǔ)和數(shù)據(jù)積累后，可以把語音輸入做到更極致的狀態(tài)，如語音合成、聲紋識別等。

公開資料顯示，在技術(shù)指標(biāo)方面，百度語音識別、搜狗輸入法語音識別、訊飛輸入法語音識別準(zhǔn)確率達(dá)到97%，騰訊云智能語音識別技術(shù)在通用領(lǐng)域中準(zhǔn)確率達(dá)95%。

在投資人士看來，智能語音仍是一個好的投資機(jī)會。

此前，峰瑞資本早期項目負(fù)責(zé)人朱祎舟提到，盡管各家根據(jù)實(shí)驗數(shù)據(jù)得出的語音識別準(zhǔn)確率達(dá)到 95% 甚至更高，但在實(shí)際使用時并沒有那么高，前端的語音/聲學(xué)交互的很多問題如果得不到解決，整體的體驗始終不夠好；而包括家居、車載、可穿戴設(shè)備、機(jī)器人等大量智能終端的爆發(fā)，智能語音將變得更加友好和重要。

在IBM前全球副總裁、賽伯樂投資集團(tuán)總裁王陽看來，未來人工智能在醫(yī)療、無人駕駛、金融、零售、安防、個人助理等七個領(lǐng)域有強(qiáng)大的應(yīng)用空間。其中他提到，人工智能個人助理目前普遍應(yīng)用于智能手機(jī)上的語音助理，語音輸入、家庭管家等，最終是在收集消費(fèi)者的消費(fèi)習(xí)慣，從而提供各類服務(wù)。

Research and Markets研究報告顯示，預(yù)計2016年全球智能語音產(chǎn)業(yè)規(guī)模可達(dá)82.3億美元以上，到2020年，全球語音市場規(guī)模預(yù)計將達(dá)到191.7億美元。

分享到： QQ空間新浪微博騰訊微博人人網(wǎng) 網(wǎng)易微博

本文關(guān)鍵字：人工智能

上一篇：外資零售在華發(fā)展遇瓶頸家樂福多業(yè)態(tài)轉(zhuǎn)型前景幾何？
下一篇：萬家樂7.5億剝離廚衛(wèi)業(yè)務(wù) 聚焦輸電設(shè)備

相關(guān)文章

人工智能、區(qū)塊鏈和云，他們?nèi)绾斡绊懭肆Y源？	律師職位也不保了！人工智能辦案準(zhǔn)確率比律師高
馬云：我可以保證，三十年后孩子們找不到工作	科大訊飛正建立起智能應(yīng)用生態(tài)圈
人工智能人才遭瘋搶剛畢業(yè)的AI博士年薪近百萬	人工智能不斷進(jìn)化，哪些工作會被取代？
百度“軟硬雙施”	人工智能：第二次機(jī)器革命時代來臨

服務(wù)熱線010-82500808 手機(jī)網(wǎng)址m.cmr.com.cn

關(guān)注學(xué)院官方微信

混戰(zhàn)語音識別 人工智能的黎明快了

重要提示

混戰(zhàn)語音識別人工智能的黎明快了