計(jì)算機(jī)視覺(CV)是AI領(lǐng)域一大吸金賽道,也由此產(chǎn)生了商湯、云從、依圖、曠視這樣的“圖像四小龍”。而這四小龍之一的「依圖科技」卻率先拓寬邊界,踏入語音和自然語言處理(NLP)行業(yè)。

12月11日,依圖發(fā)布了依圖短語音聽寫API、和微軟Azure推出依圖語音開放平臺(tái)。

其實(shí)早在2016年,當(dāng)計(jì)算機(jī)視覺公司剛開始吸引投資人注意時(shí),語音識(shí)別就開始規(guī)模化場(chǎng)景落地。現(xiàn)如今,百度、騰訊、京東、小米紛紛發(fā)布智能音箱,各種手機(jī)搭載語音交互,智能翻譯工具、智能客服等語音類產(chǎn)品層出不窮。

那么,相比同類產(chǎn)品,依圖語音技術(shù)的比較優(yōu)勢(shì)和市場(chǎng)空間會(huì)在哪里?在未來產(chǎn)品化落地上,依圖會(huì)有怎樣的規(guī)劃?圍繞這些問題,36氪獨(dú)家專訪了依圖科技首席創(chuàng)新官,前Google Research Scientist呂昊博士。

36氪首發(fā) | 將中文語音識(shí)別率提升至96.29%, 依圖科技跨領(lǐng)域推出語音開放平臺(tái)

依圖科技首席創(chuàng)新官呂昊博士

確實(shí),這個(gè)時(shí)間點(diǎn)進(jìn)入語音行業(yè)挑戰(zhàn)重重,一則先發(fā)優(yōu)勢(shì)不再,二則市場(chǎng)擁擠,科大訊飛、BAT大廠紛紛入局,從技術(shù)上升到平臺(tái)生態(tài),市場(chǎng)空間看似余地不多。

對(duì)此,呂昊表示:依圖團(tuán)隊(duì)對(duì)國內(nèi)現(xiàn)有的語音識(shí)別技術(shù)都做了調(diào)研,發(fā)現(xiàn)在不少場(chǎng)景下,語音識(shí)別效果并不理想,例如通話過程中的聲音轉(zhuǎn)寫準(zhǔn)確率低、遠(yuǎn)距離的聲音采集識(shí)別效果差、語料數(shù)據(jù)積累不足等。因此,依圖會(huì)從這些可優(yōu)化空間入手,對(duì)模型算法進(jìn)行打磨,提升識(shí)別率,降低字錯(cuò)率。

在語音識(shí)別領(lǐng)域,15%的字錯(cuò)率是一條紅線,超過則基本不具備可讀性,而低于3%則是可以被認(rèn)為具備類人的語音識(shí)別能力。然而,在實(shí)際說話過程中,人的語速、語氣、口音、語態(tài)等都會(huì)影響識(shí)別準(zhǔn)確度。此外,不同于英文,中文復(fù)雜的語言元素,以及同音不同意等問題為語音識(shí)別帶來了更大的挑戰(zhàn)。那么依圖如何應(yīng)對(duì)呢?

呂昊告訴36氪:當(dāng)前業(yè)內(nèi)缺乏系統(tǒng)性的標(biāo)準(zhǔn)測(cè)試和測(cè)試集,對(duì)于語音識(shí)別缺乏體驗(yàn)和比較的工具,為提升識(shí)別準(zhǔn)確率,依圖團(tuán)隊(duì)搜集了大量真實(shí)對(duì)話數(shù)據(jù),以及專業(yè)類、生活類的細(xì)分語料庫,基于此,依圖提出了自己多維度、多場(chǎng)景的測(cè)試數(shù)據(jù)集,由此來對(duì)模型算法進(jìn)行訓(xùn)練和測(cè)試。

據(jù)悉,在基于全球最大中文開源數(shù)據(jù)庫的AISHELL-2的測(cè)試中,依圖短語音聽寫的字錯(cuò)率為3.71%,官方稱領(lǐng)先原業(yè)內(nèi)領(lǐng)先者科大訊飛約20%。在若干近場(chǎng)、混響、噪聲等公開測(cè)試集上,依圖平均字錯(cuò)率 6.39%,領(lǐng)先訊飛 11%。加入電話、口音、語音節(jié)目、遠(yuǎn)場(chǎng)演講等依圖內(nèi)部暫無法公開的測(cè)試集后(全部測(cè)試集共 50小時(shí)、60萬漢字),依圖平均字錯(cuò)率 8.27%,訊飛是9.30%,依圖仍然領(lǐng)先訊飛 11% 左右。

36氪首發(fā) | 將中文語音識(shí)別率提升至96.29%, 依圖科技跨領(lǐng)域推出語音開放平臺(tái)

基于不同數(shù)據(jù)測(cè)試集上,依圖語音識(shí)別技術(shù)的準(zhǔn)確率表現(xiàn)

其實(shí),如果想實(shí)現(xiàn)真正意義上的語音交互,語音只是一部分,更重要的則是對(duì)語義的理解。如果我們把語音技術(shù)比作人的嘴巴和耳朵,用于表達(dá)和獲取;那么語義理解則是人的大腦,能夠幫助信息處理和解析。在語義理解方面,依圖同樣在進(jìn)行技術(shù)積累。

呂昊表示:雖然此次是從語音切入,但是團(tuán)隊(duì)一直是語音、語義兩線并行。2017年時(shí),依圖就曾將自然語言處理(NLP)技術(shù)用于AI+醫(yī)療解決方案,結(jié)合自建的臨床中文知識(shí)圖譜,對(duì)醫(yī)學(xué)文本等多模態(tài)數(shù)據(jù)進(jìn)行解析和信息提取。今年,依圖的論文更入選NLP頂會(huì)EMNLP 2018,針對(duì)計(jì)算機(jī)語言學(xué)核心問題之一的指代理解提出全新數(shù)據(jù)集PreCo并對(duì)外開放。

此前,在視覺領(lǐng)域,依圖已經(jīng)在智慧城市、醫(yī)療、金融、零售等領(lǐng)域有了產(chǎn)品化、商業(yè)化積累。對(duì)于是否會(huì)將語音技術(shù)遷移于這些領(lǐng)域,呂昊回應(yīng):這一階段仍舊以技術(shù)積累為主,依圖在開放平臺(tái)上提供了自有的API和模型算法,一方面可以經(jīng)由市場(chǎng)驗(yàn)證算法質(zhì)量,另一方面可以由此接近不同行業(yè)和場(chǎng)景。

據(jù)官方信息,依圖與微軟聯(lián)合發(fā)布的語音開放平臺(tái)基于Azure Cloud,將依圖的語音識(shí)別技術(shù)能力開放給廣泛第三方應(yīng)用開發(fā)者使用。

在未來,依圖計(jì)劃陸續(xù)開放長(zhǎng)語音轉(zhuǎn)寫API、實(shí)時(shí)語音轉(zhuǎn)寫API等。正如呂昊所說:希望為第三方應(yīng)用開發(fā)者在語音領(lǐng)域提供多一個(gè)語音技術(shù)選擇。

筆者認(rèn)為:結(jié)合自有的CV技術(shù)積累,依圖或許可在多模態(tài)情感識(shí)別和計(jì)算領(lǐng)域發(fā)力,融合視覺、語音等多重?cái)?shù)據(jù),全方位提升機(jī)器的感知能力。在商業(yè)化層面,雖然當(dāng)下的依圖語音技術(shù)開放平臺(tái)仍舊以技術(shù)積累為重心,但依托CV積累的的B端用戶,為企業(yè)級(jí)客戶提供語音解決方案只是時(shí)間早晚問題。

————

 

您可以復(fù)制這個(gè)鏈接分享給其他人:http://www.emyjia.com/node/414