毛片毛片毛片毛片毛片毛片小,欧美一级欧美一级,欧美一区二区三区四区五区

亚欧色视频_高清日韩一区二区|HD中文字幕在线播放,色偷偷欧美,女人16一级毛片,情欲办公室h

錯(cuò)誤信息

Deprecated function: Array and string offset access syntax with curly braces is deprecated in include_once() (line 20 of /home/webadmin/yitu0930/includes/file.phar.inc).

將中文語音識(shí)別率提升至96.29%, 依圖科技跨領(lǐng)域推出語音開放平臺(tái)

2018-12-11

計(jì)算機(jī)視覺（CV)是AI領(lǐng)域一大吸金賽道，也由此產(chǎn)生了商湯、云從、依圖、曠視這樣的“圖像四小龍”。而這四小龍之一的「依圖科技」卻率先拓寬邊界，踏入語音和自然語言處理（NLP)行業(yè)。

12月11日，依圖發(fā)布了依圖短語音聽寫API、和微軟Azure推出依圖語音開放平臺(tái)。

其實(shí)早在2016年，當(dāng)計(jì)算機(jī)視覺公司剛開始吸引投資人注意時(shí)，語音識(shí)別就開始規(guī)模化場(chǎng)景落地。現(xiàn)如今，百度、騰訊、京東、小米紛紛發(fā)布智能音箱，各種手機(jī)搭載語音交互，智能翻譯工具、智能客服等語音類產(chǎn)品層出不窮。

那么，相比同類產(chǎn)品，依圖語音技術(shù)的比較優(yōu)勢(shì)和市場(chǎng)空間會(huì)在哪里？在未來產(chǎn)品化落地上，依圖會(huì)有怎樣的規(guī)劃？圍繞這些問題，36氪獨(dú)家專訪了依圖科技首席創(chuàng)新官，前Google Research Scientist呂昊博士。

36氪首發(fā) | 將中文語音識(shí)別率提升至96.29%, 依圖科技跨領(lǐng)域推出語音開放平臺(tái)

依圖科技首席創(chuàng)新官呂昊博士

確實(shí)，這個(gè)時(shí)間點(diǎn)進(jìn)入語音行業(yè)挑戰(zhàn)重重，一則先發(fā)優(yōu)勢(shì)不再，二則市場(chǎng)擁擠，科大訊飛、BAT大廠紛紛入局，從技術(shù)上升到平臺(tái)生態(tài)，市場(chǎng)空間看似余地不多。

對(duì)此，呂昊表示：依圖團(tuán)隊(duì)對(duì)國內(nèi)現(xiàn)有的語音識(shí)別技術(shù)都做了調(diào)研，發(fā)現(xiàn)在不少場(chǎng)景下，語音識(shí)別效果并不理想，例如通話過程中的聲音轉(zhuǎn)寫準(zhǔn)確率低、遠(yuǎn)距離的聲音采集識(shí)別效果差、語料數(shù)據(jù)積累不足等。因此，依圖會(huì)從這些可優(yōu)化空間入手，對(duì)模型算法進(jìn)行打磨，提升識(shí)別率，降低字錯(cuò)率。

在語音識(shí)別領(lǐng)域，15%的字錯(cuò)率是一條紅線，超過則基本不具備可讀性，而低于3%則是可以被認(rèn)為具備類人的語音識(shí)別能力。然而，在實(shí)際說話過程中，人的語速、語氣、口音、語態(tài)等都會(huì)影響識(shí)別準(zhǔn)確度。此外，不同于英文，中文復(fù)雜的語言元素，以及同音不同意等問題為語音識(shí)別帶來了更大的挑戰(zhàn)。那么依圖如何應(yīng)對(duì)呢？

呂昊告訴36氪：當(dāng)前業(yè)內(nèi)缺乏系統(tǒng)性的標(biāo)準(zhǔn)測(cè)試和測(cè)試集，對(duì)于語音識(shí)別缺乏體驗(yàn)和比較的工具，為提升識(shí)別準(zhǔn)確率，依圖團(tuán)隊(duì)搜集了大量真實(shí)對(duì)話數(shù)據(jù)，以及專業(yè)類、生活類的細(xì)分語料庫，基于此，依圖提出了自己多維度、多場(chǎng)景的測(cè)試數(shù)據(jù)集，由此來對(duì)模型算法進(jìn)行訓(xùn)練和測(cè)試。

據(jù)悉，在基于全球最大中文開源數(shù)據(jù)庫的AISHELL-2的測(cè)試中，依圖短語音聽寫的字錯(cuò)率為3.71%，官方稱領(lǐng)先原業(yè)內(nèi)領(lǐng)先者科大訊飛約20%。在若干近場(chǎng)、混響、噪聲等公開測(cè)試集上，依圖平均字錯(cuò)率 6.39%，領(lǐng)先訊飛 11%。加入電話、口音、語音節(jié)目、遠(yuǎn)場(chǎng)演講等依圖內(nèi)部暫無法公開的測(cè)試集后（全部測(cè)試集共 50小時(shí)、60萬漢字），依圖平均字錯(cuò)率 8.27%，訊飛是9.30%，依圖仍然領(lǐng)先訊飛 11% 左右。

36氪首發(fā) | 將中文語音識(shí)別率提升至96.29%, 依圖科技跨領(lǐng)域推出語音開放平臺(tái)

基于不同數(shù)據(jù)測(cè)試集上，依圖語音識(shí)別技術(shù)的準(zhǔn)確率表現(xiàn)

其實(shí)，如果想實(shí)現(xiàn)真正意義上的語音交互，語音只是一部分，更重要的則是對(duì)語義的理解。如果我們把語音技術(shù)比作人的嘴巴和耳朵，用于表達(dá)和獲取；那么語義理解則是人的大腦，能夠幫助信息處理和解析。在語義理解方面，依圖同樣在進(jìn)行技術(shù)積累。

呂昊表示：雖然此次是從語音切入，但是團(tuán)隊(duì)一直是語音、語義兩線并行。2017年時(shí)，依圖就曾將自然語言處理（NLP)技術(shù)用于AI+醫(yī)療解決方案，結(jié)合自建的臨床中文知識(shí)圖譜，對(duì)醫(yī)學(xué)文本等多模態(tài)數(shù)據(jù)進(jìn)行解析和信息提取。今年，依圖的論文更入選NLP頂會(huì)EMNLP 2018，針對(duì)計(jì)算機(jī)語言學(xué)核心問題之一的指代理解提出全新數(shù)據(jù)集PreCo并對(duì)外開放。

此前，在視覺領(lǐng)域，依圖已經(jīng)在智慧城市、醫(yī)療、金融、零售等領(lǐng)域有了產(chǎn)品化、商業(yè)化積累。對(duì)于是否會(huì)將語音技術(shù)遷移于這些領(lǐng)域，呂昊回應(yīng)：這一階段仍舊以技術(shù)積累為主，依圖在開放平臺(tái)上提供了自有的API和模型算法，一方面可以經(jīng)由市場(chǎng)驗(yàn)證算法質(zhì)量，另一方面可以由此接近不同行業(yè)和場(chǎng)景。

據(jù)官方信息，依圖與微軟聯(lián)合發(fā)布的語音開放平臺(tái)基于Azure Cloud，將依圖的語音識(shí)別技術(shù)能力開放給廣泛第三方應(yīng)用開發(fā)者使用。

在未來，依圖計(jì)劃陸續(xù)開放長(zhǎng)語音轉(zhuǎn)寫API、實(shí)時(shí)語音轉(zhuǎn)寫API等。正如呂昊所說：希望為第三方應(yīng)用開發(fā)者在語音領(lǐng)域提供多一個(gè)語音技術(shù)選擇。

筆者認(rèn)為：結(jié)合自有的CV技術(shù)積累，依圖或許可在多模態(tài)情感識(shí)別和計(jì)算領(lǐng)域發(fā)力，融合視覺、語音等多重?cái)?shù)據(jù)，全方位提升機(jī)器的感知能力。在商業(yè)化層面，雖然當(dāng)下的依圖語音技術(shù)開放平臺(tái)仍舊以技術(shù)積累為重心，但依托CV積累的的B端用戶，為企業(yè)級(jí)客戶提供語音解決方案只是時(shí)間早晚問題。

————

您可以復(fù)制這個(gè)鏈接分享給其他人：http://www.emyjia.com/node/414