第197章 語音識別

智能音箱的硬件和一些生態內容,都已經搞定了,就差一個智能的軟件了。

要說智能音箱,智能纔是他的心臟部位。

但是智能這個詞語,聽起來很簡單,無非就是兩個字,但是做起來卻是“蜀道難,難於上青天。”這種感覺。

就拿那個喚醒詞來說吧,林奇決定要把那個喚醒詞去掉,可是研究了很久,還沒有研究到去掉喚醒詞的地步。

因爲在第一步的時候就被束縛了手腳,那就是語音識別。

近些年來人工智能裡面的機器學習發展的很是厲害,尤其是機器學習中的深度學習。

深度學習利用的是大於3層的神經網絡來學習,有輸入層,輸出層,中間還有很多隱藏層。

只需要把大量的數據提供過來,輸入給寫好的程序,運行一段時間之後,就會計算出來一個模型。

輸入的數據越多,運算的次數越多,一般情況下得出來的結果也越好。但是這裡面還有一個需要注意的就是不能太依賴於輸入的數據了,否則會出現過擬合的現象。

過擬合就是在給定的數據中,讓程序來預測某些結果,它能達到很高的準確性,比如99.999%,但是到了通用的數據下,這個模型表現的就很差,可能只有88%的準確性。

林奇開始的時候也是利用了深度多層神經網絡來進行訓練語音樣本的,因爲現在市面上最流行的就是種方法。

不過別的公司能採用這種是因爲他們有很多的音頻資料,並且都是用戶自己上傳的一些音頻素材,比如深信,月活躍量一度超過10億人,可想而知,每天用它發語音的有多少人,他能收集到多少的語音片段。

再比如尋她、搜貓和可大訊飛,他們三家公司都有自己的輸入法,每一個人都說自己的語音識別準確率最高,在手機上用這三種輸入法的大有人在,當然雖然在一些環境下用語音輸入很是麻煩,但是有一些特定的環境還是很不錯的。

所以他們收集到的來自真人的各種場景的語音片段,也是非常豐富的。

像上面的這些公司他們使用深度神經網絡來訓練語音模型,沒有任何問題。

但是第二智慧科技沒有IM聊天工具,也沒有語音輸入法,林奇也想過去這些公司買一些數據,用來訓練自己的語音識別庫,但是思來想去,還是落了下乘。

第二智慧科技要推出的智能音箱,最主要的一個環節的原料卻是從別人那裡購買的,雖然沒有什麼問題,但是林奇總覺得很彆扭。

後來林奇也想過去各大網站上面爬一些數據,有生物計算機在後面給自己的大力支撐,爬別人的數據,應該很方便。

林奇也真的去這麼做了,爲了限制頻率,還特意的限制了一些速度。就這樣爬了一些數據,但是這些數據拿到手裡,林奇發現有一個問題,那就是這些數據很多都是錄音棚,或者加工後的數據。

與用戶實際生活中,比如在地鐵上發的語音,在公交車上發語音,或者在大街上發語音,在家裡發語音都不太一樣,爬出來的數據很多都沒有環境音。

沒有環境音本身其實是好的音頻,但是對於做語音識別來說這個就非常不合適了,因爲做出來的模型不符合人們正常生活,與實際使用場景不符。

那就很尷尬了,就好比你說一個人很厲害,可以用劍殺惡龍,在有惡龍的世界裡面,他是當之無愧的英雄。

但是如果他來到了現實生活中,就一事無成。

無他,只是因爲現實生活中沒有惡龍來給他殺。一個殺雞的可能都比他在現實生活中,更容易生存下去。

最後林奇決定還是自己來搞這個模型,不僅僅語音識別是需要大量的數據,現在所有的涉及到深度學習的都是需要大量的數據來進行訓練。

林奇並不覺得這是絕對正確,就像我們人類一樣,比如一個新奇的物種,並沒有見過,然後你給他了一張照片,說這是神獸饕餮,然後等他再次看到的時候,他很容易就能認出來,那個是不是神獸饕餮。

林奇想做的是能通過少量的樣本就能訓練出來一個不錯的模型,這樣就可以解放語音的大數據。

同時一個人上手的時間更短,想想即使一個人口音很重,用了智能語音軟件說了幾十句話,或者十幾句話之後,準確率大大提高,可以堪比用標準的新聞聯播主持人那樣的普通話說出來的識別率。

其實在自然語言方面,林奇之前有一些經驗,是在創造自然語言編程的時候。

但是裡面設計到的多是語義的一些解析,沒有涉及到語音識別。

林奇相信只要自己能通過第一關卡,那麼後面的應該都很簡單。

爲了這個目的,林奇瘋狂的投入到了開發中。

林奇把每一個的漢字讀音都收集了起來,然後有語料數據的時候,林奇把這個語料做了一個分類。

一個是標準讀音串起來的語音,一個是真實的語音。

林奇先處理了真實語音,把真實語音分成了環境音和人聲。

接着又拿出來人聲和原來的標準讀音進行對比,找出來了兩者的差異。

經過不懈的努力,還真的找出來了同一個人在說不同話的時候有一些相同的東西。

就像不同地方的人有不同地方的口音一樣,一個人說話的時候,與標準的普通話有固定的“偏差”。

找出來了這個“偏差”,林奇非常興奮,他覺得這個可能是他最近一段時間研究,最大的成果了。

有那個處於地下四層之下的量子生物計算機的強大後盾,林奇研究出來了這個“偏差”,又基於這個做出來了一套新的語音模型。

這種新的模型,與市面上的模型都不一樣,市面上的模型都是一個固定的,比如a用戶和b用戶安裝後得到的都是一樣的模型。

而這個不一樣,開始安裝的時候都是一樣的,但是人們說的話越多,他得到的數據越多,就越精確,並且模型會根據這個人的語音輸入而變化,以至於可以達到千人千面,甚至億人億面。

這也是因爲第二智慧科技有生物計算機在後面作保證的,如果沒有這些功能和存儲都很厲害的生物計算機,這是不可能實現的。

第二智慧科技也有一支團隊在做語音識別,不過他們就是按照常規的深度學習來做的建模。

最近他們遇到了一個問題,找到了林奇這裡。

第249章 第一個使用者第119章 老虎發威第182章 訪談03第270章 書籍是人類進步的階梯第317章 實用的功能第291章 暗涌第203章 服務站的副業第一章:十年磨一劍 超級輔助系統第194章 硬件完成第四十二章:窮,貧窮(一更)第251章 好市長心中裝着百姓第319章 學業有成第247章 門鎖專家第308章 因人而異第九十章:燈下黑(二更)第195章 版權01第136章 生物計算機第204章 試用音箱和耳機第226章 火了,徹底火了第290章 示好第九十七章:突破,另一個難題(三更)第150章 web服務器第158章 配置套餐第317章 實用的功能第七十二章:換電池(一更)第141章 給你看個寶貝第223章 新鮮出爐第304章 基因融合第202章 悄悄上線第315章 原理解析第305章 兩個數字?你逗我呢系統第七十八章:軍方合作(二更)第219章 智能家居第五十五章:美麗團的跨界(四更)第255章 破冰第270章 書籍是人類進步的階梯第九十四章:繼續招人(三更)第262章 求我也沒用第八十五章:來自新原市的電話(三更)第246章 智能門鎖計劃第八十一章:外國人眼中的華夏(二更)第306章 科技樹歪了第106章 自主創新——量子通信芯片(三更)第209章 語音輸入02第244章 拔智齒引發的麻煩第178章 降維打擊第112章 嚇人技術,可否提前告知第256章 一炮而紅第九十七章:突破,另一個難題(三更)第282章 傳銷窩點?第220章 睡眠第245章 我來解決第127章 開發者大會01第八章:石墨烯鋰硫電池第181章 訪談02第八十八章:天然溶洞(三更)第258章 最安全的城市第193章 軟件硬件第277章 最後一戰第225章 公司來明星了第298章 支線任務的方向第183章 微秒級響應第二十六章:科二正式訓練第五章:勸學第一章:十年磨一劍 超級輔助系統第225章 公司來明星了第八章:石墨烯鋰硫電池第十六章:一朝成名天下知 任務完成第156章 高射炮打蚊子01第158章 配置套餐第234章 革新密碼第六十五章:紅杉資本領投(四更)第265章 跳樓第213章 反擊第316章 在億達再也不會迷路了第120章 禁止華夏的量子通信第287章 任務進度百分之一第八十三章:輻射(一更)第158章 配置套餐第173章 遊戲開發第166章 寒武紀01第七十七章:第二智慧的斂財能力(一更)第四十六章:一定是特別的緣分02(五更)第281章 墨水屏第118章 二選一 釜底抽薪第140章 自然語言第236章 新原市的福利第七章:電量不足 電池之殤第248章 頭腦風暴中的金點子第167章 寒武紀02第158章 配置套餐第221章 小白鼠第289章 遊隼系統第302章 人心不可測第五十七章:快充之無線充電(一更)第149章 地下工程第十九章:吃雞還是在線課堂第155章 一掌拍下第三十八章:向系統求助(二更)
第249章 第一個使用者第119章 老虎發威第182章 訪談03第270章 書籍是人類進步的階梯第317章 實用的功能第291章 暗涌第203章 服務站的副業第一章:十年磨一劍 超級輔助系統第194章 硬件完成第四十二章:窮,貧窮(一更)第251章 好市長心中裝着百姓第319章 學業有成第247章 門鎖專家第308章 因人而異第九十章:燈下黑(二更)第195章 版權01第136章 生物計算機第204章 試用音箱和耳機第226章 火了,徹底火了第290章 示好第九十七章:突破,另一個難題(三更)第150章 web服務器第158章 配置套餐第317章 實用的功能第七十二章:換電池(一更)第141章 給你看個寶貝第223章 新鮮出爐第304章 基因融合第202章 悄悄上線第315章 原理解析第305章 兩個數字?你逗我呢系統第七十八章:軍方合作(二更)第219章 智能家居第五十五章:美麗團的跨界(四更)第255章 破冰第270章 書籍是人類進步的階梯第九十四章:繼續招人(三更)第262章 求我也沒用第八十五章:來自新原市的電話(三更)第246章 智能門鎖計劃第八十一章:外國人眼中的華夏(二更)第306章 科技樹歪了第106章 自主創新——量子通信芯片(三更)第209章 語音輸入02第244章 拔智齒引發的麻煩第178章 降維打擊第112章 嚇人技術,可否提前告知第256章 一炮而紅第九十七章:突破,另一個難題(三更)第282章 傳銷窩點?第220章 睡眠第245章 我來解決第127章 開發者大會01第八章:石墨烯鋰硫電池第181章 訪談02第八十八章:天然溶洞(三更)第258章 最安全的城市第193章 軟件硬件第277章 最後一戰第225章 公司來明星了第298章 支線任務的方向第183章 微秒級響應第二十六章:科二正式訓練第五章:勸學第一章:十年磨一劍 超級輔助系統第225章 公司來明星了第八章:石墨烯鋰硫電池第十六章:一朝成名天下知 任務完成第156章 高射炮打蚊子01第158章 配置套餐第234章 革新密碼第六十五章:紅杉資本領投(四更)第265章 跳樓第213章 反擊第316章 在億達再也不會迷路了第120章 禁止華夏的量子通信第287章 任務進度百分之一第八十三章:輻射(一更)第158章 配置套餐第173章 遊戲開發第166章 寒武紀01第七十七章:第二智慧的斂財能力(一更)第四十六章:一定是特別的緣分02(五更)第281章 墨水屏第118章 二選一 釜底抽薪第140章 自然語言第236章 新原市的福利第七章:電量不足 電池之殤第248章 頭腦風暴中的金點子第167章 寒武紀02第158章 配置套餐第221章 小白鼠第289章 遊隼系統第302章 人心不可測第五十七章:快充之無線充電(一更)第149章 地下工程第十九章:吃雞還是在線課堂第155章 一掌拍下第三十八章:向系統求助(二更)