什么是語音識別
語音或說話人識別是機器或程序接收和解釋聽寫或理解和執(zhí)行語音命令的能力。隨著人工智能(AI)和智能助手(如亞馬遜的Alexa和蘋果的Siri)的興起,語音識別獲得了突出和使用。
語音識別系統(tǒng)讓消費者只需與技術(shù)交談即可與技術(shù)進行交互,從而實現(xiàn)免提請求、提醒和其他簡單任務(wù)。語音識別可以使用自動語音識別 (ASR) 軟件程序識別和區(qū)分語音。某些 ASR 程序要求用戶首先訓(xùn)練程序識別其語音,以實現(xiàn)更準確的語音到文本轉(zhuǎn)換。語音識別系統(tǒng)評估語音的頻率、口音和語音流。
盡管語音識別和語音識別可以互換使用,但它們并不相同,必須進行關(guān)鍵的區(qū)分。語音識別識別說話人,而語音識別評估所說的話。
語音識別如何工作?
計算機上的語音識別軟件需要將模擬音頻轉(zhuǎn)換為數(shù)字信號,稱為模數(shù)轉(zhuǎn)換(A/D)。對于破譯信號的計算機,它必須有一個單詞或音節(jié)的數(shù)字數(shù)據(jù)庫,以及將這些數(shù)據(jù)與信號進行比較的快速過程。語音模式存儲在硬盤驅(qū)動器上,并在程序運行時加載到內(nèi)存中。比較器根據(jù)A/D轉(zhuǎn)換器的輸出檢查這些存儲的模式 - 這種操作稱為模式識別。
實際上,語音識別程序的有效詞匯量的大小與安裝它的計算機的RAM容量直接相關(guān)。與在硬盤驅(qū)動器中搜索某些匹配項相比,如果可以將整個詞匯加載到 RAM 中,則語音識別程序的運行速度要快很多倍。處理速度至關(guān)重要,因為它會影響計算機在 RAM 中搜索匹配項的速度。
為了清晰起見,還必須處理音頻,因此某些設(shè)備可能會過濾掉背景噪音。在某些語音識別系統(tǒng)中,音頻中的某些頻率被強調(diào),以便設(shè)備可以更好地識別語音。語音識別系統(tǒng)通過兩種模型之一分析語音:隱馬爾可夫模型和神經(jīng)網(wǎng)絡(luò)。隱馬爾可夫模型將口語單詞分解為音素,而遞歸神經(jīng)網(wǎng)絡(luò)使用前面步驟的輸出來影響當前步驟的輸入。
隨著語音識別技術(shù)用途的增長和越來越多的用戶與之交互,實施語音識別軟件的組織將有更多的數(shù)據(jù)和信息輸入語音識別系統(tǒng)的神經(jīng)網(wǎng)絡(luò)。這提高了語音識別產(chǎn)品的功能和準確性。
智能手機的普及為將語音識別技術(shù)添加到消費者口袋中提供了機會,而家用設(shè)備(如Google Home和Amazon Echo)則將語音識別技術(shù)帶入了客廳和廚房。
語音識別用途
隨著人工智能、機器學(xué)習(xí)和消費者接受度的成熟,語音識別的使用迅速增長。如何使用語音識別的示例包括:
虛擬助手。 Siri,Alexa和Google虛擬助手都實現(xiàn)了語音識別軟件來與用戶進行交互。消費者使用語音識別技術(shù)的方式因產(chǎn)品而異。但他們可以使用它來將語音轉(zhuǎn)錄為文本,設(shè)置提醒,搜索互聯(lián)網(wǎng)并回答簡單的問題和請求,例如播放音樂或共享天氣或交通信息。
智能設(shè)備。用戶可以使用語音識別軟件控制他們的智能家居,包括智能恒溫器和智能揚聲器。
自動電話系統(tǒng)。組織在其電話系統(tǒng)中使用語音識別,通過說出特定號碼將呼叫者定向到相應(yīng)的部門。
會議。語音識別用于為說話者提供實時字幕,以便其他人可以實時跟隨所說的文本。
藍牙。現(xiàn)代汽車中的藍牙系統(tǒng)支持語音識別,以幫助駕駛員將視線集中在道路上。駕駛員可以使用語音識別來執(zhí)行命令,例如“呼叫我的辦公室”。
聽寫和語音識別軟件。這些工具可以幫助用戶聽寫和轉(zhuǎn)錄文檔,而無需使用物理鍵盤或鼠標輸入文本。
政府。 國家安全局使用可追溯到2006年的語音識別系統(tǒng)來識別恐怖分子和間諜或驗證任何說話者的音頻。
語音識別優(yōu)缺點
語音識別提供了許多好處:
消費者可以通過直接與語音助手或其他語音識別技術(shù)交談來進行多任務(wù)處理。
視力有問題的用戶仍然可以與其設(shè)備進行交互。
機器學(xué)習(xí)和復(fù)雜的算法幫助語音識別技術(shù)快速將口語轉(zhuǎn)換為書面文本。
這項技術(shù)可以比某些用戶打字更快地捕獲語音。這使得記筆記或設(shè)置提醒等任務(wù)更快、更方便。
但是,該技術(shù)的一些缺點包括:
背景噪音會產(chǎn)生錯誤輸入。
雖然準確率正在提高,但所有語音識別系統(tǒng)和程序都會出錯。
聽起來相似但拼寫不同且含義不同的單詞存在問題 - 例如,聽到和這里。使用存儲的上下文信息可以在很大程度上解決此問題。但是,這需要更多的 RAM 和更快的處理器。
語音識別的歷史
語音識別技術(shù)在過去五十年中呈指數(shù)級增長。追溯到1976年,計算機只能理解1000多個單詞。隨著IBM繼續(xù)開發(fā)語音識別技術(shù),這一總數(shù)在20世紀80年代躍升至約20000人。
1952年,貝爾實驗室發(fā)明了AUDREY——自動數(shù)字識別器——它只能理解零到九的數(shù)字。20世紀70年代初至中期,美國國防部開始為語音識別系統(tǒng)的開發(fā)做出貢獻,資助了國防高級研究計劃局的語音理解研究。由卡內(nèi)基梅隆大學(xué)開發(fā)的Harpy是當時的另一種語音識別系統(tǒng),最多可以識別1011個單詞。
Dragon公司于1990年推出了第一款面向消費者的揚聲器識別產(chǎn)品Dragon Dictate。這后來被Nuance Communications的Dragon NaturallySpeaking取代。1997年,IBM推出了IBM ViaVoice,這是第一款可以識別連續(xù)語音的語音識別產(chǎn)品。
蘋果公司在2011年推出了Siri,它仍然是一款出色的語音識別助手。2016年,谷歌推出了手機谷歌助手。語音識別系統(tǒng)可以在手機、智能揚聲器、筆記本電腦、臺式機和平板電腦等設(shè)備中找到,也可以在Dragon Professional和Philips SpeechLive等軟件中找到。
在過去的十年里,其他幾位技術(shù)領(lǐng)導(dǎo)者開發(fā)了更復(fù)雜的語音識別軟件,例如亞馬遜Alexa。亞馬遜Alexa于2014年發(fā)布,也是一款響應(yīng)語音命令的個人助理。目前,語音識別軟件可用于Windows、Mac、Android、iOS和Windows手機設(shè)備。