人工智能現(xiàn)在是個(gè)熱鬧的話題,但事實(shí)上,自動(dòng)駕駛、專業(yè)護(hù)理等備受投資者熱捧的領(lǐng)域,離真正的實(shí)用還遠(yuǎn)得很。而相比之下,同聲傳譯、語音翻譯等語言服務(wù),似乎更貼合當(dāng)下人們的實(shí)用需求。
唇語辨識(shí)辨是其中之一。據(jù)數(shù)據(jù)顯示,大多數(shù)人平均只能讀對(duì)一句唇語的十分之一。唇讀很困難,不僅是因?yàn)槟阋^察對(duì)方嘴唇、舌頭和牙齒的輕微運(yùn)動(dòng),而且大多數(shù)唇語信號(hào)十分隱晦,難以在沒有語境的情況下分辨。
現(xiàn)在,研究人員表示人工智能技術(shù),比如深度學(xué)習(xí)或許能夠解決這個(gè)難題。畢竟人工智能側(cè)重于大數(shù)據(jù)運(yùn)算,已經(jīng)幫助改善了機(jī)器語音識(shí)別,甚至能達(dá)到人類的水平。
據(jù)國(guó)外媒體報(bào)道,牛津大學(xué)人工智能實(shí)驗(yàn)室、谷歌DeepMind團(tuán)隊(duì)和加拿大高等研究院(CIFAR)就在近日聯(lián)合發(fā)布了一篇論文,介紹了結(jié)合深度學(xué)習(xí)技術(shù)的唇讀程序LipNet。
在GRID語料庫(kù)上,LipNet實(shí)現(xiàn)了93.4%的準(zhǔn)確度,超過了經(jīng)驗(yàn)豐富的人類唇讀者和之前的79.6%的最佳準(zhǔn)確度。研究人員還將LipNet的表現(xiàn)和聽覺受損的會(huì)讀唇的人的表現(xiàn)進(jìn)行了比較。平均來看,他們可以達(dá)到52.3%的準(zhǔn)確度,LipNet在相同句子上的表現(xiàn)是這個(gè)成績(jī)的1.78倍。除此之外,該模型將可變長(zhǎng)度的視頻序列轉(zhuǎn)換成文本的過程幾乎是實(shí)時(shí)的。
研究團(tuán)隊(duì)表示,在深度學(xué)習(xí)的幫助下,這種唇讀方式可以幫助有聽力障礙的人,尤其是在嘈雜的環(huán)境中。例如在聚會(huì)上,LipNet就可以錄制實(shí)時(shí)通話,并將信息清晰準(zhǔn)確地送到人們的耳中。只要有語音識(shí)別和攝像頭,在任何地方都可以實(shí)現(xiàn)這項(xiàng)服務(wù)。在未來,如果人們不想親自和計(jì)算機(jī)對(duì)話,只要?jiǎng)觿?dòng)嘴巴它就能知道你在說什么了。
不過,有專家指出,牛津大學(xué)的這一實(shí)驗(yàn)具有局限性。這一實(shí)驗(yàn)首先是基于GRID語料庫(kù)完成的,這其中包含34個(gè)志愿者錄的短視頻,所有的視頻都長(zhǎng)3秒。每個(gè)句子都是以這樣的模式出現(xiàn)的:命令、顏色、介詞、字母、數(shù)字、副詞等。由于這一模式下的詞句是有限的,只包含了四種不同的命令和顏色。
該團(tuán)隊(duì)的研究人員在接受國(guó)外科技媒體采訪時(shí)說道,他們正在努力地突破“有限的詞匯和語法”,“現(xiàn)在的數(shù)據(jù)集雖小,但它卻是一個(gè)好的跡象,將來我們會(huì)使用更大的數(shù)據(jù)集執(zhí)行任務(wù)。”
除此之外,研究團(tuán)隊(duì)強(qiáng)調(diào)這一成果不會(huì)用于窺探他人的隱私。很簡(jiǎn)單,因?yàn)榇阶x需要看到對(duì)方的舌頭,所以必須在光線很好的地方才能夠完成這一行為。若要竊密,除非拿著一個(gè)技術(shù)很高的相機(jī)對(duì)準(zhǔn)目標(biāo)對(duì)象,同時(shí)還要舉著一個(gè)麥克風(fēng)指向被竊者。
運(yùn)營(yíng)機(jī)構(gòu):鄂爾多斯國(guó)家級(jí)文化和科技融合示范基地管委會(huì)
Email:ordoswh123@163.com 服務(wù)電話:0477-8394929