指紋識(shí)別自20世紀(jì)初開始在警用領(lǐng)域獲得應(yīng)用,到2013年后借助在智能手機(jī)等消費(fèi)電子市場的快速爆發(fā)走入大眾視野,用了近100年;而人臉識(shí)別只用了五六年就造就了商湯、依圖、曠視、云從等“獨(dú)角獸”企業(yè),并在安防領(lǐng)域廣泛應(yīng)用。這個(gè)令人驚嘆的發(fā)展速度背后,是人工智能產(chǎn)業(yè)憑借深度學(xué)習(xí)算法上取得的突破、并在計(jì)算機(jī)視覺領(lǐng)域應(yīng)用的結(jié)果。同樣應(yīng)用深度學(xué)習(xí)算法技術(shù)的計(jì)算機(jī)聽覺與生物識(shí)別的結(jié)合——聲紋識(shí)別,或?qū)⒊蔀槔^人臉識(shí)別之后的下一個(gè)爆發(fā)的增長點(diǎn)。作為國內(nèi)屈指可數(shù)的聲紋識(shí)別技術(shù)開創(chuàng)者是如何看待這項(xiàng)技術(shù)未來的發(fā)展?聲揚(yáng)科技聯(lián)合創(chuàng)始人、CEO李亞桐近日在36氪WISE超級(jí)進(jìn)化者大會(huì)的主題演講中,分享了他作為生物識(shí)別從業(yè)者十五年來的洞見與思考。
身份認(rèn)證需求升級(jí)推動(dòng)AI技術(shù)與生物識(shí)別加速融合
近20年來,隨著互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,人們生活、工作、交流的方式都發(fā)生了翻天覆地的變化,越來越多原先“需要本人到現(xiàn)場辦理”的事項(xiàng),都可以通過打電話、發(fā)短信、上網(wǎng)或在手機(jī)APP上操作來遠(yuǎn)程自助辦理,隨之而來的是在沒有本人到場時(shí)仍能準(zhǔn)確認(rèn)證身份的安全問題——身份證件、數(shù)字密碼等存在的造假盜用成本低、容易丟失遺忘等弊端,引發(fā)了人們對更高安全性、便捷性的身份認(rèn)證方式的需求,而指紋、人臉、聲紋、虹膜、DNA等生物識(shí)別方式憑借“不會(huì)丟、不會(huì)忘、不易仿冒”的特性成為了身份認(rèn)證的主要方式。而人工智能技術(shù)的發(fā)展應(yīng)用在生物識(shí)別領(lǐng)域,大大提升了效率、準(zhǔn)確率和體驗(yàn)。“時(shí)不時(shí)會(huì)有人問我,人臉識(shí)別、指紋識(shí)別已經(jīng)很好用了,你們做聲紋識(shí)別如何與這些技術(shù)競爭?”

聲揚(yáng)科技李亞桐演講時(shí)說到,“各項(xiàng)生物識(shí)別技術(shù)都存在自身的局限性、應(yīng)用場景的無限豐富性這些問題,比如很多老人的指紋已經(jīng)磨損難以識(shí)別、打電話的過程中難以采集人臉和指紋等。因此,沒有任何一種生物識(shí)別技術(shù)可以滿足所有場景的需要,多種生物識(shí)別結(jié)合使用也成為滿足安全性、易用性和成本控制等方面的綜合需要。所以,聲紋識(shí)別與人臉識(shí)別或者指紋識(shí)別不是對立、競爭的關(guān)系,而是融合、互補(bǔ)的關(guān)系,實(shí)現(xiàn)1+1>2的效果。”
“錦上添花”和“非它不可”如何選擇
不同于指紋、虹膜、人臉等靜態(tài)的生理特征,聲紋蘊(yùn)含于千變?nèi)f化的動(dòng)態(tài)語音之中。即便同一個(gè)人兩次讀相同的內(nèi)容,也不一定能發(fā)出完全相同的聲音。正是聲紋這種“蘊(yùn)不變于萬變中”的特性,使得聲紋特征偽造起來更為困難,因此認(rèn)證強(qiáng)度更高、更安全。同時(shí),人類語音中還蘊(yùn)含著說話內(nèi)容、語義、語氣、語速、發(fā)音等豐富的信息,可與聲紋識(shí)別結(jié)合進(jìn)一步加強(qiáng)安全性。
正是關(guān)注到了聲紋作為動(dòng)態(tài)行為特征在應(yīng)用中帶來的安全性和易用性,扎根生物識(shí)別行業(yè)十五年的聲揚(yáng)科技CEO李亞桐,在完整經(jīng)歷了指紋、掌紋、靜脈、虹膜、人臉識(shí)別的應(yīng)用發(fā)展后,選擇將聲紋識(shí)別技術(shù)直接應(yīng)用到對安全等級(jí)要求最高的領(lǐng)域。

“創(chuàng)業(yè)之初,聲揚(yáng)科技就掌握聲紋識(shí)別、語音識(shí)別、前端語音信號(hào)處理等多項(xiàng)技術(shù),在尋找落地應(yīng)用場景時(shí),我們把能為客戶創(chuàng)造獨(dú)特價(jià)值放在第一位。我們認(rèn)為好的AI技術(shù)應(yīng)該是可靠的工具而非玩具,用語音識(shí)別身份在一些場景下非常有必要。比如幫助銀行、保險(xiǎn)、社保等金融機(jī)構(gòu)識(shí)別欺詐行為、降低貸款壞賬率、識(shí)別騙保行為、減少養(yǎng)老金流失等,又比如在公安系統(tǒng)內(nèi)利用語音作為電子物證,縮小嫌疑人偵查范圍、加快案件偵破速度、甚至對潛在的犯罪行為進(jìn)行監(jiān)測預(yù)警等,這才是我們技術(shù)創(chuàng)新者最期待看到的。”

經(jīng)得起高安全應(yīng)用場景考驗(yàn)的聲紋識(shí)別,才能玩得轉(zhuǎn)下一個(gè)十年的語音交互
人工智能技術(shù)的發(fā)展在近60年來經(jīng)歷三起三落,資本市場目前對于人工智能企業(yè)也從狂熱趨向于冷靜務(wù)實(shí),技術(shù)壁壘與落地應(yīng)用、平衡當(dāng)前與未來巨大的技術(shù)研發(fā)投入和營收回報(bào),是投資人同等看重的。李亞桐也在演講中分享了聲揚(yáng)科技的未來戰(zhàn)略,他認(rèn)為在未來兩到三年,只有經(jīng)過金融業(yè)、公安部門對安全、性能、技術(shù)、服務(wù)要求最苛刻的檢驗(yàn)和打磨,再面向更多通過金融和公安領(lǐng)域認(rèn)識(shí)到聲紋識(shí)別技術(shù)價(jià)值的行業(yè)去應(yīng)用時(shí),才會(huì)帶來符合用戶對智能語音交互預(yù)期的體驗(yàn),從而推動(dòng)整個(gè)智能語音產(chǎn)業(yè)持續(xù)發(fā)展。而聲揚(yáng)科技也會(huì)在智能語音發(fā)展的浪潮中,堅(jiān)持技術(shù)創(chuàng)新并將新技術(shù)投入社會(huì)最需要、哪怕是最難的領(lǐng)域,讓AI真正發(fā)揮價(jià)值。