“早在2010年的時候微軟Kinect出來后,僅僅3個月就銷售了800多萬臺,在我們看來3D視覺感知是革命性的方向,它實現(xiàn)了大腦人工智能的“耳眼”這一創(chuàng)新性功能。當時我們就著手開始研究,沒想到一研究就長達5年之久,到2014年年底的時候,基本上把主要的技術(shù)障礙和算法難題給克服了。”華捷艾米CTO周曉軍說到。
2017年5月11日,手機攝像頭領(lǐng)域最具有影響力的智能終端產(chǎn)業(yè)峰會之手機產(chǎn)業(yè)創(chuàng)新大會在深圳舉行。在大會演講中,華捷艾米CTO周曉軍重點分享了3D視覺感知、自然語言交互解決方案,并從3D視覺、3D感知芯片、3D測量模組、3D視覺感知相關(guān)算法、3D視覺感知關(guān)鍵技術(shù)、3D視覺感知的移動設(shè)備、3D視覺應(yīng)用方向等多維度方案及市場應(yīng)用方式,華捷艾米的3D視覺方案引起業(yè)內(nèi)高度關(guān)注。
周曉軍還談到,“未來世界就是萬物互聯(lián),人工智能無所不在,而隨著人工智能算法的進步,3D視覺算法的完善,帶有3D視覺的設(shè)備可以精確地進行3D手勢識別、人體骨架識別、物體3D輪廓識別、人臉3D識別,并可以進行空間計算與場景重構(gòu),并計算追蹤設(shè)備在空間中的運動姿態(tài)等。”
筆者了解到,具備3D測量算法和芯片、人物提取、骨架識別技術(shù)和動作跟蹤等算法技術(shù)等全套軟硬件技術(shù)的公司只有三家:微軟、蘋果(收購了primsense)和華捷艾米。
周曉軍對筆者稱:“使用結(jié)構(gòu)光方式實現(xiàn)3D視覺有3個技術(shù)難點。其一是發(fā)射模組的光柵設(shè)計,其二是3D測量算法,簡單點說就是激光器發(fā)射的紅外光經(jīng)過光柵形成一定模式的結(jié)構(gòu)光投射到物體之上,接收端采用紅外CMOS,拍攝到帶光斑的二維畸變圖像,通過算法生成3D深度數(shù)據(jù)。華捷艾米專門設(shè)計了一顆ASIC 3D測量的算法芯片,可以實時算出深度數(shù)據(jù)。”
要知道一旦攻克上述兩大難點,便可以做出深度照相機。例如目前Intel等公司都可以做到深度照相機這一功能。
還有一個核心的問題便是骨架算法。據(jù)悉,它可以把人從背景中提出來,而3D測量芯片輸出的深度圖是骨架算法的輸入源,有了骨架算法,就可以快速識別人的動作、姿態(tài)、手勢等等。華捷艾米的骨架算法,可以同時并實時識別6個人,每個人20個關(guān)節(jié)點,并且打破了微軟、蘋果(Primsense)對骨架算法的壟斷。
筆者現(xiàn)場了解到,華捷艾米的產(chǎn)品是最新的自主研發(fā)的3D視覺、自然語言交互解決方案,包括自主芯片、內(nèi)嵌3D測量的算法、骨架算法、手勢算法和其他應(yīng)用算法。華捷艾米能夠為智能手機、機器人、VR/AR等行業(yè)用戶提供搭載智能3D視覺算法的深度攝像頭,從而為行業(yè)客戶提供一站式的只能3D視覺感知、自然語言交互解決方案。例如在應(yīng)用端,可運用在三維人臉識別、醫(yī)療康復、教育、游戲和健身、看護陪伴、裝修裝飾、智能監(jiān)控、跳舞運動、機器人、老人看護、運用識別、自動取款機、虛擬換衣鏡等開創(chuàng)性的交互體驗。
華捷艾米自主研發(fā)的3D視覺感知、自然語言交互解決方案,最大的優(yōu)勢在于,技術(shù)層面,有自主芯片、內(nèi)嵌3D測量的算法和應(yīng)用算法,特別是2代芯片可以達到90幀/秒,這是什么概念?通俗點講就是完全實時。
其次,華捷艾米的競爭優(yōu)勢在于其技術(shù)積累,要知道在其自主完整的3D視覺感知解決早期便已經(jīng)和國內(nèi)一線電視廠商均有合作,其深度攝像頭更是的克服了抗變形的難點,而這一難點在算法中便已經(jīng)實現(xiàn)過濾。
其團隊更是精英齊齊,有專門的芯片設(shè)計團隊和算法研究團隊,在算法領(lǐng)域目前有20多位博士做相關(guān)研究,同時也和清華大學、中科院保持深度合作關(guān)系。
更值得一提的是,作為3D視覺領(lǐng)域非常重要的部件芯片,華捷艾米早在2014年便早已積極布局,獲悉,華捷艾米的一代3D測量芯片已經(jīng)量產(chǎn),該芯片可支持彩色攝像頭數(shù)據(jù)輸入,支持VGA分辨率,30FPS輸出,支持VGB深度圖、30FPS輸出;同時也支持QVGA深度圖,60FPS輸出,支持4路數(shù)字音頻輸入。
據(jù)筆者了解,華捷艾米手機芯片將于今年Q4量產(chǎn),其支持主流RGB攝像頭、1080P分辨率,拍照增強、美化、輸出3D人臉識別等功能;此外,在年底將內(nèi)置更多人工智能算法,應(yīng)用領(lǐng)域不僅持3D人臉識別,同時也支持摳圖、人體行為識別、語音、AR、人體與手持設(shè)備的配合等領(lǐng)域。
而遠場語音識別,是基于線性(環(huán)形)矩陣麥克風陣列的SSP技術(shù),有效抑制噪聲和混響,實現(xiàn)遠距離(超過5米)語音采集和語音識別,可以通過語音對設(shè)備進行精準的遠程語音控制,適用于智能家居、家電的交互場景。
毫無疑問,隨著3D攝像頭技術(shù)的不斷發(fā)展與創(chuàng)新行業(yè)應(yīng)用的推動,不僅在智能手機、機器人、金融領(lǐng)域還有人臉識別、安防、智能家居等領(lǐng)域都將在智能深度攝像頭的帶動下給我們帶來劃時代的交互新體驗。