虛擬現(xiàn)實（VR）和增強現(xiàn)實（AR）背后的核心技術

來源：納金網(wǎng) | 責任編輯：傳說的落葉 | 發(fā)布時間： 2019-01-25 10:10 | 瀏覽量：

作者：Rocky

AR 和 VR 是兩個不同的概念。題主說的Magic Leap自己提了個HR還是MR的概念，就是混合現(xiàn)實。個人以為——“別以為你換個馬甲我就不認識你了！” 本質上其實就是AR。

首先說一個基本概念，如果說VR硬件制造的難度等同造汽車，那么AR硬件的制作難度就等同于造宇宙飛船。為啥等我慢慢細說～

VR主要的核心點在于三個

1. 全視角的虛擬畫面。這個就像你用IPHONE拍全景圖一樣，要生成一個實時動態(tài)的360度可見的世界，所謂的虛擬世界就是這么個基礎。這個目前來說，通過既有的3D游戲引擎可以輕松實現(xiàn)。

2. 虛擬世界和現(xiàn)實世界的同步。這個東西聽起來比較玄妙，其實原理不難。首先了解用戶頭部或者眼部的旋轉動作，如果有偵測行走的，還需要偵測行走距離，然后快速、準確的反應到虛擬世界中去。比如腦袋轉了半圈，那么虛擬世界中畫面也要轉相應的角度，這個是目前VR領域最最重要的。人們常說戴上VR頭盔、眼鏡時候有眩暈感，這個眩暈感就來自于不同步。但技術并不是什么高大上的技術，綜合來講，就是九軸動作感應器和相應的算法，難的是快、準。

3. 控制。這個各家有各路，有些是游戲手柄，有些是體感手柄，不細說了～

當然還有一些顯示部分的，屏幕分辨率與放大鏡片，但因為不需要考慮太多現(xiàn)實環(huán)境制約，各家沒什么大區(qū)別。還有一些物理尺寸制約什么的。就不講了。

轉到AR，就是個技術巨坑了，AR的重點在于和現(xiàn)實世界疊加的顯示。那么

STEP1：

感知和分析現(xiàn)實世界，要在對的位置顯示對的內(nèi)容，那就涉及到計算機視覺，深度傳感器，gps等等，目的就是要讓機器看懂你看到的絕大部分環(huán)境。這個就是微軟Hololens和Magic Leap比最早google glass的高明之處。

STEP2:

基于第一步之后的近眼現(xiàn)實疊加，那么就有兩個點，AR設備不可能像VR設備一樣不再介意個頭大小。那么就帶來一系列的問題，在最短的距離里實現(xiàn)虛擬畫面。

光學反射，早期的Google glass就是基于光學反射，有點混合了投影、反射式望遠鏡的原理，基本能實現(xiàn)3米外40寸左右的畫面，但也只能在這個大小和距離，那就無法真正把信息疊加到對的位置。這是目前唯一有量產(chǎn)的技術，這個也是O.S.G 開源智能眼鏡的光學顯示起點。

光柵衍射，這個是Lumus的技術，通過分割畫面后多次反射，實現(xiàn)更薄更小的顯示。但制造精度要求高。至今也沒有量產(chǎn)。

光場技術，光場技術簡單通俗的來說。就是通過運算出不同景深的圖像。通過對人眼焦距的分析，通過投射的方式讓用戶看到的虛擬畫面跟真實畫面在視覺上看起來是一致的。簡單的來說，就是類似昆蟲復眼的成像方式。目前只有nvidia的研究項目pinlights display有演示過。

作者：陳兒

AR是人工智能和人機交互的交叉學科，基礎技術包括CV（計算機視覺）、機器學習、多模態(tài)融合等，借凌老師去年的一篇文章簡單科普AR技術。

作者亮風臺信息科技首席科學家凌海濱

一、從現(xiàn)實到增強現(xiàn)實

增強現(xiàn)實（AugmentedReality，簡稱AR）和虛擬現(xiàn)實（VirtualReality，簡稱VR）概念的出現(xiàn)已經(jīng)有了幾十年的歷史了，然而VR/AR大量出現(xiàn)在科技媒體上吸引各方眼球也就是最近的事情。

AR中的R是真實的R，相比之下，VR中的R就是個山寨版的。那么A這個增強的概念就比較廣大虛了：籠統(tǒng)的說，凡是能對R有附加額外的信息的都算。再次強調的是，AR里面的信息是疊加到真實的場景里面的，而不是虛擬的場景（即VR）里面的。一個有意思的小眾研究方向是將一部分真實場景中的內(nèi)容疊加到虛擬場景中，學名AugmentedVirtualization，簡稱AV。圖2中的例子也許能更好地反映AR和VR的區(qū)別。上方顯示的是典型的VR設備和人眼接收到的VR影像，下方則是AR設備和AR影像。簡而言之VR和AR的區(qū)別是：VR是趨近現(xiàn)實；AR是超越現(xiàn)實。

接下來我們主要討論AR，重點討論AR和VR不同的那一部分。

二、AR中的視覺技術

增強現(xiàn)實技術流程

按照Ronald Azuma在1997年的總結，增強現(xiàn)實系統(tǒng)一般具有三個主要特征：虛實結合，實時交互，和三維配準（又稱注冊、匹配或對準）。近二十年過去了，AR已經(jīng)有了長足的發(fā)展，系統(tǒng)實現(xiàn)的重心和難點也隨之變化，但是這三個要素基本上還是AR系統(tǒng)中不可或缺的。

上圖描繪了一個典型的AR系統(tǒng)的概念流程。從真實世界出發(fā)，經(jīng)過數(shù)字成像，然后系統(tǒng)通過影像數(shù)據(jù)和傳感器數(shù)據(jù)一起對三維世界進行感知理解，同時得到對三維交互的理解。3D交互理解的目的是告知系統(tǒng)要“增強”的內(nèi)容。

在AR的技術流程中，中間的對于環(huán)境和交互的精準理解就是目前的瓶頸了。上圖中間的基于多模態(tài)（簡單說就是影像+傳感器）的環(huán)境和交互理解，是兩個充滿了各種或明或暗的坑的領域，足以讓很多假的猛士知難而退。

環(huán)境和交互理解的難點和機會

那么，真的猛士將會直面什么樣慘淡和淋漓的坑群呢？下面我們來共同賞析幾個常見坑型：

1、環(huán)境坑：據(jù)說人的腦細胞里面大多數(shù)都是用來處理和理解雙眼所獲取的視覺信息的，很多我們驚鴻一瞥就能理解和感知的東西得益于我們強大的腦處理能力。各種環(huán)境變化對視覺信息的影響我們不但能輕松應對，有時還能加以利用。比如我們的認知能力對光照明暗的變化相當?shù)聂敯簦槐热缥覀兛梢酝ㄟ^陰影來反推三維關系。而這些對于計算機（確切些說是計算機視覺算法）來說都是不折不扣的坑或者大坑。總的來說，成像環(huán)境的變化常常計算機視覺算法以及AR帶來很大的挑戰(zhàn)，所以我把相關的坑統(tǒng)稱環(huán)境坑。

2、學術坑：對于環(huán)境和交互的理解重建基本上屬于計算機視覺的范疇，計算機視覺是一個有著半個世紀積累的領域，和AR相關的學術成果可以成噸來計。夸張一點的說，每篇都有坑，區(qū)別只在大小深淺明暗。從實用的解決方案的角度來看學術論文，尤其是新的論文，一定要小心其中的設定和有些話外的信息，多想一下諸如該算法是否對光照敏感，是否可能在手機端達到實時，等等。簡單的建議是：對于一篇計算機視覺的論文，未有相關經(jīng)驗的觀眾請在有相關訓練的成熟觀眾陪伴下謹慎觀看。

3、上帝坑：上帝是誰？當然就是用戶了。上帝的坑當然得長得有創(chuàng)意，常常激起開發(fā)者靈光一動恍然大哭的欲望。比如上帝說，要能判別視頻中人的性別，80%的準確度，100萬。哇，你是不是感動的熱淚盈眶（仁慈的上帝?。?，用各種時髦的方法輕松超額10%搞定?？墒?，交貨的時候上帝說你這個系統(tǒng)咋認不出我們家小baby的性別??！Oh my God，你是不是又激動得想哭了。和環(huán)境坑比較像，CV的算法很多時候是需要有假設的，強烈的假設。那怎么辦呢？上帝總是正確的，所以唯一的辦法就是盡早教育上帝讓他更加正確：需要苦口婆心地盡早和用戶科普以及盡量明確定義需求，防范坑于未成。還不行的話咋辦？上帝啊，請再加點工錢吧。

其實還有其他類型的坑，比如開源代碼坑，這里就不詳述了。那么，這么一個充滿憂患的領域，為什么又會有那么多追隨呢？最重要的原因就是巨大的應用前景和錢景了。往小了說，很多具體的應用領域（比如游戲）都已經(jīng)成功地引入了AR的元素；往大了說，AR的終極形態(tài)可能從根本上改變當前的非自然人機交互模式（請腦補微軟Win95的成功和現(xiàn)在的HoloLens）。上面說的那些坑，在很多是應用上，是可能避免的或者可能填得不那么深的?？偟膩碚f，一個好的AR應用往往是需要算法工程實現(xiàn)、產(chǎn)品設計、內(nèi)容制作等方面的深度結合。

AR跟蹤配準技術發(fā)展

三維配準是鏈接虛實的最核心技術，沒有之一。大致說來，在AR中配準的目的是對影像數(shù)據(jù)進行幾何上的精確理解。這樣一來，就決定了要疊加的數(shù)據(jù)的定位問題。比如說，在AR輔助導航中如果想把導航箭頭“貼在”路面上，就一定要知道路面在哪里。在這個例子中，每當手機攝像頭獲取到新一幀圖像，AR系統(tǒng)首先需要將圖像中的路面定位，具體的說就是在某個事先設定的統(tǒng)一的世界坐標系下確定地面的位置，然后將要貼的箭頭虛擬地放在這個地面上，再通過與相機相關的幾何變換將箭頭畫在圖像中相應的位置（通過渲染模塊完成）。

如前所述，三維跟蹤配準在技術上存在很多挑戰(zhàn)，尤其在考慮到移動設備有限的信息輸入和計算能力的情況下。鑒于此，在基于視覺AR的發(fā)展歷程中，經(jīng)歷了從簡單定位到復雜定位的幾個階段，下面簡單介紹一下這個發(fā)展過程，更多的技術細節(jié)在下一節(jié)討論。

二維碼：和大家如今廣為使用的微信二維碼原理一樣，二維碼主要的功能在于提供穩(wěn)定的快速的識別標識。在AR中，除了識別以外，二維碼還兼職提供易于跟蹤和對于平面進行定位的功能。因為這個原因，AR中的二維碼比一般的二維碼來說模式顯得簡單以便于精確定位。下圖給出了AR二維碼的例子。

二維圖片：二維碼的非自然人工痕跡很大得局限了它的應用。一個很自然的拓廣是使用二維圖片，比如紙幣、書本海報、相片卡牌等等。聰明的小白朋友一定已經(jīng)發(fā)現(xiàn)：二維碼本身也是二維圖片，那為啥不把二維碼的方法直接用到二維圖片上呢？哦，是醬紫：二維碼之所以簡單就是因為它上面的圖案是設計出來的讓視覺算法可以迅速的識別定位的，一般的二維圖片則不具備這種良好的性質，也需要更強大的算法。并且，不是所有的二維圖片都可以用來進行AR定位的。極端情況下，一個純色的沒有任何花紋的圖片是無法用視覺的方法定位的。下圖例子中，兩張卡牌用來定位兩個對戰(zhàn)重點的虛擬戰(zhàn)士。

三維物體：二維圖片的自然擴展當屬三維物體。一些簡單的規(guī)則三維物體，比如圓柱狀可樂罐，同樣可以作為虛實結合的載體。稍微復雜一些的三維物體通常也可以用類似的方法處理或分解成簡單物體處理，如在工業(yè)修理中的情況。但是，對于一些特定的非規(guī)則物體，比如人臉，由于有多年的研究積累和海量的數(shù)據(jù)支持，已經(jīng)有很多算法可以進行實時精準對齊。然而，如何處理通用的物體仍然是一個巨大的挑戰(zhàn)。
三維環(huán)境：在很多應用中我們需要對整個周圍3D環(huán)境的幾何理解，很長時間以來和可預期的一段時間以內(nèi)，這一直是個充滿挑戰(zhàn)的問題。近年來，三維環(huán)境感知在無人車和機器人等領域的應用取得了成功的效果，這讓人們對在其在AR中的應用充滿憧憬。然而，相比無人車等應用場景，AR中可以使用的計算資源和場景先驗常常捉襟見肘。受此影響，AR中的三維場景理解研發(fā)主要有了兩個顯而易見的思路，一是多傳感器的結合，而是對于應用的定制。兩個思路的結合也是實用中常見的手段。

在以上提到的技術中，二維碼和二維圖片的識別跟蹤技術已基本上成熟，也已經(jīng)有了廣泛的應用。技術方面的發(fā)展目標主要是進一步提高穩(wěn)定性以及拓寬適用范圍。相比而言，三維物體和三維場景的識別理解還有很大的探索空間，即使是目前火爆的HoloLens所展現(xiàn)的令人驚艷的跟蹤穩(wěn)定性，從追求完美的角度還有很多可以提升的空間。

三、單目AR識別跟蹤簡介

由于識別跟蹤的重要性，下面簡單介紹一下AR中的二維圖片跟蹤和三維環(huán)境理解。二維碼的技術已經(jīng)很成熟而應用有較受限制，三維物體識別的技術大致上介于二維圖片和三維場景之間，所以就偷懶不提了。

二維平面物體的AR跟蹤

一般情況下， AR中二維平面物體的跟蹤可以歸結為如下問題：給定一個模板圖片R，在視頻流中時刻檢測該圖片的（相對相機的）三維精確位置。比如在下圖的例子中，R是實現(xiàn)知道的人民幣圖片，視頻是從手機端實時獲取的，通常記為It (表示在時間t獲得的視頻圖像），而需要得到的是R在It 中的幾何姿態(tài)（通常包括三維旋轉和平移），記為Pt。換句話說，模板圖片R通過由Pt表示的三維變換就可以被貼到它在圖像It中的位置。跟蹤結果的用途也很顯然，既然知道了這個姿態(tài)Pt，我們可以用一個美元的圖片以同樣的姿態(tài)疊加到視頻中來替換人民幣，從而達到6倍以上的炫富效果。好吧，例子中沒有那么俗氣，而是疊加了一個莊嚴的視頻。

那么，上面例子中的跟蹤定位是如何做到的呢？主流的方法大致有兩類，一類是直接法（directmethod，有時也稱為全局法），另一類叫控制點法（keypoint-based）。

直接法：直接法里的“直接”是說直接用優(yōu)化方法去找最好的目標，即姿態(tài)Pt。這里牽涉到三個主要元素：（1）怎么定義好和不好，（2）在哪里找Pt，（3）怎么找。對于（1），一個直觀的辦法是：假設模板圖按照姿態(tài)Pt變換后對應圖像It上的一個小區(qū)域，那么這個區(qū)域可以摳出一個圖像T，T（經(jīng)過歸一化以后）應該和模板R長得越像越好。對于（2），我們可以在所有可能的姿態(tài)中去找Pt。不過這個策略顯然是很費時的，考慮到在視頻中相鄰圖像幀的變化有限，所以我們通常是在上一時刻的姿態(tài)（通常記為Pt-1）附近去尋找。至于怎么找，這就轉化成一個優(yōu)化問題了，簡單的說，就是要在Pt-1的一個鄰域里面找一個Pt，使得通過Pt摳出來得圖像塊T和R最相似。

當然，實際操作時候上面三個部分都各有講究。比如（1）中對于T和R是否相似可能要考慮光照的變化，（2）中如何定義姿態(tài)空間的鄰域以及合理的鄰域大小，（3）中具體用什么樣的優(yōu)化算法來盡量對抗局部極值的干擾而又不能太耗時。不同的處理方式產(chǎn)生出了不同的跟蹤算法，其中典型的代表工作之一是ESM算法和它的一些變種。

ESM是EfficientSecond-order Minimization的縮寫，源自Benhimane和Malis在2004年在IROS上發(fā)表的工作。該算法采用重構誤差平方作為衡量R和T相似性的指標，然后對于姿態(tài)空間進行了在李群（Lie Group）上的重新構建使得搜索的步長更為理性，在尋優(yōu)上面使用的二階近似的快速算法。這個算法的結構清晰，各模塊都可以比較容易的獨立擴展，所以在其基礎上衍生出了不少改進算法，通常是針對實用場景中不同的調整（比如處理強光照或者運動模糊）。

控制點法：基于控制點的方法由于其實時高效成為目前業(yè)內(nèi)主流方法?？刂泣c類的方法并不直接對姿態(tài)Pt進行尋優(yōu)，而是通過控制點匹配的方法來計算Pt?？刂泣c法的一個典型流程參見圖9。其基本出發(fā)點在于使用圖像中特別的點（通常是角點）來建立模板R和視頻圖像It的之間的映射，通過該映射建立方程組，然后求解出姿態(tài)Pt。比如說模板是一張人物的相片，那么我們在視頻中定位的時候并不需要對于臉上的所有點進行匹配，而可以通過一些控制點（眼角，鼻尖，嘴角等）迅速定位。

稍微數(shù)學一點的解釋是這樣的：由于姿態(tài)Pt是由若干參數(shù)（一般是8個）控制的，那么求解Pt的一個辦法是弄一個方程組出來，比如說8個線性的方程，那么我們就可以求出Pt了。那么這些方程怎么來呢？我們知道，Pt的作用是把模板R變到圖像It中，也就是說R中的每個點經(jīng)過一個由Pt決定的變換就可以得到它在圖像中的位置。那么，反過來，如果我們知道圖像中的一個點（比如眼角）和模板中就是同一個點（就是說他們匹配上了），我們就可以用這一對匹配點給出兩個方程（X、Y坐標各一個），這樣的點就是所謂的控制點。當我們有了足夠多的控制點對以后，就可以求解姿態(tài)Pt了。

總結起來，控制點法包括三個主要元素：（1）控制點提取和選擇，（2）控制點匹配，（3）姿態(tài)求解?？刂泣c的基本要求一是要能從周圍環(huán)境中脫穎而出（減少位置上的歧義），而是要經(jīng)常而且穩(wěn)定地出現(xiàn)（易于找到）。各種圖像中的角點因此閃亮登場，各種PK。比較知名的有SIFT、SURF、FAST等。注意，上述排名分先后的：按照能力來說越往前越好，按照速度來說越往后越好。實際應用中可以根據(jù)用戶機型做決定。那么，這些點提取后就可以用了嗎？No，一般來說還需要進行取舍：一是要去掉沒用的點（即outlier），二是使選取后的點盡量均勻以降低不必要的誤差，同時也要防止點太多帶來的大量后續(xù)計算?？刂泣c匹配的目的是在兩個圖像的控制點集間找到匹配的點對（鼻尖對鼻尖，眼角對眼角）。通常這個由控制點之間的相似性和空間約束協(xié)同完成。簡單的方法有緊鄰匹配，復雜的基本上二分匹配的各種變種（bipartitematching or two-dimensional assignment）。完成了匹配之后，就可以求解得到姿態(tài)Pt了：由于通常使用的點數(shù)遠多于最小需求（為了穩(wěn)定性），這里的方程數(shù)目遠大于未知變量的數(shù)目，所以最小二乘法之類的解法在這里會派上用場。

以上三個步驟初看起來涇渭分明，實際使用時卻經(jīng)常是交織在一起的。主要原因是很難保證得到精確無誤的控制點。有用的可靠控制點常常夾雜在各種真假難辨的山寨們一起到來，所以經(jīng)常需要往返迭代在三個步驟之間，比如用RANSAC之類的方法選擇控制點來得到服從大多數(shù)的姿態(tài)。相比直接法，控制點法的基本算法框架比較成熟，工程實現(xiàn)上的細節(jié)很大程度上決定了算法的最終效果。

這兩類方法的優(yōu)缺點根據(jù)具體實現(xiàn)略有不同，大致上可以總結如下：

這兩類方法的優(yōu)缺點有很明顯的互補性，所以一個自然的想法就是二者的結合，具體的方式也有不同變種，這里就不羅嗦了。

三維環(huán)境的AR跟蹤

對于三維環(huán)境的動態(tài)的實時的理解是當前AR在技術研究方面最活躍的問題。其核心就是最近火熱的“即時定位與地圖構建”（SLAM，SimultaneouslyLocalization And Mapping），在無人車，無人機和機器人等領域也起著核心作用。AR中的SLAM比其他領域中一般難度要大很多，主要是因為AR賴以依存的移動端的計算能力和資源比起其他領域來說要弱很多。目前在AR中還是以視覺SLAM為主，其他傳感器為輔的局面，盡管這個情況正在改變。下面的討論主要局限于視覺SLAM。

標準的視覺SLAM問題可以這么描述為：把你空投到一個陌生的環(huán)境中，你要解決“我在哪”的問題。這里的“我”基本上等同于相機或者眼睛（因為單目，即單相機，請把自己想象成獨眼龍），“在”就是要定位（就是localization），“哪”需要一張本來不存在的需要你來構建的地圖（就是mapping）。你帶著一只眼睛一邊走，一邊對周邊環(huán)境進行理解（建圖），一邊確定在所建地圖中的位置（定位），這就是SLAM了。換句話說，在走的過程中，一方面把所見到（相機拍到）的地方連起來成地圖，另一方面把走的軌跡在地圖上找到。下面我們看看這個過程大致需要哪些技術。

從圖像序列反算出三維環(huán)境的過程，即mapping，在計算機視覺里面屬于三維重建的范疇。在SLAM中，我們要從連續(xù)獲取的圖像序列來進行重建，而這些圖像序列是在相機的運動過程中采集的，所以相關的技術就叫基于運動的重建（SfM，Structurefrom Motion）。題外話，SfX是視覺中泛指從X中進行三維重建的技術，X除了運動以外還可以有別的（比如Structurefrom Shading）。如果相機不動怎么辦？很難辦，獨眼龍站著不動怎么能知道周圍三維的情況呢？原理上來說，一旦獲取的兩張圖像之間有運動，就相當與有兩個眼睛同時看到了場景（注意坑，這里假設場景不動），不就可以立體了嗎？這樣一來，多視幾何的東西就派上用場了。再進一步，運動過程中我們得到的實際是一系列圖像而不只是兩張，自然可以用他們一起來優(yōu)化提高精度，這就是令小白們不明覺厲的集束約束（BundleAdjustment）啦。

那么localization又是怎么回事呢？如果有了地圖，即有了一個坐標系，定位問題和前述2D跟蹤在目的上基本一致（當然更復雜一些）。讓我們考慮基于控制點的方法，那么現(xiàn)在就需要在三維空間找到并跟蹤控制點來進行計算了。很巧的是（真的很巧嗎？），上面的多視幾何中也需要控制點來進行三維重建，這些控制點就經(jīng)常被共用了。那么可不可以用直接法呢？Yes wecan！但是，如后面會講到的，由于目前AR中計算資源實在有限，還是控制點法經(jīng)濟實惠些。

從三維重建的方法和結果，SLAM大致可以分為稀疏、半稠密和稠密三類。下圖中給出的典型的示例。

稠密SLAM：簡單的說，稠密SLAM的目的是對所相機所采集到的所有信息進行三維重建。通俗的說，就是對看見的每一個空間上的點算出它到相機的方位和距離，或者知道它在物理空間的位置。在AR相關的工作里面最近的影響力較大的有DTAM和KinectFusion，前者是純視覺的，后者則使用了深度相機。由于需要對幾乎所有采集到的像素進行方位計算，稠密SLAM的計算量那是杠杠的，所以不是平民AR（比如一般的手機，手握6S/S7/Mate8的朋友不要側漏傲氣，這些統(tǒng)統(tǒng)都算“一般”）。
稀疏SLAM：稀疏SLAM的三維輸出是一系列三維點云。比如三維立方體的角點。相對于實心的三維世界（比如立方體的面和中腹），點云所提供的對于三維環(huán)境的重建是稀疏的，是以得名。實際應用中，在這些點云的基礎上提取或推理出所需要的空間結構（比如桌面），然后就可以根據(jù)這些結構進行AR內(nèi)容的渲染疊加了。和稠密SLAM版本相比，稀疏SLAM關心的點數(shù)低了整整兩個維度（從面墮落到點），理所當然地成為平民AR的首選。目前流行的稀疏SLAM大多是基于PTAM框架的一些變種，比如最近被熱捧的ORB-SLAM。
半稠密SLAM：顧名思義，半稠密SLAM的輸出密度在上述二者之間，但其實也沒有嚴格的界定。半稠密SLAM最近的代表是LSD-SLAM，不過對于在AR中的應用，目前還沒有稀疏SLAM熱門。

由于稀疏SLAM在AR中的流行度，下面我們簡單介紹一下PTAM和ORB-SLAM。在PTAM之前，由A. Davison在2003年提出的單目SLAM開創(chuàng)了實時單目SLAM的先河。這個工作的基本思想還是基于當時機器人等領域的主流SLAM框架的。簡單地說，對于每一幀新到來的圖像，進行“跟蹤-匹配-制圖-更新”的流程。然而這個框架在移動端（手機）上的效果和效率都不盡人意。針對移動端AR的SLAM需求，Klein和Murray在 2007年的ISMAR（AR領域的旗艦學術會議）展示了效果驚艷的PTAM系統(tǒng)，從而成為單目視覺AR SLAM的最常用框架，暫時還是之一。

PTAM的全稱是ParallelTracking And Mapping，上面已經(jīng)暗示過了，PTAM和之前的SLAM在框架是不同的。我們知道，SLAM對每一幀同時（Simultaneously）進行兩個方面的運算：定位（Localization）和建圖（Mapping）。由于資源消耗巨大，這兩種運算很難實時的對每一幀都充分地實現(xiàn)。那我們一定要每一幀都同時定位和建圖嗎？先看定位，這個是必須每幀都做，不然我們就不知道自己的位置了。那么制圖呢？很幸運，這個其實并不需要每幀都做，因為隔上幾幀我們?nèi)匀豢梢酝ㄟ^SfM來感知場景。試想一下，把你扔到一個陌生的場景，讓你邊走邊探索周邊環(huán)境，但是每秒鐘只讓你看10眼，只要你不是在飛奔，相信這個任務還是可以完成的。PTAM的核心思想就在這里，不是simultaneously定位和制圖，而是把他們分開，parallel地各自奔跑。這里的定位以逐幀跟蹤為主，所以就有了tracking。而制圖則不再逐幀進行，而是看計算能力而定，啥時候處理完當前的活，再去拿一幀新的來看看。在這個框架下，再配合控制點選取匹配等各項優(yōu)化組合，PTAM一出場就以其在華麗麗的demo亮瞎觀眾（這可是近10年前?。?。

故事顯然沒有這樣結束。我們都知道，demo和實用是有差距滴，何況還是學術界的demo。但是在PTAM思想的指引下，研究人員不斷的進行改進和更新。這其中的佼佼者就有上面提到的ORB-SLAM。ORB-SLAM由Mur-Artal,Montiel和Tardos在2015年發(fā)表在IEEETransaction on Robotics上，由于其優(yōu)異的性能和貼心的源碼迅速獲得工業(yè)界和學術界兩方面的青睞。不過，如果打算通讀其論文的話，請先做好被郁悶的心理準備。不是因為有太多晦澀的數(shù)學公式，恰恰相反，是因為基本上沒有啥公式，而是充滿了讓人不明覺厲的名詞。為什么會這樣？其實和ORB-SLAM的成功有很大關系。ORB-SLAM雖然仍然基于PTAM的基本框架，不過，做了很多很多改進，加了很多很多東西。從某個角度看，可以把它看作一個集大成的且精心優(yōu)化過的系統(tǒng)。所以，區(qū)區(qū)17頁的IEEE雙欄論文是不可能給出細節(jié)的，細節(jié)都在參考文獻里面，有些甚至只在源碼里。在眾多的改進中，比較大的包括控制點上使用更為有效的ORB控制點、引入第三個線程做回環(huán)檢測矯正（另外兩個分別是跟蹤和制圖）、使用可視樹來實現(xiàn)高效的多幀優(yōu)化（還記得集束約束嗎）、更為合理的關鍵幀管理、等等。

有朋友這里會有一個疑問：既然ORB-SLAM是基于PTAM的框架，那為啥不叫ORB-PTAM呢？是醬紫的：盡管從框架上看PTAM已經(jīng)和傳統(tǒng)SLAM有所不同，但是出于各種原因，SLAM現(xiàn)在已經(jīng)演變成為這一類技術的統(tǒng)稱。也就是說，PTAM一般被認為是SLAM中的一個具體算法，確切些說是單目視覺SLAM的一個算法。所以呢，ORB-PTAM就叫ORB-SLAM了。

盡管近年來的進展使得單目SLAM已經(jīng)能在一些場景上給出不錯的結果，單目SLAM在一般的移動端還遠遠達不到隨心所欲的效果。計算機視覺中的各種坑還是不同程度的存在。在AR中比較刺眼的問題包括：

初始化問題：單目視覺對于三維理解有著與生俱來的歧義。盡管可以通過運動來獲得有視差的幾幀，但這幾幀的質量并沒有保證。極端情況下，如果用戶拿著手機沒動，或者只有轉動，算法基本上就掛掉了。
快速運動：相機快速運動通常會帶來兩方面的挑戰(zhàn)。一是造成圖像的模糊，從而控制點難以準確的獲取，很多時候就是人眼也很難判斷。二是相鄰幀匹配區(qū)域減小，甚至在極端情況下沒有共同區(qū)域，對于建立在立體匹配之上的算法造成很大的困擾。
純旋轉運動：當相機做純旋轉或近似純旋轉運動時，立體視覺無法通過三角化來確定控制點的空間位置，從而無法有效地進行三維重建。
動態(tài)場景：SLAM通常假設場景基本上是靜止的。但是當場景內(nèi)有運動物體的時候，算法的穩(wěn)定性很可能會受到不同程度的干擾。

對AR行業(yè)動態(tài)有了解的朋友可能會有些疑惑，上面說的這么難，可是HoloLens一類的東西好像效果還不錯哦？沒錯，不過我們上面說的是單目無傳感器的情況。一個HoloLens可以買五個iPhone6S+，那么多傳感器不是免費的。不過話說回來，利用高質量傳感器來提高精度必然是AR SLAM的重要趨勢，不過由于成本的問題，這樣的AR可能還需要一定時間才能從高端展會走到普通用戶中。

四、SMART：語義驅動的多模態(tài)增強現(xiàn)實和智能交互

單目AR（即基于單攝像頭的AR）雖然有著很大的市場（想想數(shù)億的手機用戶吧），但是如上文所憂，仍然需要解決很多的技術難題，有一些甚至是超越單目AR的能力的。任何一個有理想有追求有情懷的AR公司，是不會也不能局限于傳統(tǒng)的單目框架上的。那么除了單目AR已經(jīng)建立的技術基礎外，AR的前沿上有哪些重要的陣地呢？縱觀AR和相關軟硬方向的發(fā)展歷史和事態(tài)，橫看今天各路AR諸侯的技術風標，不難總結出三個主要的方向：語義驅動，多模態(tài)融合，以及智能交互。遵循業(yè)界性感造詞的慣例，我們將他們總結成：

SMART：SemanticMulti-model AR inTeraction

即“語義驅動的多模態(tài)增強現(xiàn)實和智能交互”。由于這三個方面都還在飛速發(fā)展，技術日新月異，我下面就勉強地做一個粗淺的介紹，表意為主，請勿鉆牛角尖。

語義驅動：語義驅動在傳統(tǒng)的幾何為主導的AR中引入語義的概念，其技術核心來源于對場景的語義理解。為什么要語義信息？答案很簡單，因為我們?nèi)祟愃斫獾氖澜缡浅錆M語義的。如下圖所列，我們所處的物理世界不僅是由各種三維結構組成的，更是由諸如透明的窗、磚面的墻、放著新聞的電視等等組成的。對于AR來說，只有幾何信息的話，我們可以“把虛擬菜單疊加到平面上”；有了語義理解后，我們就可以“把虛擬菜單疊加到窗戶上”，或者邪惡地“根據(jù)正在播放的電視節(jié)目顯示相關廣告”。

相比幾何理解，對于視覺信息的語義理解涵蓋廣得多的內(nèi)容，因而也有著廣得多的應用。廣義的看，幾何理解也可以看作是語義理解的一個子集，即幾何屬性或幾何語義。那么，既然語義理解這么好這么強大，為啥我們今天才強調它？難道先賢們都沒有我們聰明？當然不是，只是因為語義理解太難了，也就最近的進展才使它有廣泛實用的可能性。當然，通用的對任意場景的完全語義理解目前還是個難題，但是對于一些特定物體的語義理解已經(jīng)在AR中有了可行的應用，比如AR輔助駕駛和AR人臉特效（下圖）。

多模態(tài)融合：隨著大大小小的AR廠家陸續(xù)推出形形色色的AR硬件，多模態(tài)已經(jīng)是AR專用硬件的標配，雙目、深度、慣導、語音等等名詞紛紛出現(xiàn)在各個硬件的技術指標清單中。這些硬件的啟用顯然有著其背后的算法用心，即利用多模態(tài)的信息來提高AR中的對環(huán)境和交互的感知理解。比如，之前反復提到，作為AR核心的環(huán)境跟蹤理解面臨著五花八門的技術挑戰(zhàn)，有些甚至突破了視覺算法的界限，這種情況下，非視覺的信息就可以起到重要的補充支持作用。比如說，在相機快速運動的情況下，圖像由于劇烈模糊而喪失精準性，但此時的姿態(tài)傳感器給出的信息還是比較可靠的，可以用來幫助視覺跟蹤算法度過難關。

智能交互：從某個角度來看，人機交互的發(fā)展史可以看作是追求自然交互的歷史。從最早的紙帶打孔到如今窗口和觸屏交互，計算機系統(tǒng)對使用者的專業(yè)要求越來越低。近來，機器智能的發(fā)展使得計算機對人類的自然意識的理解越來越可靠，從而使智能交互有了從實驗室走向實用的契機。從視覺及相關信息來實時理解人類的交互意圖成為AR系統(tǒng)中的重要一環(huán)。在各種自然交互中，基于手勢的技術是目前AR的熱點。一方面由于手勢的技術比較成熟，另一方面也由于手勢有很強的可定制性。關于手勢需要科普的一個地方是：手勢估計和手勢識別是兩個緊密相關但不同的概念。手勢估計是指從圖像（或者深度）數(shù)據(jù)中得到手的精確姿勢數(shù)據(jù)，比如所有手指關節(jié)的3D坐標（下圖）；而手勢識別是指判斷出手的動作（或姿態(tài)）說代表的語義信息，比如“打開電視”這樣的命令。前者一般可以作為后者的輸入，但是如果手勢指令集不大的情況下，也可以直接做手勢識別。前者的更準確叫法應該是手的姿勢估計。

五、結語

增強現(xiàn)實的再度興起是由近年來軟硬件的進展決定的，是科學和技術人員幾十年努力的推動成果。一方面，很幸運我們能夠趕上這個時代提供的機會；另一方面，我們也應該警惕過度的樂觀，需要腳踏實地得趟過每一個坑。