星之光|AR技術(shù)不得不說的秘密

2022-10-15

增強(qiáng)現(xiàn)實(shí)技術(shù)為什么引起關(guān)注

隨著近日，某家增強(qiáng)現(xiàn)實(shí)技術(shù)（Augmented Reality, AR）公司融資14億美元，AR再度成為科技領(lǐng)域內(nèi)一個(gè)追捧熱點(diǎn)。其中到底藏著什么樣的巨大前景這么被人們看重呢？

在說清楚這個(gè)秘密之前，我們先得區(qū)分另一個(gè)類似的技術(shù)——虛擬現(xiàn)實(shí)技術(shù)（Virtual Reality，VR）。兩者的技術(shù)可能有重疊的部分，但應(yīng)用場(chǎng)景則不同。

簡(jiǎn)單來說，假如有一天，你趕不上演唱會(huì)只能看直播，但不想放棄現(xiàn)場(chǎng)體驗(yàn)怎么辦？沒關(guān)系，戴上VR眼鏡，你在家里就能如身臨其境般感受最逼真的視覺體驗(yàn)。VR眼鏡是不透明的，用于顯示完全虛擬的世界，把物理世界完全擋住，即使坐在家里，你也能感到去大溪地“潛水”。

而AR眼鏡通常是透明的，讓你能看到現(xiàn)實(shí)世界的景象，同時(shí)會(huì)由眼鏡虛擬出一些圖像疊加在上面。

總的來說，這些設(shè)備是計(jì)算機(jī)的必然發(fā)展趨勢(shì)。自2007年iPhone面世以來，智能手機(jī)發(fā)展迅猛。用戶隨時(shí)隨地帶著它，各項(xiàng)使用數(shù)據(jù)毫無懸念地都在超越PC端。所以，人機(jī)交互界面的未來主要在于移動(dòng)。但現(xiàn)在的手機(jī)局限在于，

（1）既然要便于攜帶屏幕就做得小，屏幕小了某些功能就得受限；

（2）顯示屏幕是平面也就是二維(2D)的，而真實(shí)世界是三維(3D)的。

未來的透明AR眼鏡有望實(shí)現(xiàn)大突破，既能讓用戶隨身攜帶，又能在眼前顯示超大屏幕，還能把以假亂真的3D內(nèi)容渲染到人所看到的真實(shí)世界里。想象你坐在教室里自習(xí)，講臺(tái)上的老師看起來真實(shí)無比，但其實(shí)他就是在你的眼鏡上虛擬出來的人。這樣的眼鏡大概不會(huì)完全取代手機(jī)，但毫無疑問潛力無窮。

跟VR比較，AR的應(yīng)用場(chǎng)景更廣闊。畢竟，我們一般不會(huì)戴著VR頭盔在大街上逛吧。本質(zhì)上，AR是VR的超集，鏡片前面一擋就成了VR。

戴眼鏡好麻煩，能不能裸視？

直接像《星球大戰(zhàn)》一樣，在空氣中顯示全息圖（Holography）行不行？這樣的美好愿景，有一天也許能做成，但近期看離實(shí)用還早。

現(xiàn)在有一些大學(xué)實(shí)驗(yàn)室的確在研究裸眼光場(chǎng)顯示器（Light Field Display），但需要很復(fù)雜笨重昂貴的設(shè)備，還必須先安置才能使用。相對(duì)這些，做成眼鏡的效果要好得多。輕便的AR眼鏡將是移動(dòng)人機(jī)交互界面上，也是計(jì)算機(jī)發(fā)展的重大革新。

在VR頭盔前加個(gè)攝像頭也能成AR，為什么非要做透明？

說起來AR有兩種，一種是前面所說的透明AR（Optical See-through)，人透過鏡片能直接看到現(xiàn)實(shí)世界。另一種就是“視頻疊加”（Video See-through; Video Overlay）——通過攝像頭捕捉現(xiàn)實(shí)世界圖景，然后以視頻的方式呈現(xiàn)給用戶，同時(shí)其中再渲染一些畫面。事實(shí)上，現(xiàn)在手機(jī)和平板上已經(jīng)出現(xiàn)了很多Video Overlay的應(yīng)用，比如看星空，求翻譯，選家具等。

那為什么不用VR頭盔加攝像頭實(shí)現(xiàn)這種AR呢？事實(shí)上，現(xiàn)在很多VR頭盔都在試探這種做法。不過，它和透明AR相比各有優(yōu)劣。其優(yōu)勢(shì)在于，用視頻實(shí)現(xiàn)的虛擬和現(xiàn)實(shí)的疊加(overlay)要比透明AR簡(jiǎn)單得多。這也是為什么它已經(jīng)開始在移動(dòng)端商用的原因。

但劣勢(shì)也可想而知，用戶看到的畢竟只是一個(gè)2D視頻，質(zhì)量跟眼睛直接看到的世界差距很大。而且視頻從采集到顯示總是有延遲的，如果跟體感信號(hào)不一致的話會(huì)造成身體不適。所以不管怎樣，還是會(huì)有公司追求更好的產(chǎn)品體驗(yàn)，前仆后繼地去做透明AR的。

光憑這些就能融到14億美金？

前面我們說了AR技術(shù)應(yīng)用潛力，這只是資本看重的一方面，同時(shí)還有技術(shù)，創(chuàng)始人，團(tuán)隊(duì)的原因。

其實(shí)，該AR的核心技術(shù)來自華盛頓大學(xué)前研究員Brian Schowengerdt。他導(dǎo)師Eric Seibel是光纖掃描內(nèi)窺鏡(Scanning Fiber Endoscope)的專家。大家都知道，內(nèi)窺鏡就是醫(yī)生們做手術(shù)時(shí)用來體內(nèi)成像的，本質(zhì)是個(gè)微小攝像頭。Brian很聰明地逆轉(zhuǎn)光路，把這個(gè)技術(shù)用到了顯示上。這樣通過極細(xì)的光纖（如左圖所示）用激光就可以打出彩色的圖像。

這個(gè)技術(shù)十幾年前就發(fā)表了[2]，后來又不斷改進(jìn)，生成了一堆專利。該AR技術(shù)在很大程度上是基于Brian的這些專利。

那這種技術(shù)為什么重要呢？我們后面留成一個(gè)專門的問題講。

然而光技術(shù)牛是不夠的，要想做好AR眼鏡，可想而知是需要軟件硬件都得有重大突破。國(guó)際大公司可能有財(cái)力去做這個(gè)事，為什么他們認(rèn)為一個(gè)初創(chuàng)小企業(yè)能做成？我覺得，其團(tuán)隊(duì)創(chuàng)始人Rony Abovitz起的作用非常大。他曾經(jīng)在機(jī)器人手術(shù)（Robotic Surgery）上創(chuàng)業(yè)，做骨科手術(shù)精準(zhǔn)定位。2004年創(chuàng)建的公司，2008年就上市了，后來在2013年以16.5億美元被并購(gòu)。聽起來就是很牛，這種背景當(dāng)然拉投資比較容易。

除了創(chuàng)始人兼CEO很牛，其團(tuán)隊(duì)也不一般，計(jì)算機(jī)視覺部分更有不少業(yè)內(nèi)大牛。合作的團(tuán)隊(duì)更有在好萊塢給電影做特效的。而公司當(dāng)年用來拉投資用的概念視頻就像一個(gè)微型電影一樣。

新技術(shù)核心：光場(chǎng)顯示技術(shù)為什么對(duì)AR很重要

首先，光場(chǎng)顯示技術(shù)基于極細(xì)的光纖，可以讓眼鏡做得輕薄。但更重要的是，Brian證明，這種光纖技術(shù)不僅可以投射出一個(gè)2D圖片，還能顯示出一個(gè)光場(chǎng)(Light Field)。

目前利用眼鏡實(shí)現(xiàn)的3D主要可分成兩種技術(shù)框架：Stereoscopic（中文翻譯成“立體”，但其實(shí)不夠準(zhǔn)確），和Light Field（光場(chǎng)）。Stereoscopic眼鏡早已商化，比如所有3D影院里用的，還有市面上幾乎所有AR和VR眼鏡/原型。而Light Field還只在實(shí)驗(yàn)室里有雛形。

什么是Stereoscopic 3D？為什么它不夠好？又什么新技術(shù)核心是Light Field呢？

Stereoscopic 3D是假3D

3D圖像比2D圖片多了一個(gè)維度，這個(gè)維度就是景深(depth)，其在感官上有明顯的區(qū)別（只有少數(shù)人有雙盲癥不能看到）。

人眼感知景深有很多機(jī)制，包括單眼（monocular）和雙眼（binocular）機(jī)制。單眼能感知的景深信號(hào)有很多種，比如：一個(gè)東西遮擋了另一個(gè)（occlusion），熟悉的物體的大?。╮elative size/height)，物體移動(dòng)的變化（motion parallax）——遠(yuǎn)的物體變化慢、近的物體變化快。所以在此基礎(chǔ)上，人類雙眼的景深信號(hào)也非常強(qiáng)：兩只眼睛看到同一個(gè)場(chǎng)景會(huì)有細(xì)微差別，這讓大腦能通過三角計(jì)算（triangulation）來得到物體景深。人類在遠(yuǎn)古時(shí)就有這樣的感知，幫助他們很好地判斷對(duì)面的老虎或者鹿到底離自己有多遠(yuǎn)。

Stereoscopic 3D也就是利用這個(gè)原理給雙眼分別顯示不同的圖片（如下圖），它們很相似，只在水平方向上有細(xì)微差別。而這兩張圖片拍攝的時(shí)候，就是用兩個(gè)并排的相機(jī)模擬人眼的位置拍的。實(shí)際上，現(xiàn)在的3D電影也都是基于這個(gè)原理。通過一些光學(xué)技術(shù)把細(xì)微差別的畫面分別傳入左右雙眼，以形成立體的感知。

但這樣的Stereoscopic 3D有些問題。簡(jiǎn)單來說，它會(huì)引起用戶身體不適如頭暈、惡心等。為什么呢？這又涉及到另一個(gè)視覺原理。

當(dāng)我們?cè)诳匆粋€(gè)現(xiàn)實(shí)世界中的物體時(shí)，眼睛其實(shí)有兩種自然反應(yīng)：

(1) 聚焦(Accommodation/Focus)：眼睛的晶狀體就像一個(gè)凸透鏡，它會(huì)調(diào)節(jié)凸度來讓那個(gè)物體在咱們視網(wǎng)膜上清楚成像。

(2) 會(huì)聚(Convergence)：在每只眼睛聚焦的同時(shí)，兩只眼球還會(huì)有旋轉(zhuǎn)運(yùn)動(dòng)來一起指向那個(gè)物體。

很自然地，這兩種反射運(yùn)動(dòng)在神經(jīng)上是聯(lián)接的(Neurally Coupled），也就是說任意一種運(yùn)動(dòng)會(huì)自動(dòng)引發(fā)另一種運(yùn)動(dòng)。這也意味著，在人眼看真實(shí)物體的時(shí)候，聚焦和會(huì)聚的距離總是相等的（Vergence Distance = Accommodation Distance）。

那么Stereoscopic 3D的問題就來了。因?yàn)镾tereoscopic屏幕到眼的投射距離總是固定的，也就是聚焦不變，但對(duì)圖片的感知會(huì)讓眼睛會(huì)聚在不同的距離以產(chǎn)生景深3D效果（見上圖B）。所以，這兩種距離經(jīng)常是不一致的，以至于造成這兩種神經(jīng)相連的運(yùn)動(dòng)強(qiáng)行分離（Neurally Decoupled）。