星之光|AR技術不得不說的秘密

2022-10-15

增強現(xiàn)實技術為什么引起關注


隨著近日,某家增強現(xiàn)實技術(Augmented Reality, AR)公司融資14億美元,AR再度成為科技領域內(nèi)一個追捧熱點。其中到底藏著什么樣的巨大前景這么被人們看重呢?


在說清楚這個秘密之前,我們先得區(qū)分另一個類似的技術——虛擬現(xiàn)實技術(Virtual Reality,VR)。兩者的技術可能有重疊的部分,但應用場景則不同。


簡單來說,假如有一天,你趕不上演唱會只能看直播,但不想放棄現(xiàn)場體驗怎么辦?沒關系,戴上VR眼鏡,你在家里就能如身臨其境般感受最逼真的視覺體驗。VR眼鏡是不透明的,用于顯示完全虛擬的世界,把物理世界完全擋住,即使坐在家里,你也能感到去大溪地“潛水”。 



而AR眼鏡通常是透明的,讓你能看到現(xiàn)實世界的景象,同時會由眼鏡虛擬出一些圖像疊加在上面。


總的來說,這些設備是計算機的必然發(fā)展趨勢。自2007年iPhone面世以來,智能手機發(fā)展迅猛。用戶隨時隨地帶著它,各項使用數(shù)據(jù)毫無懸念地都在超越PC端。所以,人機交互界面的未來主要在于移動。但現(xiàn)在的手機局限在于,

(1)既然要便于攜帶屏幕就做得小,屏幕小了某些功能就得受限;

(2)顯示屏幕是平面也就是二維(2D)的,而真實世界是三維(3D)的。


未來的透明AR眼鏡有望實現(xiàn)大突破,既能讓用戶隨身攜帶,又能在眼前顯示超大屏幕,還能把以假亂真的3D內(nèi)容渲染到人所看到的真實世界里。想象你坐在教室里自習,講臺上的老師看起來真實無比,但其實他就是在你的眼鏡上虛擬出來的人。這樣的眼鏡大概不會完全取代手機,但毫無疑問潛力無窮。


跟VR比較,AR的應用場景更廣闊。畢竟,我們一般不會戴著VR頭盔在大街上逛吧。本質(zhì)上,AR是VR的超集,鏡片前面一擋就成了VR。


戴眼鏡好麻煩,能不能裸視?


直接像《星球大戰(zhàn)》一樣,在空氣中顯示全息圖(Holography)行不行?這樣的美好愿景,有一天也許能做成,但近期看離實用還早。



現(xiàn)在有一些大學實驗室的確在研究裸眼光場顯示器(Light Field Display),但需要很復雜笨重昂貴的設備,還必須先安置才能使用。相對這些,做成眼鏡的效果要好得多。輕便的AR眼鏡將是移動人機交互界面上,也是計算機發(fā)展的重大革新。



在VR頭盔前加個攝像頭也能成AR,為什么非要做透明?


說起來AR有兩種,一種是前面所說的透明AR(Optical See-through),人透過鏡片能直接看到現(xiàn)實世界。另一種就是“視頻疊加”(Video See-through; Video Overlay)——通過攝像頭捕捉現(xiàn)實世界圖景,然后以視頻的方式呈現(xiàn)給用戶,同時其中再渲染一些畫面。事實上,現(xiàn)在手機和平板上已經(jīng)出現(xiàn)了很多Video Overlay的應用,比如看星空,求翻譯,選家具等。



那為什么不用VR頭盔加攝像頭實現(xiàn)這種AR呢?事實上,現(xiàn)在很多VR頭盔都在試探這種做法。不過,它和透明AR相比各有優(yōu)劣。其優(yōu)勢在于,用視頻實現(xiàn)的虛擬和現(xiàn)實的疊加(overlay)要比透明AR簡單得多。這也是為什么它已經(jīng)開始在移動端商用的原因。


但劣勢也可想而知,用戶看到的畢竟只是一個2D視頻,質(zhì)量跟眼睛直接看到的世界差距很大。而且視頻從采集到顯示總是有延遲的,如果跟體感信號不一致的話會造成身體不適。所以不管怎樣,還是會有公司追求更好的產(chǎn)品體驗,前仆后繼地去做透明AR的。


光憑這些就能融到14億美金?


前面我們說了AR技術應用潛力,這只是資本看重的一方面,同時還有技術,創(chuàng)始人,團隊的原因。


其實,該AR的核心技術來自華盛頓大學前研究員Brian Schowengerdt。 他導師Eric Seibel是光纖掃描內(nèi)窺鏡(Scanning Fiber Endoscope)的專家。大家都知道,內(nèi)窺鏡就是醫(yī)生們做手術時用來體內(nèi)成像的,本質(zhì)是個微小攝像頭。Brian很聰明地逆轉(zhuǎn)光路,把這個技術用到了顯示上。這樣通過極細的光纖(如左圖所示)用激光就可以打出彩色的圖像。


這個技術十幾年前就發(fā)表了[2],后來又不斷改進,生成了一堆專利。該AR技術在很大程度上是基于Brian的這些專利。


那這種技術為什么重要呢?我們后面留成一個專門的問題講。


然而光技術牛是不夠的,要想做好AR眼鏡,可想而知是需要軟件硬件都得有重大突破。國際大公司可能有財力去做這個事,為什么他們認為一個初創(chuàng)小企業(yè)能做成?我覺得,其團隊創(chuàng)始人Rony Abovitz起的作用非常大。他曾經(jīng)在機器人手術(Robotic Surgery)上創(chuàng)業(yè),做骨科手術精準定位。2004年創(chuàng)建的公司,2008年就上市了,后來在2013年以16.5億美元被并購。聽起來就是很牛,這種背景當然拉投資比較容易。


除了創(chuàng)始人兼CEO很牛,其團隊也不一般,計算機視覺部分更有不少業(yè)內(nèi)大牛。合作的團隊更有在好萊塢給電影做特效的。而公司當年用來拉投資用的概念視頻就像一個微型電影一樣。



新技術核心:光場顯示技術為什么對AR很重要


首先,光場顯示技術基于極細的光纖,可以讓眼鏡做得輕薄。但更重要的是,Brian證明,這種光纖技術不僅可以投射出一個2D圖片,還能顯示出一個光場(Light Field)。


目前利用眼鏡實現(xiàn)的3D主要可分成兩種技術框架:Stereoscopic(中文翻譯成“立體”,但其實不夠準確),和Light Field(光場)。Stereoscopic眼鏡早已商化,比如所有3D影院里用的,還有市面上幾乎所有AR和VR眼鏡/原型。而Light Field還只在實驗室里有雛形。


什么是Stereoscopic 3D?為什么它不夠好?又什么新技術核心是Light Field呢?


Stereoscopic 3D是假3D


3D圖像比2D圖片多了一個維度,這個維度就是景深(depth),其在感官上有明顯的區(qū)別(只有少數(shù)人有雙盲癥不能看到)。


人眼感知景深有很多機制,包括單眼(monocular)和雙眼(binocular)機制。單眼能感知的景深信號有很多種,比如:一個東西遮擋了另一個(occlusion),熟悉的物體的大?。╮elative size/height),物體移動的變化(motion parallax)——遠的物體變化慢、近的物體變化快。所以在此基礎上,人類雙眼的景深信號也非常強:兩只眼睛看到同一個場景會有細微差別,這讓大腦能通過三角計算(triangulation)來得到物體景深。人類在遠古時就有這樣的感知,幫助他們很好地判斷對面的老虎或者鹿到底離自己有多遠。


Stereoscopic 3D也就是利用這個原理給雙眼分別顯示不同的圖片(如下圖),它們很相似,只在水平方向上有細微差別。而這兩張圖片拍攝的時候,就是用兩個并排的相機模擬人眼的位置拍的。實際上,現(xiàn)在的3D電影也都是基于這個原理。通過一些光學技術把細微差別的畫面分別傳入左右雙眼,以形成立體的感知。


但這樣的Stereoscopic 3D有些問題。簡單來說,它會引起用戶身體不適如頭暈、惡心等。為什么呢?這又涉及到另一個視覺原理。


當我們在看一個現(xiàn)實世界中的物體時,眼睛其實有兩種自然反應:


(1) 聚焦(Accommodation/Focus):眼睛的晶狀體就像一個凸透鏡,它會調(diào)節(jié)凸度來讓那個物體在咱們視網(wǎng)膜上清楚成像。


圖片


(2) 會聚(Convergence):在每只眼睛聚焦的同時,兩只眼球還會有旋轉(zhuǎn)運動來一起指向那個物體。


圖片

很自然地,這兩種反射運動在神經(jīng)上是聯(lián)接的(Neurally Coupled),也就是說任意一種運動會自動引發(fā)另一種運動。這也意味著,在人眼看真實物體的時候,聚焦和會聚的距離總是相等的(Vergence Distance = Accommodation Distance)。


那么Stereoscopic 3D的問題就來了。因為Stereoscopic屏幕到眼的投射距離總是固定的,也就是聚焦不變,但對圖片的感知會讓眼睛會聚在不同的距離以產(chǎn)生景深3D效果(見上圖B)。所以,這兩種距離經(jīng)常是不一致的,以至于造成這兩種神經(jīng)相連的運動強行分離(Neurally Decoupled)。