星之光|AR技術(shù)不得不說(shuō)的秘密
2022-10-15
增強(qiáng)現(xiàn)實(shí)技術(shù)為什么引起關(guān)注
隨著近日,某家增強(qiáng)現(xiàn)實(shí)技術(shù)(Augmented Reality, AR)公司融資14億美元,AR再度成為科技領(lǐng)域內(nèi)一個(gè)追捧熱點(diǎn)。其中到底藏著什么樣的巨大前景這么被人們看重呢?
在說(shuō)清楚這個(gè)秘密之前,我們先得區(qū)分另一個(gè)類似的技術(shù)——虛擬現(xiàn)實(shí)技術(shù)(Virtual Reality,VR)。兩者的技術(shù)可能有重疊的部分,但應(yīng)用場(chǎng)景則不同。
簡(jiǎn)單來(lái)說(shuō),假如有一天,你趕不上演唱會(huì)只能看直播,但不想放棄現(xiàn)場(chǎng)體驗(yàn)怎么辦?沒(méi)關(guān)系,戴上VR眼鏡,你在家里就能如身臨其境般感受最逼真的視覺(jué)體驗(yàn)。VR眼鏡是不透明的,用于顯示完全虛擬的世界,把物理世界完全擋住,即使坐在家里,你也能感到去大溪地“潛水”。
而AR眼鏡通常是透明的,讓你能看到現(xiàn)實(shí)世界的景象,同時(shí)會(huì)由眼鏡虛擬出一些圖像疊加在上面。
總的來(lái)說(shuō),這些設(shè)備是計(jì)算機(jī)的必然發(fā)展趨勢(shì)。自2007年iPhone面世以來(lái),智能手機(jī)發(fā)展迅猛。用戶隨時(shí)隨地帶著它,各項(xiàng)使用數(shù)據(jù)毫無(wú)懸念地都在超越PC端。所以,人機(jī)交互界面的未來(lái)主要在于移動(dòng)。但現(xiàn)在的手機(jī)局限在于,
(1)既然要便于攜帶屏幕就做得小,屏幕小了某些功能就得受限;
(2)顯示屏幕是平面也就是二維(2D)的,而真實(shí)世界是三維(3D)的。
未來(lái)的透明AR眼鏡有望實(shí)現(xiàn)大突破,既能讓用戶隨身攜帶,又能在眼前顯示超大屏幕,還能把以假亂真的3D內(nèi)容渲染到人所看到的真實(shí)世界里。想象你坐在教室里自習(xí),講臺(tái)上的老師看起來(lái)真實(shí)無(wú)比,但其實(shí)他就是在你的眼鏡上虛擬出來(lái)的人。這樣的眼鏡大概不會(huì)完全取代手機(jī),但毫無(wú)疑問(wèn)潛力無(wú)窮。
跟VR比較,AR的應(yīng)用場(chǎng)景更廣闊。畢竟,我們一般不會(huì)戴著VR頭盔在大街上逛吧。本質(zhì)上,AR是VR的超集,鏡片前面一擋就成了VR。
戴眼鏡好麻煩,能不能裸視?
直接像《星球大戰(zhàn)》一樣,在空氣中顯示全息圖(Holography)行不行?這樣的美好愿景,有一天也許能做成,但近期看離實(shí)用還早。
現(xiàn)在有一些大學(xué)實(shí)驗(yàn)室的確在研究裸眼光場(chǎng)顯示器(Light Field Display),但需要很復(fù)雜笨重昂貴的設(shè)備,還必須先安置才能使用。相對(duì)這些,做成眼鏡的效果要好得多。輕便的AR眼鏡將是移動(dòng)人機(jī)交互界面上,也是計(jì)算機(jī)發(fā)展的重大革新。
在VR頭盔前加個(gè)攝像頭也能成AR,為什么非要做透明?
說(shuō)起來(lái)AR有兩種,一種是前面所說(shuō)的透明AR(Optical See-through),人透過(guò)鏡片能直接看到現(xiàn)實(shí)世界。另一種就是“視頻疊加”(Video See-through; Video Overlay)——通過(guò)攝像頭捕捉現(xiàn)實(shí)世界圖景,然后以視頻的方式呈現(xiàn)給用戶,同時(shí)其中再渲染一些畫(huà)面。事實(shí)上,現(xiàn)在手機(jī)和平板上已經(jīng)出現(xiàn)了很多Video Overlay的應(yīng)用,比如看星空,求翻譯,選家具等。
那為什么不用VR頭盔加攝像頭實(shí)現(xiàn)這種AR呢?事實(shí)上,現(xiàn)在很多VR頭盔都在試探這種做法。不過(guò),它和透明AR相比各有優(yōu)劣。其優(yōu)勢(shì)在于,用視頻實(shí)現(xiàn)的虛擬和現(xiàn)實(shí)的疊加(overlay)要比透明AR簡(jiǎn)單得多。這也是為什么它已經(jīng)開(kāi)始在移動(dòng)端商用的原因。
但劣勢(shì)也可想而知,用戶看到的畢竟只是一個(gè)2D視頻,質(zhì)量跟眼睛直接看到的世界差距很大。而且視頻從采集到顯示總是有延遲的,如果跟體感信號(hào)不一致的話會(huì)造成身體不適。所以不管怎樣,還是會(huì)有公司追求更好的產(chǎn)品體驗(yàn),前仆后繼地去做透明AR的。
光憑這些就能融到14億美金?
前面我們說(shuō)了AR技術(shù)應(yīng)用潛力,這只是資本看重的一方面,同時(shí)還有技術(shù),創(chuàng)始人,團(tuán)隊(duì)的原因。
其實(shí),該AR的核心技術(shù)來(lái)自華盛頓大學(xué)前研究員Brian Schowengerdt。 他導(dǎo)師Eric Seibel是光纖掃描內(nèi)窺鏡(Scanning Fiber Endoscope)的專家。大家都知道,內(nèi)窺鏡就是醫(yī)生們做手術(shù)時(shí)用來(lái)體內(nèi)成像的,本質(zhì)是個(gè)微小攝像頭。Brian很聰明地逆轉(zhuǎn)光路,把這個(gè)技術(shù)用到了顯示上。這樣通過(guò)極細(xì)的光纖(如左圖所示)用激光就可以打出彩色的圖像。
這個(gè)技術(shù)十幾年前就發(fā)表了[2],后來(lái)又不斷改進(jìn),生成了一堆專利。該AR技術(shù)在很大程度上是基于Brian的這些專利。
那這種技術(shù)為什么重要呢?我們后面留成一個(gè)專門的問(wèn)題講。
然而光技術(shù)牛是不夠的,要想做好AR眼鏡,可想而知是需要軟件硬件都得有重大突破。國(guó)際大公司可能有財(cái)力去做這個(gè)事,為什么他們認(rèn)為一個(gè)初創(chuàng)小企業(yè)能做成?我覺(jué)得,其團(tuán)隊(duì)創(chuàng)始人Rony Abovitz起的作用非常大。他曾經(jīng)在機(jī)器人手術(shù)(Robotic Surgery)上創(chuàng)業(yè),做骨科手術(shù)精準(zhǔn)定位。2004年創(chuàng)建的公司,2008年就上市了,后來(lái)在2013年以16.5億美元被并購(gòu)。聽(tīng)起來(lái)就是很牛,這種背景當(dāng)然拉投資比較容易。
除了創(chuàng)始人兼CEO很牛,其團(tuán)隊(duì)也不一般,計(jì)算機(jī)視覺(jué)部分更有不少業(yè)內(nèi)大牛。合作的團(tuán)隊(duì)更有在好萊塢給電影做特效的。而公司當(dāng)年用來(lái)拉投資用的概念視頻就像一個(gè)微型電影一樣。
新技術(shù)核心:光場(chǎng)顯示技術(shù)為什么對(duì)AR很重要
首先,光場(chǎng)顯示技術(shù)基于極細(xì)的光纖,可以讓眼鏡做得輕薄。但更重要的是,Brian證明,這種光纖技術(shù)不僅可以投射出一個(gè)2D圖片,還能顯示出一個(gè)光場(chǎng)(Light Field)。
目前利用眼鏡實(shí)現(xiàn)的3D主要可分成兩種技術(shù)框架:Stereoscopic(中文翻譯成“立體”,但其實(shí)不夠準(zhǔn)確),和Light Field(光場(chǎng))。Stereoscopic眼鏡早已商化,比如所有3D影院里用的,還有市面上幾乎所有AR和VR眼鏡/原型。而Light Field還只在實(shí)驗(yàn)室里有雛形。
什么是Stereoscopic 3D?為什么它不夠好?又什么新技術(shù)核心是Light Field呢?
Stereoscopic 3D是假3D
3D圖像比2D圖片多了一個(gè)維度,這個(gè)維度就是景深(depth),其在感官上有明顯的區(qū)別(只有少數(shù)人有雙盲癥不能看到)。
人眼感知景深有很多機(jī)制,包括單眼(monocular)和雙眼(binocular)機(jī)制。單眼能感知的景深信號(hào)有很多種,比如:一個(gè)東西遮擋了另一個(gè)(occlusion),熟悉的物體的大?。╮elative size/height),物體移動(dòng)的變化(motion parallax)——遠(yuǎn)的物體變化慢、近的物體變化快。所以在此基礎(chǔ)上,人類雙眼的景深信號(hào)也非常強(qiáng):兩只眼睛看到同一個(gè)場(chǎng)景會(huì)有細(xì)微差別,這讓大腦能通過(guò)三角計(jì)算(triangulation)來(lái)得到物體景深。人類在遠(yuǎn)古時(shí)就有這樣的感知,幫助他們很好地判斷對(duì)面的老虎或者鹿到底離自己有多遠(yuǎn)。
Stereoscopic 3D也就是利用這個(gè)原理給雙眼分別顯示不同的圖片(如下圖),它們很相似,只在水平方向上有細(xì)微差別。而這兩張圖片拍攝的時(shí)候,就是用兩個(gè)并排的相機(jī)模擬人眼的位置拍的。實(shí)際上,現(xiàn)在的3D電影也都是基于這個(gè)原理。通過(guò)一些光學(xué)技術(shù)把細(xì)微差別的畫(huà)面分別傳入左右雙眼,以形成立體的感知。
但這樣的Stereoscopic 3D有些問(wèn)題。簡(jiǎn)單來(lái)說(shuō),它會(huì)引起用戶身體不適如頭暈、惡心等。為什么呢?這又涉及到另一個(gè)視覺(jué)原理。
當(dāng)我們?cè)诳匆粋€(gè)現(xiàn)實(shí)世界中的物體時(shí),眼睛其實(shí)有兩種自然反應(yīng):
(1) 聚焦(Accommodation/Focus):眼睛的晶狀體就像一個(gè)凸透鏡,它會(huì)調(diào)節(jié)凸度來(lái)讓那個(gè)物體在咱們視網(wǎng)膜上清楚成像。
(2) 會(huì)聚(Convergence):在每只眼睛聚焦的同時(shí),兩只眼球還會(huì)有旋轉(zhuǎn)運(yùn)動(dòng)來(lái)一起指向那個(gè)物體。
很自然地,這兩種反射運(yùn)動(dòng)在神經(jīng)上是聯(lián)接的(Neurally Coupled),也就是說(shuō)任意一種運(yùn)動(dòng)會(huì)自動(dòng)引發(fā)另一種運(yùn)動(dòng)。這也意味著,在人眼看真實(shí)物體的時(shí)候,聚焦和會(huì)聚的距離總是相等的(Vergence Distance = Accommodation Distance)。
那么Stereoscopic 3D的問(wèn)題就來(lái)了。因?yàn)镾tereoscopic屏幕到眼的投射距離總是固定的,也就是聚焦不變,但對(duì)圖片的感知會(huì)讓眼睛會(huì)聚在不同的距離以產(chǎn)生景深3D效果(見(jiàn)上圖B)。所以,這兩種距離經(jīng)常是不一致的,以至于造成這兩種神經(jīng)相連的運(yùn)動(dòng)強(qiáng)行分離(Neurally Decoupled)。