全部評(píng)論: 0條
訪談大師:童欣
童欣,1999年畢業(yè)直接加入微軟亞洲研究院,目前擔(dān)任微軟亞洲研究院網(wǎng)絡(luò)圖形組首席研究員,主要研究方向?yàn)橛?jì)算機(jī)圖形學(xué)和計(jì)算機(jī)視覺(jué)。
童欣于研究院的自述:幾天前我得到通知要在這里做一個(gè)報(bào)告,我非常焦慮和緊張。上次這么緊張還是第一次在SIGGRAPH報(bào)告論文的時(shí)候。我想了很久,決定了這個(gè)題目,“網(wǎng)絡(luò)圖形:從交互到智能”,我想把過(guò)去幾年來(lái)的一些想法作一個(gè)思想?yún)R報(bào),請(qǐng)各位院友指正、批評(píng)、提出建議。
事情要從15年前說(shuō)起,2001年的時(shí)候,Harry(沈向洋)和百寧(郭百寧)決定要成立一個(gè)新的圖形組,那么就需要有一個(gè)很酷的組名,于是他們決定叫做“互聯(lián)網(wǎng)圖形組”。名字起得很好,問(wèn)題也馬上來(lái)了:基本上每個(gè)見(jiàn)到我們的人都問(wèn)什么是 Internet Graphics。為了回答這個(gè)問(wèn)題,在2001年的時(shí)候我們集中全組的力量做了第一個(gè)項(xiàng)目,Game Download & Play,這項(xiàng)目我們想把游戲圖形的數(shù)據(jù)、幾何、紋理做一些壓縮,通過(guò)互聯(lián)網(wǎng)下載的時(shí)候,大家就不用等那么長(zhǎng)的下載時(shí)間了,很快把一部分?jǐn)?shù)據(jù)下載到本地之后,大家就可以開始玩游戲了。這項(xiàng)目可以說(shuō)非常成功。這之后我們順利地開始做 SIGGRAPH……轉(zhuǎn)眼到了2010年,百寧把接力棒交給我,讓我慢慢開始負(fù)責(zé)整個(gè)圖形組,那么我要怎樣激勵(lì)大家、我們組里應(yīng)該有什么樣的愿景。我也開始思考這些問(wèn)題,重新在問(wèn)自己到底什么是互聯(lián)網(wǎng)圖形?
如果我們看看周圍,可以看到很多成功的例子?;ヂ?lián)網(wǎng)加文字,有網(wǎng)絡(luò)文學(xué)、微博,維基百科。加圖片就有美圖秀秀、Instgram等等?;ヂ?lián)網(wǎng)加視頻也很好,有Youtube、愛(ài)奇藝等很多國(guó)內(nèi)網(wǎng)站,還有網(wǎng)絡(luò)直播,還有了網(wǎng)紅?;仡^再看看Graphics,卻好像什么都沒(méi)發(fā)生,就這樣過(guò)了十年,那么到底出了什么問(wèn)題呢?——有傳言說(shuō),如果你站在風(fēng)口,就算你是一頭豬也能飛起來(lái)。可是我這么瘦的一個(gè)人,站了這么久,怎么還沒(méi)飛起來(lái),這到底出了什么問(wèn)題?
我做了一些粗淺的研究,認(rèn)真想了一想。我發(fā)現(xiàn),飛起來(lái)這件事,不是什么都可以,要滿足兩個(gè)條件:第一,要Everyone,就是內(nèi)容最好是每一個(gè)人都能產(chǎn)生、都能創(chuàng)造,那么有了網(wǎng)絡(luò)大家就可以互相交流,你的內(nèi)容就會(huì)有海量增長(zhǎng)。第二,要Everywhere,隨著移動(dòng)平臺(tái)的發(fā)展,如果你這個(gè)內(nèi)容的產(chǎn)生和消費(fèi)能互聯(lián)到每一個(gè)平臺(tái)上,讓大家在任何地方都能生產(chǎn)消費(fèi),這時(shí)候你就真的飛起來(lái)了。
那么我們看看圖形學(xué)到底是個(gè)什么狀況?答案很悲慘:在Everyone方面,三維內(nèi)容的生產(chǎn),對(duì)普通用戶而言還是非常難的任務(wù)。最左邊大家可以看到傳統(tǒng)的造型動(dòng)畫軟件,界面很復(fù)雜,即使是藝術(shù)家也需要好幾年的學(xué)習(xí)才能做好一個(gè)模型。另一方面,雖然我們有一些設(shè)備幫助大家來(lái)做三維內(nèi)容的捕捉,比如三維掃描儀、光穹、動(dòng)捕等等,但這些設(shè)備都非常昂貴,每個(gè)要幾百萬(wàn),還需要專門的場(chǎng)地和專業(yè)的操作,普通用戶享受不到。
我們?cè)倏纯碋verywhere,發(fā)展了這么多年,所有三維圖形的內(nèi)容都是通過(guò)一個(gè)二維的屏幕來(lái)傳遞給大家的——某種意義上來(lái)講,我們的內(nèi)容和2D的視頻就沒(méi)有太大的區(qū)別。我們的交互就不用提了,我們還得通過(guò)鼠標(biāo)、鍵盤或者gamepad進(jìn)行交互,這些交互跟我們?cè)谡鎸?shí)三維世界中所做的交互是非常不同的。由于這些限制,大家就會(huì)發(fā)現(xiàn),到現(xiàn)在為止,圖形的生產(chǎn)和消費(fèi)基本和互聯(lián)網(wǎng)無(wú)關(guān),基本的方式還是少數(shù)的藝術(shù)家,他們組織在一起,經(jīng)過(guò)艱苦的奮斗,做了一些游戲、電影,然后把東西通過(guò)市場(chǎng)分發(fā)給成千上萬(wàn)的消費(fèi)者進(jìn)行消費(fèi)。一切還是停留在傳統(tǒng)的模式。
基于這樣的想法,我們就提出了我們互聯(lián)網(wǎng)圖形組的愿景,這就是,我們希望做一些圖形學(xué)的工具和系統(tǒng),能幫助每個(gè)人很方便地產(chǎn)生、觀看和分享一些三維內(nèi)容。同時(shí),我們希望能在自然世界和虛擬世界間提供更自然的界面和交互的方式,另外我們還想在可視的和不可視的抽象信息之間提供一些自然的界面,把抽象的信息變成可視的展現(xiàn)出來(lái)。
過(guò)去五年我們?yōu)榱诉@一愿景做了很多不同方面的研究,慢慢意識(shí)到也許基于智能或者數(shù)據(jù)的方法是個(gè)很好的解決方案。原因有下面幾個(gè):第一,我們已經(jīng)有了一些昂貴的設(shè)備,這些設(shè)備幫助我們捕捉了大量高質(zhì)量的數(shù)據(jù)。第二,我們也有了比較便宜的設(shè)備,這些設(shè)備可以為我們的系統(tǒng)提供一個(gè)初始的輸入,不用從零開始了。最后,是一些關(guān)于機(jī)器學(xué)習(xí)方面的技術(shù)進(jìn)展可以讓我們把這些技術(shù)用到圖形學(xué)的問(wèn)題里。
那么也許一個(gè)比較好的解決方案是通過(guò)低價(jià)普及的設(shè)備,比如普通相機(jī)和深度相機(jī),加上智能的算法,再有些時(shí)候需要一些簡(jiǎn)單的用戶輸入,來(lái)方便地產(chǎn)生三維的內(nèi)容。關(guān)于智能算法,我們希望它能做兩件事,一是希望能夠利用到所有三維數(shù)據(jù)的本征特性,用這些幫助我們產(chǎn)生內(nèi)容; 二是可以用機(jī)器學(xué)習(xí)來(lái)進(jìn)行端到端的學(xué)習(xí),在輸入和輸出之間直接建立一些聯(lián)系。
下面我用我們組研究的一個(gè)研究課題三維物體的數(shù)字化來(lái)進(jìn)一步說(shuō)明舉例。
三維物體數(shù)字化的目標(biāo)是希望將一個(gè)真實(shí)世界的三維物體,完美地傳遞掃描進(jìn)一個(gè)虛擬世界。為做到這一點(diǎn),我們不僅僅要捕捉三維物體的幾何形狀,還要重現(xiàn)它的材質(zhì)信息。注意,有了幾何信息雖然可以知道物體形狀,卻不知道這個(gè)物體是什么,只有有了物體材質(zhì)表面反射屬性以后,我們才能在三維世界中真正栩栩如生地體現(xiàn)出來(lái),大家就會(huì)的清楚知道這是真實(shí)世界的一個(gè)啤酒瓶,上面有一個(gè)紙標(biāo)簽,標(biāo)簽上有燙金字……我想我不需要再說(shuō)明這樣一個(gè)工具對(duì)VR/AR內(nèi)容的產(chǎn)生、或者對(duì)虛擬購(gòu)物等應(yīng)用是多么重要。
那么我們看看現(xiàn)在的解決方案是什么?;旧衔覀兛梢园l(fā)現(xiàn)這流水線還是非常長(zhǎng)的,首先用設(shè)備掃描三維幾何形狀,但是掃描得到的這些幾何形狀在大部分情況下非常糟糕,需要大量人工交互工作來(lái)去除噪聲、平滑三維模型。材質(zhì)捕捉就更麻煩了,我們需要把物體挪到專用的捕捉室,放在專用的設(shè)備上,捕捉物體在各種光照、各種視點(diǎn)下的外觀,有了這些才能采集出真正的物體形狀和材質(zhì)。大家可以發(fā)現(xiàn)這樣一個(gè)基本的任務(wù)還是有很多障礙,首先去噪方面需要很多手工交互工作,其次材質(zhì)捕捉設(shè)備很昂貴,另外這個(gè)流水線很長(zhǎng),需要分開的步驟去先捕捉幾何,再用另外的設(shè)備捕捉材質(zhì)。
那么我們看看用一些智能的算法能幫我們做什么事情:第一個(gè)要介紹給大家的是我們?nèi)ツ暄邪l(fā)出來(lái)的一個(gè)數(shù)據(jù)驅(qū)動(dòng)的模型去噪算法。這里要做的是希望有個(gè)自動(dòng)的算法,幫我們除去掃描模型上的噪音,同時(shí)保留模型上面所有的幾何細(xì)節(jié),并且算法對(duì)不同設(shè)備掃描出來(lái)的模型都能很好的處理。我們的算法通過(guò)收集帶噪聲的掃描模型和對(duì)應(yīng)的基本沒(méi)有噪聲的高質(zhì)量模型,先去學(xué)習(xí)訓(xùn)練這些幾何之間的對(duì)應(yīng)關(guān)系?;谶@個(gè)對(duì)應(yīng)關(guān)系,我們就可以將一個(gè)帶有噪聲的掃描模型直接對(duì)應(yīng)生成它的沒(méi)有噪聲的模型,從而實(shí)現(xiàn)去噪的效果。這是我們組的劉洋研究員帶領(lǐng)實(shí)習(xí)生完成的工作。
我們這個(gè)算法在訓(xùn)練好了以后,用戶在用的時(shí)候是全自動(dòng)的。更了不起的是,我們的算法在我們所有的測(cè)試模型上去噪效果都超過(guò)了所有目前已有的模型去噪算法。同時(shí)我們的算法還比所有已知算法都要快。我們很快會(huì)把我們的算法源代碼和數(shù)據(jù)公布在網(wǎng)上,希望其他研究人員都可以在基礎(chǔ)上繼續(xù)研究,同時(shí)很多用戶也可以直接使用我們的算法。
下面我們來(lái)看一些實(shí)驗(yàn)結(jié)果。左邊是輸入一個(gè)掃描模型,有很多的噪聲,右邊是Ground Truth,右邊第二個(gè)是我們算法得到的結(jié)果。
這是另一個(gè)例子,掃描模型的噪音非常大,以前的算法只能除掉一些噪音,或者會(huì)抹去很多模型上的集合細(xì)節(jié)。我們的算法可以比較好地去掉模型上的噪聲,同時(shí)比較好地保留它的幾何細(xì)節(jié)。
我們?cè)倏纯床馁|(zhì)捕捉方面,剛才我們說(shuō)材質(zhì)捕捉設(shè)備很昂貴,捕捉過(guò)程很麻煩。有什么更好的做法來(lái)做呢?我們?cè)趦赡昵白隽耸澜缟系谝粋€(gè)不需要任何特殊設(shè)備和光照,只從自然未知光照下拍攝的物體視頻出發(fā)進(jìn)行材質(zhì)捕捉的算法。這是我們團(tuán)隊(duì)的董悅研究員帶領(lǐng)實(shí)習(xí)生完成的工作。輸入就是大家看到的左邊的視頻序列,右邊是輸出的材質(zhì)捕捉的結(jié)果,最后我們把它放在一個(gè)新的光照下,物體可以栩栩如生地再現(xiàn)出來(lái)。
這個(gè)算法的關(guān)鍵是我們要從視頻中同時(shí)估計(jì)物體的光照和材質(zhì)屬性。我們發(fā)現(xiàn)自然環(huán)境中的光照和材質(zhì)本身具有不同的屬性,可以用這些屬性很巧妙地從觀察的數(shù)據(jù)最終把二者分分離開來(lái)。
這里顯示了我們算法所恢復(fù)的物體的材質(zhì)效果,不論是啤酒瓶上印刷的標(biāo)簽,還是光滑的瓷器,還是帶有鐵銹的金屬,我們的算法都能自動(dòng)地從一些視頻序列中把高質(zhì)量的材質(zhì)重構(gòu)出來(lái)。
有了這些工作,上面的流水線變得簡(jiǎn)單自動(dòng)了很多,但還是要經(jīng)過(guò)兩步。有沒(méi)有可能一步就把所有事情搞定?去年我們?cè)谶@方面做了一些研究,做了世界上第一個(gè)從視頻中同時(shí)恢復(fù)物體的幾何形狀和表面材質(zhì)的算法。這個(gè)方法只是用了視頻而不再需要任何的深度相機(jī)捕捉的數(shù)據(jù)。同樣,我們的算法不需要知道光照信息。左邊是我們算法輸入的視頻,右邊是捕捉的物體和材質(zhì)在新的光照環(huán)境下繪制的結(jié)果。
這是我們捕捉到的幾何和材質(zhì)和真實(shí)照片的對(duì)比,你可以看到所有的幾何細(xì)節(jié)、表面反光和材質(zhì)屬性都被很好的重建出來(lái)了。在不同的光照下看,所有物體都像真實(shí)物體一樣得到真實(shí)再現(xiàn)。
基于這一結(jié)果,我們把做的結(jié)果放到HoloLens,并和我們周圍的真實(shí)光照結(jié)合在一起,可以生成非常真實(shí)的效果。
剛才我們以物體的數(shù)字化為例說(shuō)明了如何采用智能的算法幫助我們簡(jiǎn)化建模過(guò)程,方便普通用戶捕捉三維內(nèi)容??偨Y(jié)一下,在過(guò)去幾年中我們?cè)谥悄芩惴ǚ矫孀隽撕芏嗯?,我們逐漸認(rèn)識(shí)到,智能算法也許是能夠?qū)崿F(xiàn)普通用戶產(chǎn)生三維內(nèi)容的一個(gè)最終解決方案 。
最后,我也想分享一下我在這個(gè)過(guò)程中所得到的經(jīng)驗(yàn)或者教訓(xùn):我總結(jié)為三個(gè)D。首先是Open-minded。我們要積極地學(xué)習(xí)借鑒其他領(lǐng)域的方法算法,比如我剛才講的去噪算法,就是從孫劍和周昆他們做人臉跟蹤那里學(xué)習(xí)的算法。而我們所做的材質(zhì)捕捉的算法,是從視覺(jué)里面的圖像防抖算法里得到的啟發(fā)?,F(xiàn)在我們也在學(xué)習(xí)和深度學(xué)習(xí)相關(guān)的東西。第二是 Concentrated。第一條就像吸星大法,把別人的東西都吸過(guò)來(lái)了,但還不夠,還要易筋經(jīng),把東西化成自己的,要知道自己拿到這個(gè)工具是要解決自己的問(wèn)題的,聚焦于自己的問(wèn)題,把那些東西為你所用。最后是End to end,我們并不想發(fā)了一篇論文然后研究就結(jié)束了,論文更多的是一個(gè)交流表達(dá)的手段,關(guān)鍵是把問(wèn)題真正給解決掉,最后給用戶提供一個(gè)真正的端到端的解決方案。
展望未來(lái),可以說(shuō)我們才剛剛起步,前面還有很長(zhǎng)的路要走。這也許是個(gè)壞消息,但對(duì)我來(lái)說(shuō)這其實(shí)也是好消息。因?yàn)檫@意味著前面還有很多不確定性、很多挑戰(zhàn)。作為一個(gè)研究人員來(lái)說(shuō),這些困難、挑戰(zhàn)也正是我們最終的樂(lè)趣所在,雖千萬(wàn)人,吾往矣。
謝謝大家。
以上內(nèi)容整合于網(wǎng)上資料。
店鋪:ROCK SHAPEWAYS售價(jià):899
店鋪:聲波穿梭成迷茫售價(jià):15.00
店鋪:購(gòu)任性售價(jià):349.00