昨晚,CV界三大頂會之一的2021CVPR在clubhouse拉開了帷幕。今年,會議收到了21000名作者的7000篇投稿,經(jīng)過7400名審稿人和280名區(qū)域主席的審查,最終有1600篇論文被接收,接收率約0.24。其中,何愷明團(tuán)隊(duì)論文獲得了「最佳論文提名」。
CVPR 2021 來了!
推特上,有學(xué)者打趣說,CV論文可以分為這幾類:「只想混文憑」、「教電腦生成更多貓的照片」、「ImageNet上實(shí)驗(yàn)結(jié)果提升0.1%!」、「手握超酷數(shù)據(jù)集但并不打算公開」、「3年過去了,代碼仍在趕來的路上」、「實(shí)驗(yàn)證明還是老baseline性能更?!?、「我們的數(shù)據(jù)集更大!」、「研究范圍超廣,無他,我們有錢」、「花錢多,結(jié)果好」......
僅為調(diào)侃,請勿對號入座。
圖源:Jia-Bin Huang的推特
不過,言歸正傳,讓我們來看看今年被CVPR選中的都有哪些幸運(yùn)論文。
2021 CVPR 論文獎
最佳論文獎(Best Paper)
今年的最佳論文是馬克斯·普朗克智能系統(tǒng)研究所和蒂賓根大學(xué)團(tuán)隊(duì)的Michael Niemeyer, Andreas Geiger,他們的論文是:
GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields(GIRAFFE:將場景表現(xiàn)為組合生成的神經(jīng)特征場)
https://arxiv.org/abs/2011.12100
論文簡介:
深度生成模型可以在高分辨率下進(jìn)行逼真的圖像合成。但對于許多應(yīng)用來說,這還不夠:內(nèi)容創(chuàng)作還需要可控。雖然最近有幾項(xiàng)工作研究了如何分解數(shù)據(jù)中的潛在變化因素,但它們大多在二維中操作,忽略了我們的世界是三維的。此外,只有少數(shù)作品考慮到了場景的組成性質(zhì)。我們的關(guān)鍵假設(shè)是,將組合式三維場景表示納入生成模型,可以使圖像合成更加可控。將場景表示為生成性神經(jīng)特征場,使我們能夠從背景中分離出一個或多個物體,以及單個物體的形狀和外觀,同時(shí)無需任何額外的監(jiān)督就能從非結(jié)構(gòu)化和unposed的圖像集中學(xué)習(xí)。將這種場景表示與神經(jīng)渲染管道結(jié)合起來,可以產(chǎn)生一個快速而真實(shí)的圖像合成模型。正如我們的實(shí)驗(yàn)所證明的那樣,我們的模型能夠分解單個物體,并允許在場景中平移和旋轉(zhuǎn)它們,還可以改變攝像機(jī)的姿勢。
最佳論文榮譽(yù)提名(Best Paper Honorable Mentions)
何愷明和Xinlei Chen的論文Exploring Simple Siamese Representation Learning(探索簡單的連體表征學(xué)習(xí))獲得了最佳論文提名。
https://arxiv.org/abs/2011.10566
論文主要研究了:
「連體網(wǎng)絡(luò)」(Siamese networks)已經(jīng)成為最近各種無監(jiān)督視覺表征學(xué)習(xí)模型中的一種常見結(jié)構(gòu)。這些模型最大限度地提高了一個圖像的兩個增量之間的相似性,但必須符合某些條件以避免collapse的解決方案。在本文中,我們報(bào)告了令人驚訝的經(jīng)驗(yàn)結(jié)果,即簡單的連體網(wǎng)絡(luò)即使不使用以下任何一種情況也能學(xué)習(xí)有意義的表征。(i)負(fù)樣本對,(ii)大batch,(iii)動量編碼器。我們的實(shí)驗(yàn)表明,對于損失和結(jié)構(gòu)來說,collapse的解決方案確實(shí)存在,但stop-gradient操作在防止collapse方面發(fā)揮了重要作用。我們提供了一個關(guān)于stop-gradient含義的假設(shè),并進(jìn)一步展示了驗(yàn)證該假設(shè)的概念驗(yàn)證實(shí)驗(yàn)。我們的「SimSiam 」方法在ImageNet和下游任務(wù)中取得了有競爭力的結(jié)果。我們希望這個簡單的基線能促使人們重新思考連體結(jié)構(gòu)在無監(jiān)督表征學(xué)習(xí)中的作用。
代碼已開源 https://github.com/facebookresearch/simsiam
另一篇最佳論文提名是明尼蘇達(dá)大學(xué)團(tuán)隊(duì)Yasamin Jafarian, Hyun Soo Park的
Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos
https://arxiv.org/abs/2103.03319
最佳學(xué)生論文獎(Best Student Paper)
Task Programming: Learning Data Efficient Behavior Representations(任務(wù)編程:學(xué)習(xí)數(shù)據(jù)有效的行為表征)
作者團(tuán)隊(duì)來自加州理工和西北大學(xué)——Jennifer J. Sun, Ann Kennedy, Eric Zhan, David J. Anderson, Yisong Yue, Pietro Perona
https://openaccess.thecvf.com/content/CVPR2021/html/Sun_Task_Programming_Learning_Data_Efficient_Behavior_Representations_CVPR_2021_paper.html
論文簡介:
專門的領(lǐng)域知識對于準(zhǔn)確注釋用于深度分析訓(xùn)練集來說往往是必要的,但從領(lǐng)域?qū)<夷抢铽@得這些知識可能會很麻煩,而且耗時(shí)。這個問題在自動行為分析(automated behavior analysis)中非常突出,在自動行為分析中,從視頻跟蹤數(shù)據(jù)中檢測出代理的運(yùn)動或感興趣的行動。為了減少注釋工作,我們提出了TREBA:一種基于多任務(wù)自監(jiān)督學(xué)習(xí)的學(xué)習(xí)注釋-樣本高效軌跡嵌入(annotation-sample efficient trajectory embedding)的方法,用于行為分析。我們的方法中的任務(wù)可以由領(lǐng)域?qū)<彝ㄟ^我們稱之為「任務(wù)編程」(task programming)的過程進(jìn)行有效設(shè)計(jì),該過程使用程序?qū)︻I(lǐng)域?qū)<业慕Y(jié)構(gòu)化知識進(jìn)行明確編碼。通過用數(shù)據(jù)注釋時(shí)間換取少量編程任務(wù)的構(gòu)建,可以減少領(lǐng)域?qū)<业目偣ぷ髁俊N覀兪褂眯袨樯窠?jīng)科學(xué)的數(shù)據(jù)來評估這種trade-off,在這些數(shù)據(jù)中,專門的領(lǐng)域知識被用來識別行為。我們在兩個領(lǐng)域的三個數(shù)據(jù)集中展示了實(shí)驗(yàn)結(jié)果:小鼠和果蠅。與最先進(jìn)的特征相比,使用TREBA的嵌入,我們將注釋負(fù)擔(dān)減少了「10倍」,然而并不影響準(zhǔn)確性。因此,我們的結(jié)果表明,任務(wù)編程和自我監(jiān)督可以成為減少領(lǐng)域?qū)<易⑨尮ぷ鞯挠行緩健?/p>
最佳學(xué)生論文榮譽(yù)提名(Best Student Paper Honorable Mentions)
獲得「最佳學(xué)生論文」提名的有三篇
Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling(少即是多:通過稀疏取樣進(jìn)行視頻和語言學(xué)習(xí)的ClipBERT)
作者團(tuán)隊(duì)來自北卡羅來納大學(xué)教堂山分校和Microsoft Dynamics 365 AI Research的Jie Lei, Linjie Li, Luowei Zhou, Zhe Gan, Tamara L. Berg, Mohit Bansal, Jingjing Liu
https://openaccess.thecvf.com/content/CVPR2021/html/Lei_Less_Is_More_ClipBERT_for_Video-and-Language_Learning_via_Sparse_Sampling_CVPR_2021_paper.html
Binary TTC: A Temporal Geofence for Autonomous Navigation(二進(jìn)制TTC:用于自主導(dǎo)航的時(shí)間地理圍欄)
作者團(tuán)隊(duì)來自英偉達(dá)和加州大學(xué)圣巴巴拉分校的Abhishek Badki, Orazio Gallo, Jan Kautz, Pradeep Sen
https://openaccess.thecvf.com/content/CVPR2021/html/Badki_Binary_TTC_A_Temporal_Geofence_for_Autonomous_Navigation_CVPR_2021_paper.html
Real-Time High-Resolution Background Matting(實(shí)時(shí)高分辨率的背景消隱)
作者團(tuán)隊(duì)來自華盛頓大學(xué)的Shanchuan Lin, Andrey Ryabtsev, Soumyadip Sengupta, Brian Curless, Steve Seitz, Ira Kemelmacher-Shlizerman
https://openaccess.thecvf.com/content/CVPR2021/papers/Lin_Real-Time_High-Resolution_Background_Matting_CVPR_2021_paper.pdf
最佳論文評選委員會
以上最佳(學(xué)生)論文及提名由以下委員會評選:Deva Ramanan (主席),Lourdes Agapito, Zeynep Akata, Karteek Alahari, Xilin Chen, Emily Denton, Piotr Dollar, Ivan Laptev, Kyoung Mu Lee
其中,中科院計(jì)算所視覺信息處理與學(xué)習(xí)組的陳熙霖博士是委員會成員。
陳熙霖博士,研究員,ACM Fellow, IEEE Fellow, IAPR Fellow,中國計(jì)算機(jī)學(xué)會會士,國家杰出青年基金獲得者。主要研究領(lǐng)域?yàn)橛?jì)算機(jī)視覺、模式識別、多媒體技術(shù)以及多模式人機(jī)接口。先后主持多項(xiàng)自然科學(xué)基金重大、重點(diǎn)項(xiàng)目、973計(jì)劃課題等項(xiàng)目的研究。
曾任IEEE Trans. on Image Processing和IEEE Trans. on Multimedia的Associate Editor,目前是Journal of Visual Communication and Image Representation的Associate Editor、計(jì)算機(jī)學(xué)報(bào)副主編、人工智能與模式識別副主編,擔(dān)任過FG2013 / FG 2018 General Chair以及CVPR 2017 / 2019 / 2020, ICCV 2019等的Area Chair。
陳熙霖博士先后獲得國家自然科學(xué)二等獎1項(xiàng),國家科技進(jìn)步二等獎4項(xiàng),省部級科技進(jìn)步獎九項(xiàng)。合作出版專著1本,在國內(nèi)外重要刊物和會議上發(fā)表論文200多篇。
PAMITC 獎(PAMITC AWARDS)
除了最佳(學(xué)生)論文獎外,還有以下幾項(xiàng)大獎:
朗格-希金斯獎(Longuet-Higgins Prize)
該獎項(xiàng)以理論化學(xué)家和認(rèn)知科學(xué)家H. Christopher Longuet-Higgins的名字命名,表彰十年前對計(jì)算機(jī)視覺研究產(chǎn)生重大影響的CVPR 論文。
本屆委員會成員:W. Freeman (主席), J. Barron, D. Damen, D. Hoiem, K. Saenko
獲獎?wù)撐模?/h3>
1 Real-time human pose recognition in parts from single depth image(從單一深度圖像中實(shí)時(shí)識別人體姿勢的部位)
作者來自微軟:Jamie Shotton, Andrew Fitzgibbon, Mat Cook, Toby Sharp, Mark Finocchio, Richard Moore, Alex Kipman, Andrew Blake
2 Baby talk: Understanding and generating simple image descriptions(嬰兒談話:理解和生成簡單的圖像描述)
作者來自石溪大學(xué):Girish Kulkarni, Visruth Premraj, Sagnik Dhar, Siming Li, Yejin Choi, Alexander C. Berg, Tamara L. Berg
青年研究者獎(Young Researcher Awards)
該年度獎項(xiàng)旨在表彰對計(jì)算機(jī)視覺做出杰出研究貢獻(xiàn)的年輕研究人員。
本屆委員會:R. Zabih (主席), S. Lazebnik, G. Medioni, N. Paragios, S. Seitz
獲獎?wù)撸?/p>
1 Georgia Gkioxari, Facebook AI Research (FAIR)
2 Phillip Isola, MIT
首屆黃煦濤紀(jì)念獎(Inaugural Thomas Huang Memorial Prize)
值得注意的是,本屆黃煦濤紀(jì)念獎為首屆,以華裔信息學(xué)家命名。這個新的年度獎項(xiàng)將表彰在研究、教育和為計(jì)算機(jī)視覺界服務(wù)方面被認(rèn)為是榜樣的研究人員。
獲獎?wù)撸篈ntonio Torralba, MIT
委員會:T. Tuytelaars (聯(lián)合主席), R. Zabih (聯(lián)合主席), M. Black, R. Chellappa, A. Fitzgibbon, D. Fleet, E. Grimson, R. Hartley, K.M. Lee, C. Schmid, H. Shi
CVPR2021日程
今年的會議從19-25日,會議內(nèi)容如下:
其中,陳天奇也將會做客panel session分享未來的計(jì)算機(jī)視覺的機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施。
參考資料:
http://cvpr2021.thecvf.com
本文轉(zhuǎn)載自微信公眾號“新智元“(ID:new_xiaozhang),來源:CVPR2021,編輯:小勻、LQ。文章為作者獨(dú)立觀點(diǎn),不代表芥末堆立場,轉(zhuǎn)載請聯(lián)系原作者。
2、芥末堆不接受通過公關(guān)費(fèi)、車馬費(fèi)等任何形式發(fā)布失實(shí)文章,只呈現(xiàn)有價(jià)值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報(bào)道,請您 填寫信息告訴我們。