四月,計算機視覺領(lǐng)域的研究繼續(xù)在多個關(guān)鍵方向高歌猛進,從突破性的多模態(tài)理解、驚艷的3D內(nèi)容生成,到追求極致的模型效率,每一篇論文都為我們描繪著AI“視界”的未來圖景。以下為您精選并解讀本月值得關(guān)注的部分前沿工作。
1. 多模態(tài)理解與生成的邊界拓展:Video-MME
來自上海人工智能實驗室等機構(gòu)的研究團隊發(fā)布了 Video-MME,一個旨在全面評估大模型長視頻理解能力的評測基準。與以往側(cè)重于短片段或特定任務(wù)的數(shù)據(jù)集不同,Video-MME涵蓋了從感知(如物體識別)到認知(如情感分析、因果推理)的多樣化任務(wù),視頻時長跨度大,對模型的時序理解、上下文關(guān)聯(lián)和信息整合能力提出了嚴峻挑戰(zhàn)。該基準的發(fā)布,標志著視頻理解評估向更貼近真實世界復雜場景邁出了關(guān)鍵一步,將有力推動下一代視頻大模型的發(fā)展。
2. 3D生成技術(shù)的“涌現(xiàn)”:從2D先驗到高質(zhì)量3D資產(chǎn)
3D內(nèi)容生成是今年的絕對熱點。一項名為 “LRM:大型重建模型” 的工作引發(fā)了廣泛關(guān)注。該模型能夠僅憑單張物體圖像,在數(shù)秒內(nèi)預測出該物體的高保真3D網(wǎng)格模型。其核心在于一個龐大的端到端Transformer架構(gòu),它直接從圖像像素映射到3D Triplane(一種高效的3D表示)特征,再通過解碼器生成細節(jié)豐富的網(wǎng)格。這項研究展示了大規(guī)模數(shù)據(jù)與統(tǒng)一架構(gòu)在3D生成任務(wù)上的巨大潛力,為游戲、影視、VR/AR內(nèi)容的快速制作提供了強大工具。
3. 視覺基礎(chǔ)模型的“瘦身”與“提速”:高效架構(gòu)設(shè)計
在模型效率方面,MobileVLM系列 的更新尤為亮眼。研究人員在保持視覺語言模型(VLM)強大能力的專注于為移動和邊緣設(shè)備設(shè)計高效架構(gòu)。通過精心設(shè)計的投影模塊、高效的視覺編碼器(如MobileNet)與語言模型(如Phi-2)的協(xié)同,以及針對設(shè)備端的指令調(diào)優(yōu)數(shù)據(jù),MobileVLM V2在多項標準基準上取得了與龐大模型相近的性能,而參數(shù)量和計算需求卻大幅降低。這為在資源受限環(huán)境中部署先進的視覺語言應(yīng)用鋪平了道路。
4. 動態(tài)場景理解的新范式:從視頻中學習物理世界
如何讓AI從視頻中學習物理世界的動態(tài)規(guī)律?論文 “Learning Physical Dynamics from Video” 提出了一種新穎的自監(jiān)督框架。模型通過觀看未標注的視頻,學習預測物體在受到潛在作用力后的運動軌跡。它不依賴于精確的3D標注或物理參數(shù),而是通過視覺信息直接隱式地建模物理動態(tài)。這項工作在連接計算機視覺與物理世界理解方面做出了有益探索,對于機器人操作、自動駕駛等需要預測環(huán)境變化的領(lǐng)域具有重要意義。
5. 圖像編輯的精準控制:基于擴散模型的細粒度操作
在圖像生成與編輯領(lǐng)域,基于擴散模型的 “細粒度屬性操控” 研究取得了新進展。傳統(tǒng)方法通常難以在編輯時(例如“讓這個人微笑”)精確保持圖像其他無關(guān)區(qū)域的絕對一致。新方法通過引入更解耦的條件注入機制或基于注意力的特征約束,實現(xiàn)了對特定區(qū)域?qū)傩缘木珳省ⅹ毩⒕庉嫞瑫r最大程度地保留了原始圖像的全局布局與細節(jié)。這使AI繪畫工具在實用性和可控性上更進一步。
與展望
2024年4月的計算機視覺研究呈現(xiàn)出 “深化”與“普及” 并行的趨勢。一方面,研究向更復雜(長視頻、3D)、更本質(zhì)(物理規(guī)律)的問題深化;另一方面,頂尖技術(shù)也在通過各種優(yōu)化手段,積極走向輕量化與實用化。多模態(tài)大模型、3D生成和高效架構(gòu)無疑是當前最活躍的賽道,它們的交叉與融合,將持續(xù)驅(qū)動整個領(lǐng)域產(chǎn)生革命性的應(yīng)用。