pixelSplat:用于可擴展3D重建的圖像對的3D高斯splat(CVPR2024)

2024-11-18 17:15| 發(fā)布者: 我什么都不知道 1375 1

摘要: 文章首發(fā)微信公眾號：小小cv筆記論文題目pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction1、簡介pixelSplat是一個前饋模型，它學習從圖像對中重建三維高斯基元參數(shù) ...

pixelSplat:用于可擴展3D重建的圖像對的3D高斯splat(CVPR2024)-5455

文章首發(fā)微信公眾號：小小cv筆記

論文題目

pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

1、簡介

pixelSplat是一個前饋模型，它學習從圖像對中重建三維高斯基元參數(shù)化的三維輻射場。模型具有實時和內存高效渲染，可擴展的訓練以及在推理時快速的3D重建。為了克服稀疏和局部支持表示所固有的局部最小值，我們預測了3D上的密集概率分布和該概率分布的樣本高斯均值。通過一個重參數(shù)化技巧使這個采樣操作可微，允許我們通過高斯飛濺表示反向傳播梯度。在現(xiàn)實世界的RealEstate10k和ACID數(shù)據(jù)集上對方法進行了寬基線新視圖合成的基準測試，其中我們優(yōu)于最先進的光場轉換器，并在重建可解釋和可編輯的3D輻射場時將渲染速度加快了2.5個數(shù)量級。

2、背景

1）單場景新穎視圖合成。早期的方法采用體素網格和學習的渲染技術，最近，神經場和體渲染已經成為事實上的標準。然而，這些方法的一個關鍵障礙是它們的高計算需求，因為渲染通常需要對每條光線進行數(shù)十次神經場查詢。離散數(shù)據(jù)結構可以加速渲染，但在高分辨率下無法實現(xiàn)實時渲染。3D高斯噴濺解決了這個問題，它使用3D高斯分布來表示輻射場，可以通過柵格化有效地渲染。然而，所有的單場景優(yōu)化方法都需要幾十張圖像來實現(xiàn)高質量的新視圖合成。

2）基于先驗的三維重建和視圖合成。可概括的新穎視圖合成旨在從每個場景的少數(shù)圖像中實現(xiàn)3D重建和新穎視圖合成。如果代理幾何(如深度圖)可用，機器學習可以與基于圖像的渲染相結合，以產生令人信服的結果。

3）在這項工作中，訓練神經網絡在單個前向傳遞中僅從兩張圖像中估計3D高斯原始場景表示的參數(shù)。我們的方法呈現(xiàn)出兩全其美的效果:它以3D高斯形式推斷出可解釋的3D場景表示，同時與光場變壓器相比，渲染速度加快了三個數(shù)量級。

3、方法

1）給定一對圖像及相機參數(shù)，可推斷出底層場景的三維高斯表示，可以渲染產生看不見的視點的圖像。方法包括一個雙視圖圖像編碼器（解決尺度模糊性）和一個像素對齊的高斯預測模塊。

pixelSplat:用于可擴展3D重建的圖像對的3D高斯splat(CVPR2024)-6771

2）雙視圖圖像編碼器，論文使用兩張圖像進行新視角合成，將兩個參考視圖表示為I1和 I2 。對I1中的每個像素，利用I2來中對應的外極線，來標注I1相應的深度。深度值是根據(jù)I1和 I2 的相機位姿計算出來的。編碼器通過外極注意力(epipolar attention)找到每個像素的對應關系，并記憶該像素的相應深度。如果在 I2 中沒有對應的像素的深度，則通過每幅圖像的自注意來修復。合成新視角基本都需要補充信息，常見的是加入深度信息，本文也是通過兩幅圖像計算出深度信息作為補充??

pixelSplat:用于可擴展3D重建的圖像對的3D高斯splat(CVPR2024)-9375

3)在兩個不同的視圖（圖像）中捕獲（投影）時，如何使用三角測量來計算點（X）的深度。在此圖中，C1 和 C2 分別是左右攝像頭的已知 3D 位置。x1 是左相機捕獲的 3D 點 X 圖像，x2 是右相機捕獲的 X 圖像。x1 和 x2 稱為對應點，因為它們是同一 3D 點的投影。我們使用 x1 和 C1 找到 L1，使用 x2 和 C2 找到 L2。因此，我們可以使用三角測量來找到 X，

pixelSplat:用于可擴展3D重建的圖像對的3D高斯splat(CVPR2024)-1853

4）像素對齊的高斯預測模塊，提出了像素對齊高斯函數(shù)的概率預測。對于輸入特征圖中的每個像素特征F[u]，神經網絡f預測高斯原語參數(shù)Σ和s，高斯位置μ和不透明度α不能直接預測，這將導致局部最小值。相反，f預測深度p?(z)上的每像素離散概率分布，由φ參數(shù)化。然后采樣產生高斯基元的位置。每個高斯的不透明度被設置為采樣深度桶的概率。最后一組高斯原語可以使用3DGS飛濺算法從新的視圖中渲染出來。

pixelSplat:用于可擴展3D重建的圖像對的3D高斯splat(CVPR2024)-1349

5)像素對齊高斯的概率預測，需要：深度桶b∈RZ，像素坐標u處的特征F[u]，參考視圖的相機原點o，射線方向du。1、預測深度概率φ和偏置δ，協(xié)方差Σ，球諧波系數(shù)S，2、樣本深度桶指數(shù)z從離散概率分布參數(shù)化的φ，3、通過解投影計算高斯平均值μ，深度bz由桶偏移量δz調整，4、根據(jù)采樣深度的概率設置高斯不透明度α

pixelSplat:用于可擴展3D重建的圖像對的3D高斯splat(CVPR2024)-8925