bilateral grid（双边网格）

双边网格(bilateral grid)的原理全解析，非常通俗易懂

追影子的蛇

2714人浏览 · 2023-12-11 20:50:54

追影子的蛇 · 2023-12-11 20:50:54 发布

bilateral grid

双边滤波
双边网格(bilateral grid)
双边网格的变体

最近掌握了一种叫做 bilateral grid的数据结构，关于它的资料在网上比较少而且都写得不够深入，我尝试来写一下^-^

要理解bilateral grid，必须要读的文章是：Real-time Edge-Aware Image Processing with the Bilateral Grid, ACM TOG, 2007

bilateral grid的提出本身是为了加速诸如双边滤波(bilateral filter)、边缘感知绘画(edge-aware inpainting)和局部直方图均衡(local histogram equalization)等算法，让这些算法能够在GPU上进行并行计算。

在开始介绍bilateral grid之前，需要一点点对双边滤波的了解作为前置知识。

双边滤波

双边滤波的主要应用场景是图像平滑化，对比普通的高斯平滑核(gaussian filter)，双边滤波能更好地保持图像的结构边缘信息。

对于一张大小为(h, w)的灰度图，用 $I (p)$ 表示取出其中点 $p$ 的强度值。

局部滤波器的工作原理是：对于每一中心点 $p$ ，对其邻域窗口 $\mathcal{N}_p$ 内的点集 $\{q| q\in \mathcal{N}_p\}$ 做加权平均，得到点 $p$ 对应的滤波器输出。

高斯平滑核：对于权值的设计，仅考虑点 $p$ 和点 $q$ 之间的位置关系，即定下 $\sigma$ 和窗口大小后，对于每一个邻域窗口 $\mathcal{N}_p$ ，卷积核都是固定的。
$G(p)=\frac{1}{W_p}\Sigma_q g_\sigma(\Vert q-p\Vert )I(q)，其中g_\sigma(x) = \frac{1}{\sigma \sqrt{2\pi}}e^{- \frac{ x_2^2}{2\sigma^2}}$
$具体来说，g_\sigma(\Vert q-p\Vert ) = g_\sigma(x_q - x_p)\cdot g_\sigma(y_q - y_p) = \frac{1}{\sigma^2 2\pi}e^{- \frac{(x_q-x_p)^2 +(y_q-y_p)^2 }{2\sigma^2}}$
双边滤波：在权值的设计上，除了考虑点 $p$ 和点 $q$ 之间的位置关系外，还考虑点 $p$ 和点 $q$ 之间的值的大小关系。这一点也很通俗易懂：如果两点之间的值差异较大，也意味着两点的相关性比较小，那么在平滑操作上，点 $q$ 的信息对于平滑点 $p$ 的作用不大，对应权值就应该要小一些。
$\frac{1}{k_p}\Sigma_q g_{\sigma_p}(\Vert q-p\Vert )\cdot g_{\sigma_i}(\Vert I(q)- I(p)\Vert )\cdot I(q)$
双边滤波的设计是edge-aware的，但是有一个非常致命的缺点：它的卷积核是spatial varying的，也就是说，对于每一个邻域窗口 $\mathcal{N}_p$ ，都要重新计算卷积核。这样一来，计算复杂度和耗时都大大增加！

那么，该如何既利用得到双边滤波的优秀性能，又能兼顾效率呢？bilateral grid就能实现这一点。

双边网格(bilateral grid)

对于一张大小为(h, w)的灰度图[每个像素点取值范围为0-255]，每一个点其实包含3个维度的信息：x坐标，y坐标和像素值。双边网络的思想就是做维度的扩充，使用一个三维（下采样）的tensor来包含全图的信息。

先贴一张论文中的图，下图即为利用双边网格加速双边滤波实现的流程：
在这里插入图片描述
论文中举了个1D image的例子，并不是我们生活中常见的灰度图/彩图，我将以更常见的灰度图来主要例子来讲解。

bilateral grid的大小

先给出一些定义：
$s_s$ ：在空间维度下采样的倍数，用于控制smoothing的程度。
$s_r$ ：在值强度维度下采样的倍数，用于控制对边缘信息的保留程度。

那么，这两个超参数就决定了bilateral grid的大小为： $h/s_s, w/s_s, 256/s_r)$

bilateral grid的创建

初始化：首先，初始化每个grid node $(i, j, k)$ 值为 $\Gamma(i,j,k)=(0, 0)$ 。grid node中存储的是二元组，第一个元素存储被映射到这个grid node上的点的值强度之和，第二个元素存储被映射到这个grid node上的点的数量。
值填充：遍历图上每个点 $p$ ，执行操作 $\Gamma([x/s_s],[y/s_s],[I(p) / s_r]) += (I(p), 1)，其中[\cdot]为\text{round operator}（四舍五入取整）$
这个操作的含义是：将灰度图上的每一个点都映射到bilateral grid对应的位置上去。

创建好的bilateral grid包含了整张灰度图的全部信息。

Processing

用一个3D gaussian filter $f$ 对bilateral grid本身做卷积操作，即等价于在灰度图上应用bilateral filter
$\tilde{\Gamma} = f(\Gamma)，$
$其中f中两点m和n，值为g_{\sigma_s}(x_n - x_m)\cdot g_{\sigma_s}(y_n - y_m)\cdot g_{\sigma_i}(z_n -z_m)$
这样子，就能巧妙地运用并行计算操作来实现bilateral filter了，但是得到还不够 $\tilde{\Gamma}$ ，我们希望得到的是一个和灰度图输入等大的输出，也就是说，要做和创建bialteral grid中的值填充的逆操作类似的操作。

恢复成图像(slicing)

在文中，运用三线性插值来还原出输出图像 $M$ 中每个点的值强度
除了处理过后的bilateral grid $\tilde{\Gamma}$ 外，还需要一张reference image $E$ 。在实际应用中， $E$ 可能是输入图像本身，也可能是用输入图像生成的guidance map。
$s_E(\tilde{\Gamma})$
对于三线性插值，这里就不赘述了，原理很简单：对于 $E$ 中每一点 $p$ ，求出其在 $\tilde{\Gamma}$ 上的位置映射，包含其的最小的cude有8个角点，根据位置对它们做加权求和，即能获得 $p$ 在 $\tilde{\Gamma}$ 上的二元组值 $I_{total}(p), n_p)$ 。