图像融合的优势是更准确、花费更少的时间和更低的成本获取更多信息。此外,融合的图像可以使有时在单一图像中被忽略的事物特征得到区分。总的来说,图像融合的意义体现为:图像冗余信息、互补信息和低成本。
图像冗余信息:当每个独立的传感器成像时,冗余信息由一组传感器(或单个传感器在一段时间成像)提供。由于不同时间或者不同传感器对同一事物可能有不同精度的描述,就会产生一系列图像冗余信息。有效融合冗余信息可以降低整体图像的不确定性,从而提高成像准确性。
互补信息:不同成像传感器可以采集不同的信息图像,不同的图像之间互相具有互补信息,融合方法可以综合多张图像提供的互补信息,融合后的图像往往比源图像包含更为丰富、全面的信息。图像的互补信息可以得到成像环境中的特征,这些特征仅仅使用一张图像信息可能无法描述。
低成本:图像融合使成像系统获取图像的成本更低。比如,可以使用一组普通的传感器来获得使用非常昂贵的单个传感器才能实现的性能。
二、技术的当前发展水平与应用
根据图像融合规则,图像融合可以分为三个层级:像素层级融合(pixel-levelfusion)、特征层级融合(feature-levelfusion)和符号层级融合(symbol-level fusion)。像素层级融合是生成的融合图像中的每个像素是由每个源图像中的像素综合确定的。在特征层级融合方法中,首先对源数据进行特征提取,而后对信息进行综合分析,再进行融合处理,此方法是基于特征信息的融合。符号层级融合允许来自多幅图像的信息在更高层次上进行有效提取组合,用于融合的符号对源数据信息进行分类、识别产生的。一种常见的符号层级融合是决策型融合,即在对像素、特征进行分类、识别、综合判断之后进行融合。
近年来,图像融合技术已经在各个领域引起了大量的关注,在医学图像分析[30-32]、数码相机视觉、视觉传感器网络、3D图像重构、遥感探测、反恐检查、灾情检测与预报、环境保护等领域发挥着重要的作用。以下举几个例子:
1)改进遥感图像的光谱和空间分辨率:遥感图像是地表反射的电磁波被遥感传感器捕获形成的。因为不同类型成像传感器的成像原理的差异、成像条件的不同的限制,其应用范围有一定的局限性,所以任何单一的遥感数据都不能全面地反映环境物体的特征。如果将多光谱传感器和全色传感器图像融合在一起,可以更全面地表现地面物体,提供可靠的信息。而且融合之后的图像同时具有多光谱、高分辨率特点。如图2-1所示,图2-1(a)是一幅具有高空间分辨率低光谱分辨率的全色图像,图2-1(b)是一幅具有高光谱分辨率低空间分辨率的多光谱图像,融合图2-1(a)和图2-1(b)得到的图2-1(c)同时拥有高空间分辨率和光谱分辨率。
2)灾情检测与预报:洪水是最为频繁的自然灾害之一,造成的伤亡损失都极为严重。因而,对洪水的有效监测和预报是非常重要的。使用合成孔径雷达(Synthetic Aperture Radar ,SAR)进行水体监测已成为许多研究人员的研究对象,因为SAR无论在白天或者黑夜,各种天气条件下都能获取图像,其数据源可以得到保证。但是ASR图像中存在一定斑点噪声,这会使得水体边界模糊,水体识别的准确度就会降低。另一种水体探测的方法是基于光学影像进行水体探测,其原理就是利用水体的多光谱特性进行探测。这种方法的特点是获取的图像边界清晰、速度快,但是容易受天气影响,不能保证图像获取的稳定性。把这两种互补的图像数据进行融合,可以得到水体边界清晰,容易区分水体的图像。这对于后续的分析,预测发挥着重要作用。
3)医学图像分析:现代医学中经常使用成像技术,医学图像如X片、CT、PET、MRI等为医生诊断病情提供了重要依据。不同的成像系统都有一定的限制,比如CT(电子计算机断层扫描,使用X射线束扫描人体某部一定厚度的层面)图像对骨质结构和钙化结构的分辨率高,但是对软骨组织的显示却不理想。而MRI(核磁共振影像)对软骨组织的分辨率却很高。CT和MRI提供的信息都不足以反映实际的病情。医生如果通过反复观察图像以诊断病情,这将会耗费大量的时间,可能会影响手术的进程。而CT-MRI图像融合可以有效的结合不同图像的信息,提供一个对骨质结构和软骨结构高分辨率的图像,为外科导航技术提供更全面、可靠的信息。但是,这对于图像融合有很高的要求。图2-2是一个CT-MRI图像融合的例子,其中图2-2(a)和图2-2(b)分别是 CT图像和MRI图像,图2-2(c)为融合得到的图像。
4)多聚焦图像融合:多聚焦图像融合方法对于增强数码相机图像非常有用。通常来说,普通相机难以获得在任何地方聚焦的图像,这是由于所使用的镜头聚焦能力有限,不能同时对景深不同的物体聚焦。一种不需要更换昂贵的摄像机又能有效地解决这个问题的方法就是进行图像融合。通过拍摄多张聚焦点不同的图像,把它们融合成一张全聚焦的图像。如图2-3所示,图2-3(a)图是一幅聚焦在左边的图像,图2-3(b)图是一幅聚焦在右边的图像,融合图2-3(a)和图2-3(b)后得到了全聚焦的图像图2-3(c),融合后的图像明显清晰了许多。
5)3D图像:一个常用的3D图像重构的应用是虚拟现实技术。简单地说,虚拟现实就是由计算机自动生成的一个具有三维视觉、触觉、听觉的环境。在这个技术中,图像融合对于3D场面的重建必不可少。
此外,在民用应用方面,图像融合技术也具有巨大潜力。在工业制造业中,图像融合可用于复杂的设备诊断、产品检查、制造过程监控以及生产线设备的安装等。在信息加密方面,水印的植入和数字图像的隐藏也可以通过图像融合来实现。
三、技术的关键点
图像融合通常分为3个层级:像素层级融合、特征层级融合和符号层级融合。融合的流程一般如图3-1所示,不同的融合方法可能在具体步骤中有所不同,但是大体上是相差无几的,图像融合的大致过程包括:图像预处理、配准、融合。
图像融合技术的第一步是图像预处理,图像预处理主要是对原图像进行一些基本的图像处理以提高图像质量从而满足后续步骤图像质量的基本要求。图像预处理之后对图像进行空间配准,配准的目的是为了使两幅图在空间上对齐。对于像素层级的图像融合来说,图像配准是融合的先决条件,图像配准处理的准确性会直接决定融合后图像的质量和准确性。最后进行融合的步骤主要是消除图像融合的缝线,使图像看起来自然平滑。更重要的是图像融合之后可能会产生重影,所以在这一步骤中就要消除图像重影,提高图像的清晰度。
四、技术的难点
图像配准是在图像融合处理前一个关键步骤。除非待融合的图像在拍摄获取过程中位置完全没有变化,或者已经经过配准,才不需要进行图像配准处理。图像配准的目的,以两幅有局部重叠区域的图像配准为例,就是对图像进行空间上的匹配,使其重叠部分在空间上完全对准。在实际的拍摄图像中,导致图像时空位置不一致的因素有很多,包括,在拍摄时使用镜片的焦距不同、拍摄的角度不同、摄像头的视野不同、成像传感器的移动等。图像的时空位置不一致导致的图像差异在图像融合过程中是很难消除的,只有经过图像配准图像,融合才合理。
目前图像配准的方法主要分为两大类:基于灰度匹配的方法和基于特征的匹配方法。基于灰度匹配的图像配准方法一般是先把图像划分为多个区域,然后利用区域匹配的方法进行图像配准,所以区域匹配又称为模版匹配法。模版匹配法一般是直接比较两个区域内有多少像素是一致的。这种方法的特点是不需要考虑图像的结构特征信息,而是利用图像的灰度信息进行匹配,因而处理方法比较简单。这种方法对于简单的变换的图像配准有很好的效果,如只存在平移变换的图像,但是一旦遇到复杂的图像变换,如仿射变换,这种方法对于图像的配准基本是无效的。而且基于灰度匹配的图像配准方法的计算量都很大,复杂度高。常用的基于灰度的匹配方法有:
1) 归一化交叉互相关是一种典型的基于灰度匹配的图像配准方法,它是通过计算两个目标物体之间的相似性来进行配准的,即在参考图像中选择重叠区域大小为file://localhost/Users/mmuunn/Library/Group%20Containers/UBF8T346G9.Office/msoclip1/01/clip_image001.png的区域作为模板,使用这块模板在基准图像中移动,搜索不同区域的归一化交叉互相关系数,把相关系数最高的区域作为对应匹配的区域,两幅图像归一化交叉互相关系数的定义如下:
其中,file://localhost/Users/mmuunn/Library/Group%20Containers/UBF8T346G9.Office/msoclip1/01/clip_image001.png就是相关系数。file://localhost/Users/mmuunn/Library/Group%20Containers/UBF8T346G9.Office/msoclip1/01/clip_image002.png越大,表示相似度越大。T表示模板区域图像,file://localhost/Users/mmuunn/Library/Group%20Containers/UBF8T346G9.Office/msoclip1/01/clip_image003.png表示T在基准图像中搜索覆盖的那块区域图像。
2) 相位相关法(Phase Correlation)这个方法由Kuslin 和Hines在1975年提出来的。相位相关法把原图像转换到频域空间,在频域上计算图像的互功率谱,然后通过逆变换互功率谱将得到一个脉冲函数,脉冲函数最大值对应的坐标即为图像平移的参数。早期的相位相关法只能估计出图像平移的参数,后来Castrro 和 Morandi在1987年对这个方法提出改进,通过坐标变换把频域上图像的坐标变换到极坐标系上,再计算图像的互功率谱,这样可以估计出图像的平移、旋转、缩放等参数,可以有效配准存在平移、刚体、或者相似变换的图像。
另外,图像互信息法(Mutual Information)、序列相似性检测法(Sequential Similarity
Detection Algorithms)也是常用的基于灰度的匹配方法。
基于特征匹配的配准方法是通过图像特征(如点,线和轮廓)之间的对应关系进行图像配准的,常用的方法是根据图像中的特征点之间建立对应关系。如果知道图像中多个点之间的对应关系,就可以确定几何变换将目标图像映射到参考图像,从而建立参考图像和目标图像之间的逐点对应关系。基于特征的匹配方法只需要对这些特征点进行匹配。相对基于灰度的方法,基于特征的匹配方法的特点是计算量更小,鲁棒性更高,实用性也更高。在众多基于特征匹配的方法中,Harris角点检测法、尺度不变特征变换(SIFT)和快速鲁棒特征(Speeded-Up Robust Features ,SURF)是配准度较高的常用方法。
五、可能的解决方案
接下来介绍一种深度学习框架,并实现了图像特征点检测、方向估计和描述符提取,其中每一个部分都是基于卷积神经网络CNNs实现,采用了空间转换层来修正图像块得到特征点检测和方向估计。同时,使用argmax function代替传统的非极大值抑制方法,其性能优于其他在这之前已知的方法,与传统SIFT方法比较,对光照和季节变化具有很强的鲁棒性。总体结构如下图5-1所示:
训练方法:
1) 建立Siamese网络,训练所使用的特征点事来之SFM算法的结果,输入的是特征点所在的图像块;
2) 首先训练描述符,然后用来训练方向估计,最后训练特征点检测;
3) 训练是使用的图像块,并且是不同尺度。
训练步骤:
1) 首先训练描述符:训练图像块的位置和方向均来自SFM的特征点,其中会取四个图像块P1,P2,P3,P4;P1,P2是来自同一个3D点在不同视角下的图像,P3是不同3D点投影回来的图像块,P4是不包含任何特征点的图像块。那么损失函数的构建就为:
2) 训练方向Orientation Estimator,损失函数就是最小化同一3D点在不同视角下的描述符距离,使用已经训练好的描述符来计算描述符向量:
3) 训练特征点检测,输入一个图像块,输出score map。其计算函数为:
其使用最大分数图的位置代替直接用sfm的位置,使其非常容易的去训练而且可靠,位置x的函数由S得到:
最终损失函数定义为:
运行流程图如下图5-2所示,
六、未来的发展方向
目前图像融合技术还没有统一融合数学模型,图像融合涉及复杂的融合算法、实时图像融合也需要面对越来越多和复杂的要求。怎么进行有效稳健地融合图像、提高融合效果一直是一个令人非常关心的话题。图像的配准对图像融合具有关键作用,图像的细节越多,想要实现点对点的完全对应也就越困难。在实际的操作过程中存在许多客观或者人为因素,实现准确度100%的配准基本不可能。因此,图像配准也是图像融合的难点之一。许多学者对图像融合进行了大量研究,仍有许多问题值得思索考虑:
1) 各种成像设备日新月异,图像类型、结构也变得复杂许多。因此在处理的过程中,如何抓住图像的主要特征,寻找它们的相关性是一个值得思考的问题。
2) 目前三维重建显示技术快速发展,实现三维图像的融合将是图像融合的一个重点研究方向,受到越来越多的重视,。同时,为了提高三维图像配准的准确性三维图像的配准也将是一个研究重点。
3) 现在,机器学习和神经网络也被应用到图像融合中,利用机器学习能够准确地对图像进行融合,但是学习过程也是相当复杂的,如何融合、如何理解融合效果仍然是研究的热点。
4) 目前图像融合的效果还是以目测检验主观判断为主,缺乏客观可靠性。因为无参考图像评价方法还不多,因此对图像融合的有效性和精确度的评估还有待研究。
Reference
[1] Pohl C, Genderen JL V. Multisensor image fusion in remote sensing: Concepts, methods andapplications[J]. International Journal of Remote Sensing, 1998, 19(5):823-854.
[2] Oliver Rockinger,Thomas Fechner, Daimler Benz AG. Pixel-level image fusion: the case of imagesequences[J]. Proceedings of SPIE - The International Society for OpticalEngineering, 1998, 3374:378-388.
[3] Piella G. A generalframework for multiresolution image fusion: from pixels to regions ☆[J]. Information Fusion, 2002, 4(4):259-280.
[4] Hall D L, Llinas J. An introduction tomultisensor data fusion[J]. Proceedings of the IEEE, 2002, 85(1):6-23.
[5] Rao Y R. APPLICATION OF NORMALIZED CROSSCORRELATION TO IMAGE REGISTRATION[J]. 2014, 03(17):12-16.
[6] Kuglin C D. The phase correlation imagealignment method[J]. Proc.intl Conf.cybernetics & Society, 1975:163-165.
[7] Yi K M , Trulls E ,Lepetit V , et al. LIFT: Learned Invariant Feature Transform[J]. 2016.