目标检测运动追踪发展趋势与前景

挽歌剑圣00 · 发表于 2018-9-15 20:22:43

[size=16.000000pt]目标检测运动追踪发展趋势与前景

[size=12.000000pt]【[size=12.000000pt]摘要[size=12.000000pt]】[size=12.000000pt]随着人工智能技术的迅速崛起，汽车自动驾驶，行人检测等的现实应用，使视频目标检测与运动追踪成为人工智能领域的一个热门研究方向。在传统目标检测基础上，近几年基于深度学习的目标计策技术取得了非常大的进步。本文对当前的目标检测技术进行总结。
[size=12.000000pt]关键词:[size=12.000000pt]目标检测，运动追踪，人工智能，深度学习 [size=12.000000pt]一.[size=12.000000pt]技术背景与意义
[size=12.000000pt]目标检测的任务是找出图像中所有感兴趣的目标物体，确定它们的位置和大小，是机器视觉领域的核心问题之一。由于各类物体有不同的外观，形状，姿态，加上成像时光照，遮挡等因素的干扰，目标检测一直是机器视觉领域最具有挑战性的问题。目标检测的核心问题是除了图像分类之外，目标检测要解决的核心问题有:首先是目标可能出现在图像的任何位置。其次是目标有各种不同的大小。再有就是目标可能有各种不同的形状。如果用矩形框来定义目标，则矩形有不同的宽高比。由于目标的宽高比不同，因此采用经典的滑动窗口和图像缩放的方案解决通用目标检测问题的成本太高。随着深度学习与计算机硬件的迅速发展，目标检测与深度学习的结合，目标检测也得以迅速发展。图像分类，检测及分割是计算机视觉领域的三大任务。图像分类模型是将图像划分为单个类别，通常对应于图像中最突出的物体。但是现实世界的很多图片通常包含不只一个物体，此时如果使用图像分类模型为图像分配一个单一标签其实是非常粗糙的，并不准确。对于这样的情况，就需要目标检测模型，目标检测模型可以识别一张图片的多个物体，并可以定位出不同物体给出边界框。目标检测在很多场景有用，如无人驾驶和安防系统。机器学习包括监督学习、非监督学习和増强学习三大类，介于监督学习和非监督学习之间还有弱监督学习。

[size=12.000000pt]宏观上目标检测可以看作是传感器与决策过程之间的过程，在许多信号处理应用中，包括跟踪在计算效率和决策性能之间进行了不同程度的权衡。有限的计算资源强调效率的重要性，效率是通过在处理链的早期做出决策来实现的。传统的运动目标检测方法中，运动目标的检测和跟踪过程比较复杂，应用范围有限。生物特征和运动探测器直接映射的时空动态，用于目标识别、图像稳定和跟踪。彩色处理背后的神经交互作用将推动用于图像融合的纳米多光谱传感器阵列的发展。实现这种纳米级传感器将允许实现设备反馈控制，生物感觉系统应用在目标识别也是一个新的方向。

[size=12.000000pt]二.技术的当前发展水平与应用

[size=12.000000pt]目前主流的目标检测算法主要是基于深度学习模型，其可以分成两大类[size=12.000000pt],[size=12.000000pt]第一类是 [size=12.000000pt]two-stage [size=12.000000pt]检测算法，其将检测问题划分为两个阶段，首先产生候选区域，然后对候选区域分类，一般还需要对位置精修，这类算法的典型代表是基于 [size=12.000000pt]region proposal [size=12.000000pt]的 [size=12.000000pt]R-CNN [size=12.000000pt]系算法，如 [size=12.000000pt]R-CNN[size=12.000000pt]，[size=12.000000pt]Fast R-CNN [size=12.000000pt]等;第二类是 [size=12.000000pt]one-stage [size=12.000000pt]检测算法，其不需要 [size=12.000000pt]region proposal [size=12.000000pt]阶段，直接产生物体的类别概率和位置坐标值，比较典型的算法如 [size=12.000000pt]YOLO [size=12.000000pt]和 [size=12.000000pt]SSD[size=12.000000pt]。目标检测模型的主要性能指标是检测准确度和速度，对于准确度，目标检测要考虑物体的定位准确性，而不单单是分类准确度。一般情况下，[size=12.000000pt]two-stage [size=12.000000pt]算法在准确度上有优势，而 [size=12.000000pt]one-stage [size=12.000000pt]算法在速度上有优势。不过，随着研究的发展，两类算法都在两个方面做改进。准确度和速度是一对矛盾体，如何更好地平衡它们一直是目标检测算法研究的一个重要方向。传统的计算机视觉方法常用精心设计的手工特征[size=12.000000pt]([size=12.000000pt]如 [size=12.000000pt]SIFT, HOG)[size=12.000000pt]描述图像，而深度学习的方法则倡导习得特征，从图像分类任务的经验来看，[size=12.000000pt]CNN [size=12.000000pt]网络自动习得的特征取得的效果已经超出了手工设计的特征。计算机视觉界的顶级竞赛之一 [size=12.000000pt]MS COCO 2018 [size=12.000000pt]年结果最新出炉，在实例分割、全景分割、人体关键点检测、[size=12.000000pt]DensePose [size=12.000000pt]以及今年最新的街景检测和分割任务中，全部 [size=12.000000pt]6 [size=12.000000pt]项冠军均由中国团队包揽。

[size=12.000000pt]目标检测在很多领域都有应用需求。其中被广为研究的是人脸检测，行人检测，车辆检测等重要目标的检测。行人检测在视频监控，人流量统计，自动驾驶中都有重要的地位。车辆检测在智能交通，视频监控，自动驾驶中有重要的地位。车流量统计，车辆违章的自动分析等都离不开它，在自动驾驶中，首先要解决的问题就是确定道路在哪里，周围有哪些车、人或障碍物。交通标志如交通灯、行驶规则标志的识别对于自动驾驶也非常重要，我们需要根据红绿灯状态，是否允许左右转、掉头等标志确定车辆的行为。除了这些常见目标的检测之外，很多领域里也需要检测自己感兴趣的目标。比如工业中材质表面的缺陷检测，硬刷电路板表面的缺陷检测等。人工智能在医学中的应用目前是一个热门的话题，医学影像图像如 [size=12.000000pt]MRI [size=12.000000pt]的肿瘤等病变部位检测和识别对于诊断的自动化，提供优质的治疗具有重要的意义。在当今世界，廉价、高质量的图像和视频封顶设备的出现，产生了丰富的视觉数据和自动化的视觉数据分析的需要。过去二十年提出了许多这样的技术包括图像增强的主题[size=12.000000pt],[size=12.000000pt]自动监测、视觉辅助[size=12.000000pt],[size=12.000000pt]自动目标检测、跟踪和识别、人机交互等。探测、跟踪和识别任务在军事应用中具有重要意义，并被纳入许多系统中，以帮助在战场的广阔空间中跟踪大量目标。它们也用于基于传感器的导弹制导系统。民用应用包括高速公路交通监控、重新严格区域监测、边境安全等。跟踪和识别用于获取信息的传感器受到许多内在的影响[size=12.000000pt]([size=12.000000pt]焦距、红外灵敏度等[size=12.000000pt])[size=12.000000pt]和外在因素[size=12.000000pt]([size=12.000000pt]温度、能见度、大气状况等[size=12.000000pt])[size=12.000000pt]。此外，还有与不同背景、杂波、遮挡和交互作用有关的问题
[size=12.000000pt]三.技术的关键点
[size=12.000000pt]目标检测问题同时是一个回归和分类问题。首先，为了评估定位精度，需要计算 [size=12.000000pt]IoU[size=12.000000pt]，其表示预测框与真实框之间的重叠程度。[size=12.000000pt]IoU [size=12.000000pt]越高，预测框的位置越准确。因而，在评估预测框时，通常会设置一个 [size=12.000000pt]IoU [size=12.000000pt]阈值，只有当预测框与真实框的 [size=12.000000pt]IoU [size=12.000000pt]值大于这个阈值时，该预测框才被认定为真阳性，反之就是假阳性。除了检测准确度，目标检测算法的另外一个重要性能指标是速度，只有速度快，才能实现实时检测，这对一些应用场景极其重要。评估速度的常用指标是每秒帧率，即每秒内可以处理的图片

[size=12.000000pt]数量。当然要对比 [size=12.000000pt]FPS[size=12.000000pt]，你需要在同一硬件上进行。另外也可以使用处理一张图片所需时间来评估检测速度，时间越短，速度越快。[size=12.000000pt]NMS [size=12.000000pt]即非极大抑制就是抑制不是极大值的元素，搜索局部的极大值。在物体检测中，[size=12.000000pt]NMS [size=12.000000pt]应用十分广泛，其目的是为了清除多余的框，找到最佳的物体检测的位置。[size=12.000000pt]AP[size=12.000000pt]通常用于计算平均的检测精度，用于衡量检测器在每个类别上的性能好坏;而 [size=12.000000pt]MAP [size=12.000000pt]则更多用于评价多目标的检测器性能，衡量检测器在所有类别上的性能好坏，即得到每个类别的 [size=12.000000pt]AP [size=12.000000pt]值后再取所有类别的平均值。目标检测模型本源上可以用统计推断的框架描述，我们关注其犯第一类错误和第二类错误的概率，通常用准确率和召回率来描述。目标检测是对图像中可能属于感兴趣目标的区域进行识别的过程。目标检测是计算机视觉中最基本、最具挑战性的任务之一。由于检测器往往是连续跟踪和识别任务的第一阶段，因此检测器的准确性和快捷性也至关重要。

[size=12.000000pt]由于姿[size=12.000000pt]态变[size=12.000000pt]化、光照[size=12.000000pt]变[size=12.000000pt]化、遮[size=12.000000pt]挡[size=12.000000pt]、运[size=12.000000pt]动[size=12.000000pt]模糊等因素的影响，建立有效、高效的[size=12.000000pt]鲁[size=12.000000pt]棒目[size=12.000000pt]标[size=12.000000pt]跟踪外[size=12.000000pt]观[size=12.000000pt]模型是一[size=12.000000pt]项[size=12.000000pt]具有挑[size=12.000000pt]战[size=12.000000pt]性的任[size=12.000000pt]务[size=12.000000pt]。[size=12.000000pt]现[size=12.000000pt]有的在[size=12.000000pt]线跟踪算法经常使用最近帧中观察到的样本更新模型。尽管取得了许多成功，但仍有许多问题有待解决。虽然这些自适应的外观模型是依赖于数据的，但是在线算法在一开始并没有足够的数据量来学习。在线跟踪算法经常遇到漂移问题。错误对齐的样本很可能被添加和降低外观模型。简单而有效的跟踪算法以及建立基于特征的外观模型有效地提取外观模型的特征，构造了一个非常稀疏的测量矩阵[size=12.000000pt]。跟踪任[size=12.000000pt]务[size=12.000000pt]采用朴素[size=12.000000pt]贝[size=12.000000pt]叶斯分[size=12.000000pt]类[size=12.000000pt]器在[size=12.000000pt]压缩[size=12.000000pt]域内[size=12.000000pt]进[size=12.000000pt]行在[size=12.000000pt]线[size=12.000000pt]更新，将跟踪任[size=12.000000pt]务转[size=12.000000pt]化[size=12.000000pt]为[size=12.000000pt]二[size=12.000000pt]值[size=12.000000pt]分[size=12.000000pt]类[size=12.000000pt]。[size=12.000000pt]为[size=12.000000pt]了[size=12.000000pt]进[size=12.000000pt]一步降低[size=12.000000pt]检测过[size=12.000000pt]程的[size=12.000000pt]计[size=12.000000pt]算复[size=12.000000pt]杂[size=12.000000pt]度，采用了从粗到[size=12.000000pt]细[size=12.000000pt]的搜索策略。保[size=12.000000pt]证压缩[size=12.000000pt]跟踪算法能[size=12.000000pt]实时[size=12.000000pt]运行，在效率、精度和[size=12.000000pt]鲁[size=12.000000pt]棒性方面都有好的效果和性能体[size=12.000000pt]现。
[size=12.000000pt]四.技术的难点
[size=12.000000pt]1.[size=12.000000pt]传统目标检测存在的两个主要问题:一个是基于滑动窗口的区域选择策略没有针对性，时间复杂度高，窗口冗余;二是手工设计的特征对于多样性的变化并没有很好的鲁棒性。传统的目标检测中，多尺度形变部件模型 [size=12.000000pt]DPM[size=12.000000pt]([size=12.000000pt]Deformable Part Model[size=12.000000pt])表现比较优秀，连续获得 [size=12.000000pt]VOC [size=12.000000pt]的检测冠军。[size=12.000000pt]DPM[size=12.000000pt]把物体看成了多个组成的部件(比如人脸的鼻子、嘴巴等)，用部件间的关系来描述物体，这个特性非常符合自然界很多物体的非刚体特征。[size=12.000000pt]DPM [size=12.000000pt]可以看做是 [size=12.000000pt]HOG+SVM [size=12.000000pt]的扩展，很好的继承了两者的优点，在人脸检测、行人检测等任务上取得了不错的效果，但是 [size=12.000000pt]DPM [size=12.000000pt]相对复杂，检测速度也较慢，从而也出现了很多改进的方法。
[size=12.000000pt]2.R-CNN [size=12.000000pt]有很多缺点，虽然不再是穷举，但依然有两千个左右的候选框，这些候选框都需要进行 [size=12.000000pt]CNN[size=12.000000pt]操作，计算量依然很大，其中有不少其实是重复计算;[size=12.000000pt]SVM [size=12.000000pt]模型还是线性模型，在标注数据不缺的时候显然不是最好的选择;训练测试分为多步:区域提名、特征提取、分类、回归都是断开的训练的过程，中间数据还需要单独保存;训练的空间和时间代价很高:卷积出来的特征需要先存在硬盘上，这些特征需要几百 [size=12.000000pt]G [size=12.000000pt]的存储空间。

[size=12.000000pt]3.YOLO [size=12.000000pt]简化了整个目标检测流程，速度的提升也很大，但是 [size=12.000000pt]YOLO [size=12.000000pt]还是有不少可以改进的地方，比如 [size=12.000000pt]S×S [size=12.000000pt]的网格就是一个比较启发式的策略，如果两个小目标同时落入一个格子中，模型也只能预测一个。另一个问题是 [size=12.000000pt]YOLO loss [size=12.000000pt]函数中，大物体 [size=12.000000pt]IOU [size=12.000000pt]误差和小物体 [size=12.000000pt]IOU [size=12.000000pt]误差对网络训练中 [size=12.000000pt]loss [size=12.000000pt]贡献值接近，虽然采用求平方根方式，但没有根本解决问题。因此，对于小物体，小的 [size=12.000000pt]IOU [size=12.000000pt]误差也会对网络优化过程造成很大的影响，从而降低了物体检测的定位准确性。并且，[size=12.000000pt]YOLO [size=12.000000pt]采用了多个下采样层，网络学到的物体特征并不精细，因此也会影响检测效果。
[size=12.000000pt]4. [size=12.000000pt]运动检测技术作为监控系统中常用的技术，一般通过对视频帧序列的分析来寻找目标的运动轨迹进行跟踪，但不能保证目标模式匹配的高效率和有效性。由于各种实际应用，许多研究都引入了许多算法。但由于光照变化、遮挡、快速运动、变形、尺度变化等各种实时情况的不可预测性，即使我们很多时候只知道目标的初始位置，这也被认为是一个具有挑战性的问题。小目标的出现和检测，目标区域的低空间分辨率通常意味着可以用来从周围背景和杂波中分辨出目标的信息非常少。可变热信号，可移动部件，姿势变化。这些变量导致单个目标出现许多可能的外观，使得检测更加困难。低信噪比传感器图像使传感器噪声和背景杂波的存在使得目标很难与背景区分开来。一天中的时间、太阳的相对位置、相对湿度等环境条件会影响传感器接收到的热辐射量，从而改变目标的外观。
[size=12.000000pt]五.可能的解决方案
[size=12.000000pt]1. [size=12.000000pt]对于滑动窗口存在的问题，[size=12.000000pt]regionproposal[size=12.000000pt]提供了很好的解决方案。[size=12.000000pt]regionproposal[size=12.000000pt]利用了图像中的纹理、边缘、颜色等信息预先找出图中目标可能出现的位置，可以保证在选取较少窗口的情况下保持较高的召回率。这大大降低了后续操作的时间复杂度，并且获取的候选窗口要比滑动窗口的质量更高。
[size=12.000000pt]2.SPPNet [size=12.000000pt]和 [size=12.000000pt]Faster RCNN [size=12.000000pt]都需要独立的候选区域生成模块，这个模块计算量很大，不易用 [size=12.000000pt]GPU [size=12.000000pt]加速。针对这个问题，通过一定规则设置不同尺度的锚点([size=12.000000pt]Anchor[size=12.000000pt])在 [size=12.000000pt]RPN [size=12.000000pt]的卷积特征层提取候选框来代替 [size=12.000000pt]Selective Search [size=12.000000pt]等传统的候选框生成方法，实现了网络的端到端训练。
[size=12.000000pt]SSD [size=12.000000pt]在保持 [size=12.000000pt]YOLO [size=12.000000pt]高速的同时效果也提升很多，主要是借鉴了 [size=12.000000pt]Faster R-CNN [size=12.000000pt]中的 [size=12.000000pt]Anchor [size=12.000000pt]机制，同时使用了多尺度。但是从原理依然可以看出，[size=12.000000pt]Default Box [size=12.000000pt]的形状以及网格大小是事先固定的，那么对特定的图片小目标的提取会不够好。
[size=12.000000pt]3. [size=12.000000pt]在并行训练规模上做优化[size=12.000000pt],[size=12.000000pt]训练由 [size=12.000000pt]GPU [size=12.000000pt]组成的集群硬件环境，通过改进跨 [size=12.000000pt]GPU [size=12.000000pt]批量归一化算法和学习率变化策略，将 [size=12.000000pt]batch size [size=12.000000pt]增大到一定的值，这使得批量归一化层中使用的批均值和方差更能够反应总体特征，有效提升了归一化效果，从而大幅提升训练速度并且得到了非常好的结果。
[size=12.000000pt]4. [size=12.000000pt]通过高斯密度函数分布和扩展的特点[size=12.000000pt],[size=12.000000pt]可以设计对运动目标检测和跟踪算法[size=12.000000pt],[size=12.000000pt]实现前景检测移动目标[size=12.000000pt],[size=12.000000pt]实现背景更新高斯分布模型的更新权重[size=12.000000pt],[size=12.000000pt]平均值和方差[size=12.000000pt],[size=12.000000pt]然后提取前景对象收集降噪预处理的图像和直方图均衡化方法[size=12.000000pt],[size=12.000000pt]基于空间距离目标跟踪算法确定最小欧式距离，从而实现对运动目标的检测和跟踪。集成了多个特性，例如定向梯度直方图和颜色属性以区分目标从周围的背景，是有效的运动模糊和照明变化。为了最小化尺度变化问题可以设计相关滤波器的尺度滤波器。提出自适应模型的更新和基于峰值旁瓣比的动态学习速率策略，通过避免噪声的出现变化可有效地减少模型漂移问题。
[size=12.000000pt]六.未来的发展方向
[size=12.000000pt]在目标检测领域，还有很多未知的领域值得我们探索，不论是业界工程实践的应用还是新型算法的改进。未来的目标检测和动态追踪会在数据的大批量处理和准确度上进行较大提升，增强对所需分析的目标的实时动态分析。在迭代处理定位和图片分类问题时，实现对多个目标进行同时检测和分类。目标检测是在图片中对可变数量的目标进行查找和分类。

[size=12.000000pt]七.参考文献
[size=9.000000pt][1] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition.In ECCV. 2014.
[size=9.000000pt][2] S. Ren, K. He, R. Girshick, J. Sun. Faster R-CNN: Towards Real-Time Object Detection with Region ProposalNetworks. Advances in Neural Information Processing Systems 28 (NIPS), 2015.
[size=9.000000pt][3] C. Szegedy, A. Toshev, D. Erhan. Deep Neural Networks for Object Detection. Advances in Neural InformationProcessing Systems 26 (NIPS), 2013.
[size=9.000000pt][4] [size=9.000000pt]https://mp.weixin.qq.com/s/hu7fAhE76lHid9DN5I6Y9Q
[size=9.000000pt][5] [size=9.000000pt]https://blog.csdn.net/qq_35451572/article/details/80249259
[size=9.000000pt][6] [size=9.000000pt]https://www.pyimagesearch.com/2017/09/11/object-detection-with-deep-learning-and-opencv/[size=9.000000pt][7] https://blog.csdn.net/witnessai1/article/details/78633682
[8] https://blog.csdn.net/qq_35451572/article/details/80304484

OML冰极无双 · 发表于 2018-9-25 10:36:11

卧槽，我居然看完了

melo斯密达 · 发表于 2018-9-21 08:42:25

卧槽，我居然看完了

floralel · 发表于 2018-9-19 21:19:55

楼主快去捡肥皂吧

风暴之神MAX · 发表于 2018-9-25 03:25:43

第一次抢到二楼，好紧张啊

弋子曈 · 发表于 2018-9-17 21:35:42

看到楼主我有种智商上的优越

爲伱瘋颠尐儍豬 · 发表于 2018-9-23 19:33:52

看到楼主我有种智商上的优越

无缘丶于此 · 发表于 2018-9-20 08:09:51

楼主继续加油啊

遥不可视 · 发表于 2018-9-18 18:03:25

看到楼主我有种智商上的优越

卑微了颓废a · 发表于 2018-9-25 04:43:21

好像很牛B的样子

		自动登录	找回密码
密码			立即注册

目标检测运动追踪发展趋势与前景

本帖子中包含更多资源

浏览过的版块