我的生活随笔

视频无监督分割:深度学习和时空谱聚类的完美结合!

  在没有人类监督的情况下发现物体,因为它们在空间和时间上移动和改变外观是计算机视觉中最具挑战性和尚未解决的问题之一;我们如何才能最好地利用物体运动和外观之间的相关性,在没有人工监督的情况下对物体发现过程进行数学建模。

  从时空域中可用的大量数据中更有效地学习,而人为干预最少,视觉分组的任务对人类来说是自然而然的,但对机器来说要求很高;在视频无监督分割的背景下,具有强大监督学习能力的深度学习领域和迭代图算法领域,具有证明的无监督聚类优势。

  我们引入了一种,可用于在无监督设置中自动分割视频序列的主要对象,虽然一般的基于 3D 卷积的方法将时间维度视为等同于空间维度,我们提出了一种不同的耦合运动和外观的方式。

  现实世界中的物体在它们的时空邻域中形成簇,属于同一物体的点在空间和时间上保持连接,具有相似的外观和运动模式,也与场景的其余部分不同。

  视频对象分割在计算机视觉领域得到快速发展,大多数解决方案基本上都是受监督的,因为它们依赖于带有人工标记注释的大量预训练模型;虽然人工标注成本极高,但真正的无监督方法很少。

  利用不同的启发式方法和多chǐ dù视频对象分割的内在属性;嵌入经过预训练以用于显着性预测、跟踪、估计几何变换和视频摘要,与上述工作不同,弥合了经典迭代图算法和深度学习之间的差距,利用两者的优势实现自我监督。

  图1 获嘉天气预报视频 我们的迭代知识交换 ( IKE ) 系统的架构图模块(左)和网络模块(右)在多个循环上交换信息,直到收敛。

  时空图结构的可视化表示,说明了创建定义图形的远程边的过程;彩色曲线表示运动链,通过跟随光流矢量,从一帧到另一帧按时间向前和向后形成,黑色虚线曲线对应于图边,在通过至少一个运动链连接的节点之间定义。

  沿运动链收集节点特征:对于一个节点j, 构成特征向量的特征Fj沿着两个输出运动链(一个向前,一个向后)收集,来自与沿链相遇的节点相关联的像素的不同特征。

  (1)我们提出了一个紧凑的数学模型,它将运动和外观耦合起来,将视频中的主要对象定义为我们的特征运动矩阵中的主要自然光谱簇。

  (2) 我们的时空簇在像素级别是密集的,因此能够通过早期做出硬分组决策(例如,计算超像素)来使用视频中的所有信息而不会丢失细节。

  一种双重迭代知识交换模型,将时空谱聚类与深度对象分割相结合,能够在没有任何人工注释的情况下进行学习,图形模块利用了视频序列中固有的时空一致性,但无法访问深层特征。

  网络模块作为图形模块的补充,将深层特征添加到聚类算法中,该网络具有强大的表示能力,并尝试预测仅具有单帧输入的时空聚类过程的输出。

  给定一个序列M视频帧,图形模块发现主要对象作为时空图中最强的自然簇,并提取一组米软分割掩码,每帧一个,对应于该主要对象。

  定义时空图 G=(V,E), 有一个节点一个 a∈V关联到视频的每个像素V=n, 在哪里n = m h w,M- 帧数和( h , w )- 帧大小);G是一个无向图,具有由运动链定义的边集(图 2)。

  在时空图中,每个节点A具有关联的节点级功能 FA∈R1 , 从与节点关联的像素开始,沿着传出运动链收集特征向量A并通过连接到的所有像素A通过运动链。

  我们寿光天气预报图片定义矩阵P是将任何向量投影到特征矩阵的列空间的投影矩阵F(P = F (FtF)? 1Ft). 对向量的约束X, 它表明它应该是列的线性组合F, 可以通过要求满足S=xTMx。

  Feature-Motion 矩阵的主特征向量A最佳解决方程式中定义的问题,在这个公式中,我们将分割转换为经典谱聚类,也与图匹配的谱方法相关。

  基于的属性A,具有非负元素,我们可以使用 Perron-Frobenius 定理推断出最优解x?具有正值,我们的算法是幂迭代法的有效实现,将收敛到最优解x?。

  经过一个节点时b,我们将其标签更新为xb←xb+Ma,bxa但也更新标签A xa←xa+Ma,bxb,我们在前向和后向方向上将信息从一帧中的所有节点联合传播到所有相邻帧。

  在每次迭代中,我们估计最佳权重集w*给定节点级特征的最佳近似当前节点标签F. 权重计算如下:

  这意味着所提出的算法保证收敛到 PM矩阵,它遵循x?最大化瑞商R(PM,x)=(xTPMx)/(xTx

  最优解的 L2-范数是∥x?∥2=1 和x?住在列空间F, 意思是x?= Px?. 它立即得出最优解x?也最大化了我们的目标xTPMPx。

  网络模块(图 4)是一个补充时空图的深度分割模型,在每个周期,仅使用图形模块的输出作为监督信号从头开始训练网络,并在接下来的聚类迭代中将它们传递给图形。

  网络模块在样本对上进行训练(Ii,xì), Ii∈Rh×w×3是ith视频序列的图像,以及xì∈[0,1]h×w是监控信号,对于帧i,由图形模块提gòng。

  这种配置确保在高置信度区域增加惩罚,同时我们确保在不确定区域更宽松的行为,在实践中,我们考虑 λ1=λ2=0.5,网络模块解决了以下优化任务:

  分割过程应该收敛到相同的解决方案x?不管它的初始化X( 0 尚义天气预报游戏 ),即使初始解决方案是完全随机的,算法也会收敛到视频中的主要对象,根据人工标记的 ground truth 验证了 Feature-Motion 矩阵具有一个主要的强簇,它确实对应于序列中的主要对象。

  为了验证唯一解的收敛性,我们仔细研究了起点在实践中的影响,我们验证了给定相同的特征运动矩阵时会发生什么(这仅取决于所使用的光流模块,而不取决于初始解决方案X( 0 )),我们改变初始起点。

  运动链中连接的两个节点(像素)在图中也连接,而未通过运动链连接的节点在图中也不连接,连接性以矩阵编码米并立即转移到特征运动矩阵A, 是时空图的邻接矩阵。

  在表 1中,提出了一个不同的实验,其中对于用于构建图运动结构的给定光流(M),我们连接了用两种光流方法(RAFT 和 FlowNet2.0)计算的节点级特征向量来构建F。

  特征运动矩阵A是所提出的图形模块的关键元素,我们的公式将分割视为一个谱聚类问题,前提是视频序列中的主要对象像素(其中存在此?类对象)在空间和时间上形成了一个强大的自然聚类。

  迭代知识交换系统的有效性,其中图形作为网络模块的教师,然后网络为下一个聚类和学习周期提gòng更强大的功能,在表 3和图 9中,我们详细介绍了多个数据集的性能演变,同时考虑了无监督和监督情况。

  在图 9 中,展示了系统在无监督情况下的性能演变,此时节点仅使用流特征,网络模块总是随机初始化的。

  我们系统的无监督公式是最有价值的,因为该系统受益于时空图的聚类能力和网络的学习能力,使学习成为可能,而过程中的任何步骤都无需人工注释。

  在图 10中,我们展示了迭代知识交换系统的定性结果,我们强调两个组件之间的协议,图形模块和网络模块。

  我们的无监督系统的定性结果,包括所有 4 个数据集的网络和图形模块,对于 YouTube-Objects 和 DSOD,ground truth 有时是粗糙的,在这些情况下,我们的结果往往比注释更精细,这强调了获得高度准确的人工注释的难度。

  在图 11中,我们展示了图和网络模块在无监督设置中的最终性能(在任何级别的训练或预训练中都没有使用人工注释),我们观察到,虽然该图显示出优越的性能,但单图像网络模块也具有竞争力,并且在相同监督水平下克服了大多数顶级方法。

  IKE 系统的每个循环都需要通过图形模块和网络模块,给定时空图的公式,视频像素和图节点之间存在一对一的对应关系,光谱聚类问题可能看起来很棘手。

  考虑到整个系统的复杂性与帧数成线性关系,报告每帧的计算成本,对于图形模块的第一个周期,实现需要 0.8 秒/帧:光流 0.04 秒 + 图形数据初始化 0.18 秒 + 20 次时空图形迭代 0.58 秒。

  只有第一个周期需要初始化,报告的数字是考虑的最大特征数 (26) 和 FlowNet2.0 光流(RAFT 解决方案需要 0.33 秒/帧),网络模块需要 1.64 秒/帧:1.63 秒用于 5 个训练时期 + 0.01 用于推理。

  IKE 所需的总时间为 5.24 秒/帧,224 × 416. 图形模块也可以并行化,但它不在我们当前的实现中,在图 13中,我们研究了图形模块第一个周期的计算成本的演变,涉及特征数量和帧数量。

  双迭代知识交换系统中,无监督时空聚类模块向深度网络模块提gòng监督信号,后者又将其新学习的深度特征传回图形,这两个互补模块作为一个单一的自我监督实体运行,并在几个周期内交换信息,直到达成共识。

  IKE 非常符合当前视频对象分割的需求,因为无监督情况对于开发对未知数据强大且稳健的方法来说是强制性的,通过将更经典的图聚类与现代深度学习的互补力量结合在一起,我们在优化和数据驱动模型之间取得了平衡,这种方法可以为无监督视频分割研究提gòng新的思路。

2021中学数学书,中学数学辅导网站,希望以上内容对你有所帮助,在这里分享生活乐趣,表达意见主张,找到实用的生活信息,的官很过分KGLD15455,如需了解更多相关信息,请关注本站 资阳中学数学刘老师微信,中学数学节节徽,希望以上内容对你有所帮助,在这里分享生活乐趣,表达意见主张,找到实用的生活信息,的官很过分KGLD16337,如需了解更多相关信息,请关注本站

赞(0)
未经允许不得转载:我的生活随笔 » 视频无监督分割:深度学习和时空谱聚类的完美结合!

我的生活随笔我的生活随笔