【CoSOD】ICNet: Intra-saliency Correlation Network for Co-Saliency Detection-编程思维

ICNet: Intra-saliency Correlation Network for Co-Saliency Detection

原始文档:https://www.yuque.com/lart/papers/abs95w

前言

这是南开大学发表在NeurIPS 2020上的一篇关于Co-Saliency的文章. 这篇文章同样也是利用现有的SOD方法(EGNet)设计的框架式的模型. 所以研究的关键在于如何同时利用来自SOD模型的intra-saliency cues, 并通过利用correlation techniques将其与inter-saliency cues进行整合.

整体框架

本文针对这个问题, 设计了一个模型. 整体框架如下:

  • 首先利用normalized masked average pooling (NMAP) 组合单图像slaiency maps (SISMs), 提取latent intra-saliency categories
  • 再利用correlation fusion module (CFM)通过利用intra cues和单张图像特征的相关性来获取inter cues
  • 同时也提出了category-independent rearranged self-correlation feature (RSCF) strategy来维持特征相对于语义类别的独立性, 既可以从全局感受野中收益, 又可以提升性能

提取intra Cues

现有方法试图使用SISM作为训练目标来训练子网络, 而不是直接集成SISM到网络中端到端训练. 由于SISM的并不能准确的指示single-salient regions, 显式用其监督模型会导致不准确的intra cues.
为了更好地而集成SISM和语义特征以获取更加具有判别力的intra cues, 这里使用了normalized masked average pooling (NMAP)[Amp: Adaptive masked proxies for few-shot segmentation] 操作.

        # 从VGG16 backbone中提取特征.
        conv1_2 = self.vgg(image_group, 'conv1_1', 'conv1_2_mp')  # shape=[N, 64, 224, 224]
        conv2_2 = self.vgg(conv1_2, 'conv1_2_mp', 'conv2_2_mp')  # shape=[N, 128, 112, 112]
        conv3_3 = self.vgg(conv2_2, 'conv2_2_mp', 'conv3_3_mp')  # shape=[N, 256, 56, 56]
        conv4_3 = self.vgg(conv3_3, 'conv3_3_mp', 'conv4_3_mp')  # shape=[N, 512, 28, 28]
        conv5_3 = self.vgg(conv4_3, 'conv4_3_mp', 'conv5_3_mp')  # shape=[N, 512, 14, 14]

        # 对high-level features的特征先进行一次压缩.
        conv6_cmprs = self.conv6_cmprs(conv5_3)  # shape=[N, 128, 7, 7]
        conv5_cmprs = self.conv5_cmprs(conv5_3)  # shape=[N, 256, 14, 14]
        conv4_cmprs = self.conv4_cmprs(conv4_3)  # shape=[N, 256, 28, 28]

        # 获得co-saliancy features.
        cosal_feat_6 = self.Co6(conv6_cmprs, SISMs)  # shape=[N, 128, 7, 7]
        cosal_feat_5 = self.Co5(conv5_cmprs, SISMs)  # shape=[N, 128, 14, 14]
        cosal_feat_4 = self.Co4(conv4_cmprs, SISMs)  # shape=[N, 128, 28, 28]
  • 首先NMAP输入包含两部分: 来自VGG的高层特征和来自现有SOD方法(off-the-shelf SOD model)的预测结果SISM, 作者给出的理由是: we use the SISMs predicted by any off-the-shelf SOD model to directly filter out the features of potentially non-salient regions by multiplication, rather than taking these SISMs as the training targets and forcing the Co-SOD models into overfitting inaccurate SISMs with performance drop. In this way, even though the SISMs are not precisely accurate, the inaccuracy will be largely diluted after averaging and normalizing operations.
    def forward(self, feats, SISMs):
        N, C, H, W = feats.shape
        HW = H * W
        # 将SISMs调整到和输入特征feats一样的尺度.
        SISMs = resize(SISMs, [H, W])  # shape=[N, 1, H, W]
  • 输入一组来自VGG的后两层的l2归一化后的特征F:
        # NFs: L2标准化(normalize)后的特征.
        NFs = F.normalize(feats, dim=1)  # shape=[N, C, H, W]
  • 使用对应的SISM S来对其放缩并生成single-image vectors (SIVs), 如式1. 也即是先空间上加权平均后在进行l2归一化:
        # 计算 SIVs [3.2节, 式1].
        SIVs = F.normalize((NFs * SISMs).mean(dim=3).mean(dim=2), dim=1).view(N, C, 1, 1)  # shape=[N, C, 1, 1]

提取Inter Cues

这部分主要设计来提取intra cues之间的Inter cues. 不同于现有方法通过拼接、或者使用固定数量图片分组(这类方法使用循环结构, 对于输入顺序有依赖, 而固定的数量也会导致, 预定义类别上学习到的语义矢量难以处理看到没有见过的目标类别)来整合特征, 为此作者提出了correlation fusion module (CFM) 来避免以上的这些问题.

受到VOS的启发, 这座认为获得准确CoSOD map的关键在于_dense correlations between the SIVs and single-image features_, 所以CFM主要就是在计算SIV中的V和SISM中的F之间的像素级相关性, 从而可以生成有用的inter cues, 并且处理任意数量的图片组. 主要过程如下:

  • 该部分输入包含两部分, 前面得到的SIV特征V和l2归一化后的来自VGG的特征F:
        # 计算 co-salient attention (CSA) maps [3.3节].
        CSA_maps = CFM(SIVs, NFs)  # shape=[N, 1, H, W]
  • 使用SIV中的矢量( shape=[N, C, 1, 1] 这里直接作为F.conv2d的权重, 也就是对应于\((\text{out_channels} , \frac{\text{in_channels}}{\text{groups}} , kH , kW)\)的卷积核, 与归一化特征计算相似性(内积), 从而获得correlation maps C, 这里实际上关联起了单样本特征内部的通道和外部样本的分组.
        def CFM(SIVs, NFs):
            # 计算SIVs和NFs中每个像素的内积, 产生correlation maps [图4].
            # 我们通过 ``F.conv2d()'' 来实现这一过程, 其中将SIVs作为1*1卷积的参数对NFs进行卷积.
            correlation_maps = F.conv2d(NFs, weight=SIVs)  # shape=[N, N, H, W]
  • 但是由于SIVs并不表示co-salient category类别, 所以生成的相关图会强调与co-salient category无关的区域. 为了抑制这些噪声的影响, 作者进一步使用相关图之间的相关性对自身加权.

            # 向量化(vectorize)并标准化(normalize) correlation maps.
            correlation_maps = F.normalize(correlation_maps.reshape(N, N, HW), dim=2)  # shape=[N, N, HW]

            # 计算权重向量(weight vectors) [式2].
            correlation_matrix = torch.matmul(correlation_maps, correlation_maps.permute(0, 2, 1))  # shape=[N, N, N]
            weight_vectors = correlation_matrix.sum(dim=2).softmax(dim=1)  # shape=[N, N]
  • 接下来使用权重W加权C, 获得一个co-salient attention (CSA) map A, 作为F的Inter cue.
            # 根据权重向量(weight vectors)对correlation maps进行融合, 产生co-salient attention (CSA) maps.
            CSA_maps = torch.sum(correlation_maps * weight_vectors.view(N, N, 1), dim=1)  # shape=[N, HW]
  • 之后使用min-max归一化操作获得A. 这样的相关性权重可以在一定程度上弱化噪声的影响, 因为有噪声的相关图和其他相关图势必有更小的相关性.
           # Max-min normalize CSA maps (将CSA maps的范围拉伸至0~1之间).
            min_value = torch.min(CSA_maps, dim=1, keepdim=True)[0]
            max_value = torch.max(CSA_maps, dim=1, keepdim=True)[0]
            CSA_maps = (CSA_maps - min_value) / (max_value - min_value + 1e-12)  # shape=[N, HW]
            CSA_maps = CSA_maps.view(N, 1, H, W)  # shape=[N, 1, H, W]
            return CSA_maps

Rearranged Self-Correlation Feature

获得CSA map之后, 正如[Co-saliency detection via mask-guided fully convolutional networks with multi-scale label smoothing]中建议的, 将其与l2规范化的特征F相乘来专注于co-salient region和最终预测得到Co-SOD map A. 然而, 观察到这种方式下, 模型不能判断有着相似但是却不同类别的像素.这主要是因为A和F之间不一致的类别依赖.

  • A是category-independent且可以反映出潜在的co-saliency socre得分
  • F是category-related且每个像素都是一个表示特定类别的向量

  • 为了计算SCF, 这里需要输入前面的归一化特征F.
        # 计算 self-correlation features (SCFs) [3.4节].
        SCFs = get_SCFs(NFs)  # shape=[N, HW, H, W]
  • 计算F内部的自相关矩阵, 并调整维度. 最终得到的张量中, 会表示F中的任一点与全图HxW之间的相关性. 这确保SCF不依赖于特定的类别信息, 而是与全局有关.
        def get_SCFs(NFs):
            NFs = NFs.view(N, C, HW)  # shape=[N, C, HW]
            SCFs = torch.matmul(NFs.permute(0, 2, 1), NFs).view(N, -1, H, W)  # shape=[N, HW, H, W]
            return SCFs
  • 虽然SCF与CSA的组合受益于类别独立的一致性, 但是SCF的使用可能导致潜在的过拟合风险, 这是因为SCF中的每个通道是一个关于某个空间位置的自相关图, 这使得基于固定通道顺序学习到的参数是位置相关的. 为了缓解这一问题, 这里对SCF使用了通道重排的策略.
  • 对于通道重排, 这里是基于得到的CSA作为索引参考的. 也就是在A中有着更高co-saliency value的位置, 在F中的对应的\(z=(x-1)W+y\)通道会被放置到重新生成的RSCF F中的靠上的通道位置里. 这样的设计使得FSCF中的通道顺序独立于像素位置. 这里使用 gather 方法对SCF的通道进行调整.
      # 重排列(Rearrange)SCFs的通道顺序, 产生RSCFs [3.4节].
        evidence = CSA_maps.view(N, HW)  # shape=[N, HW]
        indices = torch.argsort(
            evidence, dim=1, descending=True
        ).view(N, HW, 1, 1).repeat(1, 1, H,  W)  # shape=[N, HW, H, W]
        RSCFs = torch.gather(SCFs, dim=1, index=indices)  # shape=[N, HW, H, W]
        cosal_feat = self.conv(RSCFs * CSA_maps)  # shape=[N, 128, H, W]

实验细节

  • 训练设置:

    • 数据集为COCO的9213张子集图片, 可在github上下载到.
    • 输入尺寸为:224x224.
    • 每个迭代的batch是一组包含10个图像的分组
  • 测试设置:

    • 输入尺寸为:224x224.
    • 每个包含任意数量的图像的图像组作为一个batch, 一次性预测结果(也就是整个测试数据中的图像组一起处理).
  • 损失函数:

    • IOUloss:

失败案例分析

由于本文的模型构建与SISM之上, 当使用的SISM不够可靠的时候, 会出现CoSOD的错误预测. 作者回应道, 虽然失败案例可能会让人怀疑我们的ICNet的健壮性, 但这种极端情况很少发生. 同时, 我们的实验表明, 只要不是大部分的SISM是不可靠的, ICNet就可以稳定地运行.

相关链接

版权声明:本文版权归作者所有,遵循 CC 4.0 BY-SA 许可协议, 转载请注明原文链接
https://www.cnblogs.com/lart/p/14098982.html

Python中按指定长度分割字符串并反转-编程思维

对话开始  Hanmeimei:(聊天工具弹出消息)哥,我有需求,你可以满足我吗?  Tony:这么晚了,你是要干啥?  Hanmeimei:就是因为晚我才着急啊  Tony:(对这刚入职新员工早有好感的Tony心中窃喜,想套个话)你为啥只找我啊  Hanmeimei:他们说你最厉害,能力最强。而且我们这边同事都走光了

[ Python入门教程 ] Python字符串数据类型及基本操作-编程思维

    字符串是Python的一种基本类型,字符串的操作包括字符串格式化输出、字符串的截取、合并,字符串的查找和替换等操作。 字符串定义     Python中有3种表示字符串的方法:单引号、双引号、三引号。引号使用说明:     (1)单引号和双引号作用相同,如果字符串中包含单引号,可以使用双引号表示,若字符串中包含

论文解读丨文档结构分析_华为云开发者联盟-编程思维

摘要:一个端到端的文档结构分析方案(DocParser),对文档(扫描版、图片版等)进行结构提取,包括实体识别(这里实体指所有需要检测的元素,包括文本、行、列、单元格等)和关系分类。 本文分享自华为云社区《论文解读系列十五:文档结构分析》,原文作者:一笑倾城。 1 文章摘要 提出一个端到端的文档结构分析方案(DocP

秘钥分割-shamir秘钥分割门限方案_安迪9468-编程思维

精选: 1、问题的提出    2、需求的抽象: 有一个秘钥S,转换成另一种数据形式,分配给12个人(s1,s2,.......,s12),使得任意3个人的数据拼凑在一起就可以反向计算出秘钥S。   3、解决思路: 平面内,3点可以确定一条抛物线。抛物线的方程式为:y = a0 + a1·X + a2·X²。如果,将秘

学术论文版权归属权 All In One-编程思维

学术论文版权归属权 All In One 论文的版权属于谁? 正确的主张是,论文(至少是一部分论文)应该属于公共领域,没有版权。 理由有三个。 (1)论文的来源。 大学教授的论文,都属于”职务内成果“。学校已经根据你的成就,向你支付相应的薪水了,所以学术界的传统是,发表论文不收取报酬,因为学校已经付酬了。对于公立大学来