Skip to content

没看懂究竟CNN和VIT之间是怎么互动的? #3

@847001315

Description

@847001315

我尝试去看了代码,发现代码中jointmodel的前向传播是:

        mid_features = OrderedDict()
        for name, model in self.models.items():
            preds[name] = model(x)
            mid_features[name] = self.extractors[name].features
        ret = {
            "preds": preds,
            "mid_features": mid_features
        }

这里我有点疑惑,我能明白此时的preds中保存着,图像经过CNN和transformer这两条并行的路,得到一个两个前向传播的preds,但是论文中CNN和VIT的交互在哪里体现呢?虽然两个都存在有对应的mid_features,但是这个mid_feature并没有输入x或者是其他的,它只是返回了一个特征,而这个特征和x并没有交互?那这个特征是怎么来的?我不太理解这个中间特征的来历,以及作用。其次,你能告诉我一下,joint这种类型,它所跑的主函数在哪吗? 代码有点高级,我是实在没看懂模型的更主干部分在哪?我更想知道CNN和VIT是怎么交互的,以及最后是怎么得到一个值,送入head中的?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions