没看懂究竟CNN和VIT之间是怎么互动的？

我尝试去看了代码，发现代码中jointmodel的前向传播是：
```preds = OrderedDict()
        mid_features = OrderedDict()
        for name, model in self.models.items():
            preds[name] = model(x)
            mid_features[name] = self.extractors[name].features
        ret = {
            "preds": preds,
            "mid_features": mid_features
        }
```

这里我有点疑惑，我能明白此时的preds中保存着，图像经过CNN和transformer这两条并行的路，得到一个两个前向传播的preds，但是论文中CNN和VIT的交互在哪里体现呢？虽然两个都存在有对应的mid_features，但是这个mid_feature并没有输入x或者是其他的，它只是返回了一个特征，而这个特征和x并没有交互？那这个特征是怎么来的？我不太理解这个中间特征的来历，以及作用。其次，你能告诉我一下，joint这种类型，它所跑的主函数在哪吗？ 代码有点高级，我是实在没看懂模型的更主干部分在哪？我更想知道CNN和VIT是怎么交互的，以及最后是怎么得到一个值，送入head中的？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

没看懂究竟CNN和VIT之间是怎么互动的？ #3

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

没看懂究竟CNN和VIT之间是怎么互动的？ #3

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions