-
Notifications
You must be signed in to change notification settings - Fork 3
Open
Description
我尝试去看了代码,发现代码中jointmodel的前向传播是:
mid_features = OrderedDict()
for name, model in self.models.items():
preds[name] = model(x)
mid_features[name] = self.extractors[name].features
ret = {
"preds": preds,
"mid_features": mid_features
}
这里我有点疑惑,我能明白此时的preds中保存着,图像经过CNN和transformer这两条并行的路,得到一个两个前向传播的preds,但是论文中CNN和VIT的交互在哪里体现呢?虽然两个都存在有对应的mid_features,但是这个mid_feature并没有输入x或者是其他的,它只是返回了一个特征,而这个特征和x并没有交互?那这个特征是怎么来的?我不太理解这个中间特征的来历,以及作用。其次,你能告诉我一下,joint这种类型,它所跑的主函数在哪吗? 代码有点高级,我是实在没看懂模型的更主干部分在哪?我更想知道CNN和VIT是怎么交互的,以及最后是怎么得到一个值,送入head中的?
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels