encoder

主要功能是将输入图像转换为低维的特征表示,也叫“特征向量”或“嵌入”
浓缩了图像中的关键信息,便于模型在后续任务中使用

  1. 特征提取
    • Image Encoder 提取图像的高层特征(如颜色、形状、纹理、边缘等)并将它们表示为特征向量。比如在卷积神经网络(CNN)中,图像经过多层卷积和池化层后,会生成一个包含图像关键信息的特征向量。
  2. 降维
    • 原始图像通常包含大量的像素信息,而 Image Encoder 的任务之一就是将这些高维像素信息转换为低维的特征表示。这种降维处理不仅可以去除不必要的细节,还能保留最具代表性的图像特征。
  3. 创建通用表示
    • Image Encoder 生成的特征表示可以被用于不同任务,如分类、目标检测、图像检索等。因此,优秀的编码器通常会学习到一种通用的图像表示,使得模型可以在不同任务之间共享这些表示,从而具备更强的迁移能力。
  4. 多模态任务中的桥梁
    • 在 CLIP 等多模态模型中,Image Encoder 将图像转换为特征表示,并将其与文本编码器生成的文本表示进行对比,从而实现图像-文本匹配等多模态任务。

常用的 Image Encoder 模型

卷积神经网络(CNNs):如 ResNet、VGG、Inception 等 CNN 模型广泛用于图像编码,它们在多层卷积的基础上逐步提取高层语义特征。
视觉变换器(Vision Transformer, ViT):通过自注意力机制编码图像信息,适合捕捉更复杂的全局特征。

公共嵌入空间

在多模态学习中将来自不同模块的特征表示转换到同一个空间的特征表示方法,使得不同模态的数据可以相互比较和关联。在这个空间中,具有相似语义的图像和文本会被映射到相似的特征表示(向量),从而便于模型在不同模态之间建立关联关系

Linear Probe

用于对比学习的时候将预训练好的模型进行冻存,只从中抽取特征,并且只训练最后一层 fc 分类头层