1. transformer 的基本原理
cnn 的弱点
由于 卷积神经网络提取特征的时候利用了图像的 locality 特点,因此其大多会提取出局部特征,但是对于图像中不同部分之间的关系就会比较难认知
因此,在存储数据信息的时候我们还要额外考虑数据位置的信息
新数据结构:token
定义 token 为神经元组成的向量,即讨论 transformer 的时候, 其神经元会被分成 token 进行讨论,每个 token 负责记忆输入的一部分信息

token 的数据处理
token 可以简单的理解为按照一维向量来进行存储,所以在多个 token 同时处理的时候可以将向量集合起来形成矩阵,再用矩阵相乘
因此 transformer 的网络结构就是按照 token 作为基础单元进行运算的
attention 注意力机制
在全连接层中,权重矩阵是固定的,但是,对于不同的输入,例如查询图中有多少个长颈鹿 和 查询图中草的品种的时候,二者对应的边权矩阵是不同的,但是注意力说明其可以在输入问题不同的时候用不同的权重矩阵来着重计算某几个 token 部分
即注意力权重矩阵

在这个图中,注意力可以被分为三个部分,query, key, value
其中 query 表示输入的查询文字,key 表示图片对应区间 token 的值
二者共同作用可以获得一个
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.
