事实储存在何处

视频里以“迈克尔乔丹打篮球”为例，当输入“迈克尔乔丹”之后，模型能输出“篮球”等相关的事实性信息，说明模型中某些地方储存了信息

很可能在MLP层中，占了GPT3 1/3的参数

视频的例子里，输入向量先与一个升维矩阵相乘。可以理解成，这个句子的行代表嵌入空间的一系列信息，乘积衡量了信息和输入向量的匹配度（bias决定触发之后ReLU的阈值）相当于对输入向量问各类问题

然后再通过一个降阶矩阵，得到问题的答案向量，这个向量再与输入向量叠加，得到了编码了事实的信息

这其实就是之前所说的3B1B 多层感知器

是一个三层的MLP，第一层输入，第三层输出，中间层更高阶一些

视频里还提到了叠加super position的概念，可能是模型难以解释的原因

一个n维的空间有n个正交基，但是如果放宽正交的性质，比如把垂直角度放到89-91°，可能放进的“正交”向量数量随维度以指数级别增长。对应到嵌入空间里，大大增加了方向对应的词义，这可能就部分解释了模型参数增加带来的质变

这样的话，在MLP的得到的高阶向量的每一个神经元，可能不一一对应着某个特定的信息。某个信息可能表现为所有神经元的一个线性组合

Johnson-Lindenstrauss Lemma