笔记 3B1B深度学习

课程来自 3B1B 1-3章以手写数字识别为例，输入一个24×24的灰度图，输出0-9十个数字的识别结果

最基本的神经网络——多层感知器MLP(MultiLayer Perceptron) 概说 3B1B 多层感知器
根据训练数据的情况，找优化函数的极值点，调整参数 3B1B 梯度下降法
具体神经网络的算法 3B1B 反向传播算法

4-6章解释ChatGPT & Transformer 用户输入的句子被分割成多个单词片段和标点token，每个token被编码为一个向量 word embedding 向量经过注意力模块attention，让向量之间可以交换上下文信息然后经过多层感知器MLP/前馈层feed-forward layer，进行所有向量并行处理，一次并行处理支持的最大数量叫上下文长度context size 重复多次注意力和MLP 最后unembedding把最后一个向量解读成对应的token 输出结果继续合并到输入句子，反复这个过程直到完成回答

输入数据token嵌入为向量、输出向量解嵌入为token、归一化 3B1B 嵌入和解嵌入
注意力机制让不同向量之间交换信息，结合上下文 3B1B 注意力机制
事实可能的储存位置 3B1B MLP in GPT

AI是研究让机器模拟人类智能行为的科学，包括专家系统agent 机器人计算机视觉CV 自然语言处理NLP 机器学习ML 机器学习指的是用数据data驱动，反馈到模型model参数，从而指导模型。代码中并不会明确定义一个任务怎么完成，而是构建一个大量可调参数的模型，用大量数据来训练。包含有无监督学习，强化学习等类型深度学习是机器学习的一个子概念，深度学习本身也包含多种模型，包括MLP，卷积神经网络CNN，Transformers等。共性是：

所用的训练方法都是反向传播
输入数据都将写成实数数组（一维或二维）的形式，也就是张量 tensor
经过多层的矩阵和线性变换处理，最后输出的结果也是数组

LLMs基本都基于transformer架构

其他提供的学习资源：

关于手写数字：MNIST数据库提供了带有标记的图像

Table of contents