课程来自 3B1B 1-3章 以手写数字识别为例,输入一个24×24的灰度图,输出0-9十个数字的识别结果

  1. 最基本的神经网络——多层感知器MLP(MultiLayer Perceptron) 概说 3B1B 多层感知器
  2. 根据训练数据的情况,找优化函数的极值点,调整参数 3B1B 梯度下降法
  3. 具体神经网络的算法 3B1B 反向传播算法

4-6章 解释ChatGPT & Transformer 用户输入的句子被分割成多个单词片段和标点token,每个token被编码为一个向量 word embedding 向量经过注意力模块attention,让向量之间可以交换上下文信息 然后经过多层感知器MLP/前馈层feed-forward layer,进行所有向量并行处理,一次并行处理支持的最大数量叫上下文长度context size 重复多次注意力和MLP 最后unembedding把最后一个向量解读成对应的token 输出结果继续合并到输入句子,反复这个过程直到完成回答

  1. 输入数据token嵌入为向量、输出向量解嵌入为token、归一化 3B1B 嵌入和解嵌入
  2. 注意力机制让不同向量之间交换信息,结合上下文 3B1B 注意力机制
  3. 事实可能的储存位置 3B1B MLP in GPT

AI是研究让机器模拟人类智能行为的科学,包括专家系统agent 机器人 计算机视觉CV 自然语言处理NLP 机器学习ML 机器学习指的是用数据data驱动,反馈到模型model参数,从而指导模型。代码中并不会明确定义一个任务怎么完成,而是构建一个大量可调参数的模型,用大量数据来训练。包含有无监督学习,强化学习等类型 深度学习是机器学习的一个子概念,深度学习本身也包含多种模型,包括MLP,卷积神经网络CNN,Transformers等。共性是:

  1. 所用的训练方法都是反向传播
  2. 输入数据都将写成实数数组(一维或二维)的形式,也就是张量 tensor
  3. 经过多层的矩阵和线性变换处理,最后输出的结果也是数组

LLMs基本都基于transformer架构

其他提供的学习资源:

  • 关于手写数字:MNIST数据库提供了带有标记的图像

Table of contents


This site uses Just the Docs, a documentation theme for Jekyll.