青少年需要掌握的人工智能通识基本概念 - 专业篇
专业部分(基础核心概念)
定位:理解人工智能(尤其是深度学习)的 “骨架”,是后续深入学习的必备基础,需掌握其核心原理和应用场景。
1. 神经网络基础构件
- 卷积(Convolution):
- 深度学习处理图像、语音等网格 / 序列数据的核心操作,通过 “滑动窗口” 提取局部特征(如图像的边缘、纹理),是 CNN(卷积神经网络)的基础。
- 池化(Pooling):
- 配合卷积使用的简化操作(如最大池化、平均池化),通过保留局部关键特征并减少数据量,降低模型复杂度,防止过拟合。
- 激活函数(ReLU):
- 为神经网络引入 “非线性” 的关键组件(如 ReLU 函数:
f(x)=max(0,x)
),让模型能拟合复杂数据(若无激活函数,神经网络退化为线性模型)。 - 损失函数(Loss Function):
- 衡量模型预测结果与真实结果差异的 “尺子”(如分类问题用交叉熵,回归问题用 MSE),是模型优化的目标(需最小化损失)。
2. 优化与训练流程
- 梯度下降(Gradient Descent):
- 神经网络 “学习” 的核心算法,通过计算损失函数对参数的梯度(斜率),沿梯度反方向调整参数以减小损失(类似 “下山找最低点”)。
- 前向计算(Forward Pass):
- 神经网络的 “预测过程”:输入数据通过各层计算(卷积、激活等)得到输出结果,是模型 “推理” 的基本流程。
- 反向传播(Back-propagation):
- 神经网络 “学习” 的关键步骤:从损失函数出发,反向计算各层参数对损失的梯度(链式法则),为梯度下降提供调整依据。
- 学习率调度器(LR Scheduler):
- 动态调整梯度下降中 “学习率” 的策略(如初始大学习率快速逼近最优,后期小学习率精细调整),是训练稳定收敛的常用技巧。
- 梯度裁剪(Gradient Clipping):
- 解决 “梯度爆炸” 的技术(当梯度过大时,限制其最大范围),常用于 RNN 等时序模型训练,需结合反向传播理解梯度变化规律。
3. 高级网络架构
- 残差连接(Residual Connection):
- ResNet(深度残差网络)的核心设计,通过 “跳跃连接” 让输入直接传递到深层(
输出=当前层计算+输入
),解决深层网络 “梯度消失” 和 “性能退化” 问题,是理解深层网络的关键。 - Transformer:
- 基于 “自注意力机制” 的序列模型(如 BERT、GPT),通过 “多头注意力” 和 “前馈网络” 处理长序列数据,是 NLP 领域的革命性架构,需先掌握注意力机制和矩阵运算才能深入理解。
4. 模型压缩与高效推理
- 知识蒸馏(Knowledge Distillation):
- 将 “大模型(教师)” 的知识传递给 “小模型(学生)” 的技术(通过模仿教师的输出分布),实现模型轻量化,需理解模型间知识迁移的原理。
- 量化(Quantization):
- 将模型参数从高精度(如 32 位浮点数)转为低精度(如 8 位整数)的压缩方法,减少内存和计算量,需理解数值精度对模型性能的影响。
- 深度可分离卷积(Depthwise Separable Conv):
- 将标准卷积拆分为 “深度卷积” 和 “点卷积”,大幅减少计算量(如 MobileNet),是移动端高效模型的核心设计,需对比标准卷积理解 其优化逻辑。
5. 系统级优化
- 混合精度训练(Mixed-Precision Training):
- 训练中同时使用高精度(如 32 位)和低精度(如 16 位)计算,在保证模型收敛的前提下加速训练、节省显存,需理解数值精度对梯度和参数更新的影响。
6. 模型表现评估
- 过拟合(Overfitting):
- 模型 “死记硬背” 训练数据,在新数据上表现差的现象(训练准确率高,测试准确率低),是 AI 训练中最核心的问题之一。
- 泛化能力(Generalization):
- 模型对未见过的新数据的预测能力,是衡量模型好坏的核心指标(目标是 “举一反三”)。
- 混淆矩阵(Confusion Matrix):
- 分类问题的基础评估工具,通过 “真正例(TP)、假正例(FP)、真负例(TN)、假负例(FN)” 量化模型预测错误的类型(如判断 “猫 / 狗” 时,把猫错判成狗的次数)。
1. 神经网络基础构件
• 卷积(Convolution)
• 池化(Pooling)
• 激活函数(ReLU)
• 损失函数(Loss Function)
• 归一化(Normalization)
• 注意力机制(Attention)
2. 优化与训练流程
• 梯度下降(Gradient Descent)
• 前向计算(Forward Pass)
• 反向传播(Back-propagation)
• 学习率调度器(LR Scheduler)
• 梯度裁剪(Gradient Clipping)
• 正则化技术(Regularization)
3. 高级网络架构
• 残差连接(Residual Connection)
• 图神经网络(GNN)
• 混合专家模型(MoE)
• Transformer
4. 模型压缩与高效推理
• 知识蒸馏(Knowledge Distillation)
• 量化(Quantization)
• 剪枝(Pruning)
• 低秩分解(Low-rank Factorization)
• 深度可分离卷积(Depthwise Separable Conv)
5. 系统级优化
• 混合精度训练(Mixed-Precision Training)
• 算子融合(Operator Fusion)
• 梯度检查点(Gradient Checkpointing)
6. 模型表现评估
• 过拟合(Overfitting)
• 泛化能力(Generalization)
• 混淆矩阵(Confusion Matrix)