青少年需要掌握的人工智能通识基本概念 - 高阶篇
高阶部分(深入拓展概念)
定位:建立在专业概念基础上,涉及更复杂的技术原理、前沿方法或工程优化,适合对 AI 有深入兴趣的青少年进阶学习。
1. 神经网络基础构件
- 归一化(Normalization):
- 训练中稳定数据分布的方法(如 Batch Norm),通过将输入数据标准化(均值 0、方差 1),加速模型收敛,避免梯度爆炸 / 消失。
- 注意力机制(Attention):
- 模拟人类 “聚焦关键信息” 的机制(如阅读时重点看关键词),通过计算 “ query 与 key 的相似度” 分配权重(如 Transformer 中的自注意力),是 NLP、CV 领域突破的核心技术,原理较复杂(需理解矩阵运算)。
2. 优化与训练流程
- 正则化技术(Regularization):
- 防止模型 “过拟合” 的基础方法(如 L2 正则化限制参数大小、Dropout 随机丢弃神经元),核心是 “简化模型” 以增强泛化能力。
3. 高级网络架构
- 图神经网络(GNN):
- 处理 “图结构数据”(如社交网络、分子结构)的专用网络,通过聚合邻居节点信息更新自身特征,涉及图论基础,应用场景较专门(如推荐系统、药物研发)。
- 混合专家模型(MoE):
- 由 “多个专家子网络 + 路由器” 组成的模型(如 GPT-4 部分采用),路由器根据输入分配任务给不同专家,实现 “大模型效率提升”,是大语言模型的前沿架构,涉及复杂的路由策略设计。
4. 模型压缩与高效推理
- 剪枝(Pruning):
- 移除模型中 “不重要的参数 / 神经元”(如权重接近 0 的连接),在不显著降低性能的前提下简化模型,涉及 “重要性评估” 策略(如 L1 范数、梯度敏感度)。
- 低秩分解(Low-rank Factorization):
- 将高维权重矩阵分解为低维矩阵乘积(如用两个 100×50 矩阵替代 100×100 矩阵),减少参数数量,需线性代数中 “矩阵秩” 的基础。
- 参数共享(Parameter Sharing)
- 在模型不同层间复用参数(如循环神经网络中的权重共享),减少存储与计算开销,应用于轻量化模型设计。补充理由:与量化/剪枝同属压缩技术,但侧重参数效率优化,适合边缘设备部署。
- 动态网络(Dynamic Networks):
- 能根据输入内容 “自适应调整结构” 的模型(如不同输入用不同深度 / 宽度的网络),兼顾效率和性能,涉及动态路由、条件计算等复杂逻辑。
5. 系统级优化
- 算子融合(Operator Fusion):
- 将多个连续的计算算子(如卷积 + 激活 + 归一化)合并为一个算子,减少内存读写开销,是模型部署的工程优化技术,涉及计算图优化原理。
- 梯度检查点(Gradient Checkpointing):
- 训练时只保存部分中间结果(而非全部),反向传播时重新计算未保存的中间值,以 “时间换空间” 节省显存,需结合前向 / 反向传播的内存占用规律理解。
6. 模型表现评估
- ROC 曲线:
- 评估二分类模型的工具,通过 “假正例率(FPR)” 和 “真正例率(TPR)” 的关系曲线,反映模型在不同阈值下的区分能力(曲线越靠近左上角,模型越好)。