【机器学习】长上下文窗口扩展 第一章 位置编码扩展与上下文外推基础

📅 发布时间:2026/7/4 5:11:47 👁️ 浏览次数:
【机器学习】长上下文窗口扩展 第一章 位置编码扩展与上下文外推基础
目录第一章 位置编码扩展与上下文外推基础1.1 旋转位置编码(RoPE)的理论局限与扩展动机1.1.1 RoPE的数学形式与频率特性1.1.2 训练长度外推的失效机制1.1.3 长度外推与插值的本质区别1.2 位置插值方法家族1.2.1 线性位置插值(PI)的局限性与信息损失1.2.2 NTK-aware非线性插值1.2.3 YaRN:分段频率缩放与温度校准的协同机制1.3 进化性扩展:LongRoPE与自适应搜索1.3.1 非均匀位置插值:打破均匀缩放假设1.3.2 进化搜索算法:基于遗传算法的重缩放因子搜索1.3.3 从256K到2M的渐进扩展路径代码实现实例分析1.4 训练策略与稳定性优化1.4.1 课程学习:从短到长的渐进式训练调度1.4.2 微调数据构造:RedPajama与Pile-Books3的长文档分块策略1.4.3 计算资源配置:8×A100到16×A100的分布式训练扩展1.5 评估体系与能力验证1.5.1 困惑度纵向评估:PG19与Proof-pile的跨长度性能曲线1.5.2 大海捞针测试:Passkey检索准确率与位置敏感性分析1.5.3 短上下文基准保持:标准NLP任务的性能退化检测代码实现实例分析第一章 位置编码扩展与上下文外推基础1.1 旋转位置编码(RoPE)的理论局限与