大模型架构演进:从Transformer到MoE

📅 发布时间:2026/7/4 20:13:48 👁️ 浏览次数:
大模型架构演进:从Transformer到MoE
Transformer的辉煌与局限MoE用“稀疏激活”撬动模型容量MoE为何成为大模型新范式典型实践从GLaM到Qwen-MoE挑战与未来方向#Transformer#MoE混合专家#稀疏激活#专家#模型容量