Transformer

1
2026

LLM 架構深度剖析:從 Transformer 到 MoE 的演進之路

摘要 本報告深入探討大型語言模型的架構演進,從最初的 Transformer 架構到最新的 Mixture of Experts 技術,分析各項技術的原理、優勢與局限。 1. Transformer 架構回顧 1.1 Attention Mechanism Attention 機 …