Transformer

2026

4/1/26

摘要本報告深入探討大型語言模型的架構演進，從最初的 Transformer 架構到最新的 Mixture of Experts 技術，分析各項技術的原理、優勢與局限。 1. Transformer 架構回顧 1.1 Attention Mechanism Attention 機 …