Knowledge Mirror
Gemma 4 白話圖解:新手一次看懂小模型、MoE、多模態與長前後文
這篇文章在講什麼 這篇《A Visual Guide to Gemma 4》不是操作教學,也不是單純比 benchmark。它的重點是:用圖解方式,把 Gemma 4 為什麼能兼顧多模態、長前後文、效率與裝置端部署 這幾件事拆開講清楚。文章先講共通架構,再分別解釋 31B、26B A4B、E2B、E4B 這四種模型。 新手先記住這 6 件事 1. Gemma 4 有四個型號:E…
這篇文章在講什麼
這篇《A Visual Guide to Gemma 4》不是操作教學,也不是單純比 benchmark。它的重點是:用圖解方式,把 Gemma 4 為什麼能兼顧多模態、長前後文、效率與裝置端部署 這幾件事拆開講清楚。文章先講共通架構,再分別解釋 31B、26B A4B、E2B、E4B 這四種模型。
新手先記住這 6 件事
- Gemma 4 有四個型號:E2B、E4B、31B、26B A4B。全部都支援文字與圖片輸入;小模型 E2B、E4B 另外還支援音訊。官方模型卡另外補充:E2B/E4B 的前後文長度是 128K,26B A4B/31B 是 256K。
- 它不是每一層都看完整段文字。Gemma 4 會把「只看附近內容的 local attention」和「看整體內容的 global attention」交錯使用,目的是省計算量,同時保留全局理解能力;而且 Gemma 4 特別把最後一層固定成 global attention。
- 它很在意記憶體效率。文章花很多篇幅解釋 Gemma 4 如何讓 global attention 更省,包括 Grouped Query Attention、K=V,以及 p-RoPE。白話說:能共用的資料就共用,能少存的就少存,能避免位置資訊干擾語意的就避免。
- 它真的不是只會看正方形圖片。Gemma 4 的 vision encoder 支援可變長寬比與可變解析度,會把圖片切成 patch,再用 2D RoPE 表示二維位置,最後再用 token budget 控制送進語言模型的影像資訊量。這是它多模態能力的重要基礎。
- 26B A4B 的關鍵是 MoE。它總共有 26B 參數,但推論時只會啟動約 4B 的 active parameters。文章的核心意思是:模型本體很大,但每次不需要全部一起上工,所以速度會比你直覺以為的快。
- E2B / E4B 的關鍵是 PLE(Per-Layer Embeddings)。它不是把所有能力都塞進主幹模型,而是把一部分資訊做成每層可查表的嵌入向量,讓模型在較小 RAM/VRAM 條件下也能維持不錯能力,所以特別適合手機、筆電、本機端部署。
白話版整理
- Dense 跟 MoE 到底差在哪
Dense model 可以想成:每次回答問題,整個主力團隊都一起上。
MoE(Mixture of Experts) 可以想成:公司裡有很多專家,但每次只叫幾位最適合的上場,其他人先坐著領乾薪,不是,先待命。Gemma 4 的 26B A4B 就是這種設計:總共有 128 個 experts,每次啟動 8 個,另外再加 1 個永遠在線的 shared expert。
- 為什麼 attention 要分 local 和 global
因為 global attention 很貴。
如果每個 token 都要看完整串輸入,計算量和記憶體都會膨脹。Gemma 4 的做法是:大部分時間先看附近,偶爾再看全局,像開車時平常看前車和後照鏡,進交流道才抬頭看整張路網。這樣能兼顧速度與理解力。
- K=V、GQA、p-RoPE 是在幹嘛
這三個名詞看起來像研究員故意不讓人下班,但本質都在做同一件事:讓長前後文不要太吃資源,也不要太容易失真。
GQA 是讓多個 query 共用較少的 key/value;K=V 是在 global attention 裡讓 key 和 value 合併,減少 cache;p-RoPE 則是只對部分維度加位置資訊,降低長序列時位置旋轉帶來的語意干擾。
- 圖片是怎麼餵給 Gemma 4 的
Gemma 4 不是直接「看圖片」,而是先把圖片切成很多小塊 patch,再把每塊轉成嵌入向量。不同於老式做法把圖硬壓成正方形,Gemma 4 可以保留不同長寬比,並用 2D RoPE 分別表示寬度和高度位置。解析度則靠 soft token budget 控制,常見 budget 有 70、140、280、560、1120。budget 越高,保留的畫面細節越多,但運算也越重。
- 音訊為什麼只有小模型有
文章提到 E2B、E4B 額外有 audio encoder,能處理語音辨識和語音翻譯。流程大致是:原始音訊先轉成 mel spectrogram,再切成片段、下採樣、經過 conformer encoder,最後投影到語言模型能理解的嵌入空間。這代表小模型不只省資源,還更適合做裝置端語音任務。
四個模型怎麼看
E2B / E4B
定位:輕量、裝置端、本機跑得動。
特色:Dense 架構、支援文字/圖片/音訊、用了 PLE。官方資料顯示它們的基礎推論記憶體需求大約是:E2B 為 9.6GB(BF16)或 3.2GB(Q4_0),E4B 為 15GB(BF16)或 5GB(Q4_0)。
26B A4B
定位:效能與速度平衡型。
特色:MoE,總參數 26B,但每次只動用約 4B active parameters;支援文字/圖片,前後文長度 256K。適合想要更強能力,但又不想直接上超大 dense 模型的人。
31B
定位:較傳統的大型 dense 主力模型。
特色:沒有 PLE,也不是 MoE,比較像「正統大模型」路線;支援文字/圖片,前後文長度 256K。若你想理解 Gemma 4 的核心架構,31B 可以視為最直觀的代表。
這篇文章真正想傳達的重點
不是「Gemma 4 很強」這種空話。
而是:
- 同一個模型家族,可以用不同架構去適配不同硬體場景。
- 多模態不是把圖片或音訊硬接進去就算了,前面要有專門的 encoder 和投影機制。
- 長前後文能力的代價很高,所以設計重點不是只把前後文拉長,而是如何不把記憶體和速度一起炸掉。
- 小模型不代表只是縮水版;E2B/E4B 明顯是為裝置端做了特別工程化設計。
給新手的最終結論
把 Gemma 4 想成一個家族,不是一顆模型。
這個家族用三條路線解決不同問題:
- E2B / E4B:我想在手機、筆電、本機端跑,還要支援語音。
- 26B A4B:我想要更強能力,但不要每次都把整台機器燒成暖爐。
- 31B:我就是要一顆比較直球的大型 dense 模型。
而這篇文章最有價值的地方,是把背後設計講成人能讀的樣子。這在 AI 圈算稀有物種。
[newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4](newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4)
[#ai](#ai) [#ai/llm](#ai/llm) [#ai/llm/gemma](#ai/llm/gemma) [#ai/moe](#ai/moe) [#ai/multimodal](#ai/multimodal) [#ai/long-context](#ai/long-context) [#ai/on-device](#ai/on-device) [#技術筆記](#技術筆記) [#新手向](#新手向)