最近,高通發布了新一代PC筆記本平臺驍龍X2 Elite系列,各方面規格都取得突飛猛進,比如CPU頻率最高首次達到5GHz,NPU AI算力高達80 TOPS。
要知道,AMD、Intel新一代平臺的NPU最高都只有50 TOPS,這自然讓高通鶴立雞群。
高通技術公司產品管理副總裁Vinesh Sukumar在接受媒體采訪時解釋說,開始設計驍龍X2 Elite的時候,目標就是讓AI算力比第一代驍龍X Elite翻一倍,同時在軟件層面還能帶來10-15%的提升。
至于為何需要如此之高的NPU算力,一是想要提升大模型的首個Token生成時間,非常依賴算力,而更高的TOPS可以大大降低首個token生成時間的時延。
二是對于內容創作者來說同樣如此,無論是圖像生成還是視頻生成,都對計算要求非常高,PC子系統也需要更強的計算能力,從而降低時延。
最后一點是為了支持音頻、視頻和文本等多任務并發處理,同樣需要更多的TOPS。
隨著手機端側AI應用的發展,大模型的參數量、體積控制,以及內存的挑戰,都是迫切需要解決的問題。
Vinesh Sukumar認為,高通和大多數OEM伙伴,包括整個生態系統,都在朝著30-40億參數的模型發展,不僅包括通義千問系列、微軟Phi系列,甚至蘋果的基礎模型也都在30-50億參數范圍內,可以認為這是在邊緣設備上真正推動豐富體驗的最佳區間。
當然,可以有多個30億參數的模型,但這是一個起始線。
針對手機內存問題,目前的解決方案就是模型量化,從16位整數運算轉向8位整數運算,再從8位轉到4位,現在高通與微軟合作推出了全球首個INT2 2-bit模型。
INT2在帶寬和內存占用方面具有優勢,對比INT4可以節省約50%的帶寬和內存占用,可以更好地支持大語言模型(LLM)、大視覺模型(LVM)等的運行。
INT2的落地需要軟硬兩個層面的支持,其中硬件層面由第五代驍龍8至尊版支持,而軟件層面包括編寫專門的庫、內核和運算符。
高通預計,隨著更多數據類型的創新,可以支持更大規模的模型,同時減少內存占用。
比如說,一個70億參數的模型在16位精度下大約占用14GB內存,使用INT4則是4GB,而INT2精度就只需要2GB。
當然,2-bit下的精度控制非常重要,但并不是每一層數據都是INT2精度,有的是INT2,有的是INT4,有的是INT8,不一而足,也就是通過支持混合精度以保持準確性。
如果這么做仍然有準確率損失,可以使用量化感知訓練,重新訓練模型,以確保將損失降到最低。
廣告
另外,無論AI手機還是AI PC,很多人都在尋找所謂“殺手級應用”,但是在Vinesh Sukumar看來,高通有不同的見解。
當前的AI已深度融入用戶的日常應用,在影像、視頻、音頻等領域中無處不在,甚至在用戶毫無察覺的情況下自動工作。
高通始終都在追求用AI解決下一個重大命題,以此作為奮斗目標,但是提高生產力、改善體驗的每一小步,都是關鍵的一步,因為高通相信,只有從小處著手,才能實現穩健的成長。