<dd id="xnhjr"></dd>
    1. <rp id="xnhjr"></rp>

      <tbody id="xnhjr"></tbody>

      權威外媒深扒華為麒麟960:GPU強點就完美了

      EETOP 2021-08-18 16:18:56

      來源:IT168

      于智能手機來說,SoC的重要性不言而喻,而作為國產自研的海思麒麟處理器,一直以來備受關注,發展至今,逐漸躋身于移動處理器中的領先水平,在麒麟960這款產品上,做到了“留長補短”,被稱作麒麟歷史上具有突破性的產品,在隨后的實際體驗上,搭載麒麟960的產品都有著不錯的表現。因此,而我們今天就來測試一下麒麟960在深層次上的性能。(注:測試數據編譯自ANANDTECH)

      注:ANANDTECH將麒麟960的工藝寫成TSMC 16nm FFC,而實際上麒麟960的工藝為TSMC 16nm FF+。

      從麒麟960、麒麟955、麒麟950三款(兩代)產品參數表來看,相比于上代產品,麒麟960是全球首款采用ARM最新的A73架構的SoC,相比麒麟950,大核主頻由2.3GHz提升至2.36GHz,小核主頻從1.81升至1.84GHz,但略低于麒麟955的2.52GHz??梢钥吹?,麒麟處理器對于CPU主頻的還是做了一定的限制、以賦予GPU可以做到更高的性能。

      麒麟960采用的A73架構出自于ARM在歐洲的設計團隊,而非設計出A15/A57/A72系列的德克薩斯奧斯丁團隊,因此盡管A72與A73在編號上只差了1個數,但在CPU的性能設計上則截然不同。A57、A72則是偏重高性能,承擔著高端處理器上應付復雜數據的處理。A73則更加著重于對性能與功耗的平衡。


      ▲A73采用雙發射L/S

      值得一提的是,A73與A72比較明顯的區別在于解碼器的寬度,A73采用雙發射L/S單元,在發射寬度上小于A72的三發射。雖然從紙面上有所降低,但根據資料顯示,A73架構的11級核心流水線深度比A72的15級核心流水線深度更精簡,因此發射寬度并沒有決定性的影響到A73的性能。另外,A73更短的流水線減少了前端延遲,包括1-2個更少的解碼器周期,它可以解碼單個周期中的大多數指令,以及1個更少的周期用于讀取層面。

      電源管理:

      這張圖顯示了A73相比于A72,在相同的進程和相同的主頻下,A73能夠比A72減少20-30%的功耗。并且A73號稱目前處理器中面積最小的高端核心,每顆核心的面積在0.65mm,相比于A72上1.15mm的面積整整小了43%。


      ▲G71架構圖

      一直以來,麒麟處理器的GPU性能相比于驍龍被人詬病,因此在麒麟960上,GPU則最大限度的保持了性能。在麒麟960上,同樣配備了ARM最新的G71處理器:Mali-G71 MP8,主頻最高為1037MHz。G71采用ARM最新的Bifrost架構。與之前midgrad架構相比,Bifrost最大的創新在于使用指令組著色器(ClausedShader)。在G71上重新設計了執行單元,更好的利用著色器核心,增加吞吐量和性能。另外Bifrost架構還采用Quad based vectorization技術,相比于之前SIMD矢量化技術一次只能執行單一線程,Quad矢量化技術最高支持四線程執行,共享控制邏輯,使用率接近100%。

      通過解讀麒麟960的架構,我們了解了麒麟960的設計思路:注重CPU性能與功耗的平衡,以及GPU的極限性能,整個麒麟960沒有哪部分成為明顯的短板為人詬病。

      CPU跑分測試:


      ▲SPECint2000單項測試


      ▲麒麟960 IPC

      通過SPECint2000可以看到,麒麟960在CPU整數運算性能上相比麒麟950有了比較大的進步,A73的IPC比A72的高出11%、比A57增加29%。值得一提的是,竟然比驍龍821的kryo高出30%,比8890的Mongoose高15%。在這里,我們也只能說一句公版大法好了。


      ▲單線程整數IPC

      GeekBench4的整數運算單線程跑分,可以看到,麒麟960總體來說也是有好有壞。相比麒麟950,在邊緣檢測(Canny)和直方圖均衡(HE)項目中,麒麟960輸給了其它三位對手,而在HTML5 Parse和HTML5 DOM的測試中,麒麟960則有上佳的表現。而在IPC的計算中,A73略優與A72 4%,但在SPECint2000的整數運算中,A73的優勢則為11%,二者差距比較大,并且在單項測試中的起伏不定,因此比較A73與A72之間的好壞,則 是一個非常困難的事情。

      另外,可以看到,A73的整數運算IPC大概是A53的1.7-2倍,這也是為什么那些只配備A53的中低端SoC性能表現不好的原因之一。


      ▲浮點單項測試

      GeekBench4浮點運算,麒麟960的表現并不能算好。與麒麟950相比也不算優秀,而對比驍龍821則全面落敗(當然,驍龍的浮點運算一直都不錯)??紤]到A73的NEON執行單元與A72相比并沒有改變,而降低了特殊指令的延遲,使得NEON的性能還提升了5%。因此這樣的結果還是有些意外,只能猜測為有些測試項目受到A73解碼器寬度的變化。但最終的原因,也只能在之后測試其它采用A73的SoC上的表現在下結論。


      ▲浮點測試IPC結果

      在浮點IPC的結論中,麒麟960不出意外的只能排在中游水準,比驍龍821、麒麟950、三星8890都落后。而這也意味著麒麟960會在不同的任務之間有著比較大的性能變化。

      內存性能:

      此次ARM將A73的一級緩存由48kB提升至64kB,二級緩存由A72的最大2MB提升至8MB,并且為一級緩存和二級緩存都配備了獨立的預讀器,使得A73可以獲得接近理論的最大帶寬值。并且,與A72一樣,A73中配備了兩個AGU,能夠同時加載和存儲操作,而不像A72中只能單個操作,這對提高主系統內存的發射率。

      CPU緩存和內存延遲:


      ▲系統延遲與傳輸速度

      可以看到,得益于A73 64kb的一級緩存,麒麟960保持了1.27ns的穩定延遲,對比麒麟950的1.74ns,有著27%的提升。


      ▲帶寬讀取測試


      ▲帶寬寫入測試

      上面兩個圖標顯示了使用兩線程讀/寫NEON指令,有助于表明麒麟960的內存帶寬。讀取時,麒麟960的L1緩存優于麒麟950,但從64kb分界線可以明顯看出,當到達2級緩存的時候,帶寬則有著明顯的下降。圖2可以看到,寫入時,L1、L2下麒麟960都低于麒麟950,而在1024kb分界線過后,寫入系統時,則低于麒麟960。緩存帶寬的減少,也從側面解釋了GeekBench4浮點測試中麒麟960的劣勢。

      在GeekBench4的內存測試中(單線程),盡管麒麟960的L1、L2的緩存性能都是混合的,但在系統內存方面還是比麒麟950有著不錯的表現。內存延遲提升了25%、內存帶寬提升了69%,但在內存復制上,麒麟960還是被驍龍821甩在了身后。說明kryo對于內存數據的管理還是有著明顯的優勢。

      當然,上面測試的都是理論性能,而理論性能究竟有多少能轉化為真實性能,則體現出廠商的優化能力。當然,不同的廠商對于處理器性能的策略也導致會出現不同的結果,比如發熱(后降頻)的閾值、CPU的核心調度策略等,也都會使同樣的處理器在不同的產品上有著不同的體驗。


      ▲PCMark綜合測試成績


      ▲瀏覽器網絡測試


      ▲寫入測試

      PCMark通過模擬一些現實的工作場景,調用許多常永的安卓應用API,突出對CPU、GPU、RAM等部分的測試。而在瀏覽器測試、數據操縱等測試項目的評分中,麒麟960都均為最高(采用Mate9測試)??梢钥吹?,kryo架構對于整數性能的測試一直都比較頭疼,因此在整數性能權重比較重的測試項目中,驍龍820/821的手機落后于采用公版A72/A73架構的手機。

      最后的數據操縱測試是對整數運算的測試項目,通過測量多種不同類型文件的數據包解壓速度,然后記錄動態交叉表的幀率。而在這個測試中,麒麟960比麒麟950快了30%,比驍龍821快了37%。


      ▲Kraken測試


      ▲WebXPRT測試


      ▲JetStream

      注:Kraken在Chrome/Safari/IE中測試javascript性能;WebXPRT測試不同瀏覽器之間的Web性能(基于HTML5和Javascript)、JetStream測試JavaScript的性能;

      在Javescript測試中,我們選取了不同的應用在不同的瀏覽器當中測試,綜合來看,麒麟960的表現比不錯,在旗艦中堪稱優秀。

      GPU能耗和發熱

      對于CPU理論性能與真實體驗之間轉換,功耗一直是一個比較矛盾的問題。性能強,CPU的功耗自然比較大,而功耗過大又會限制CPU峰值能力的穩定性,因此控制性能與功耗之間的平衡,則是考驗廠家對SoC把握的重要部分。在麒麟950時,海思曾經做到比較不錯的功耗比,而ARM宣稱A73在同頻、同任務下相比A72能減少20-30%的功耗,因此我們對麒麟960的能耗比也有所期待。

      從表格可以看到,麒麟960的四顆大核所消耗的功率遠超A72架構的麒麟950,這與ARM所宣傳的A73架構更加省電并不太相符。從單純的數據來看,麒麟960的峰值功率與超頻過后的麒麟955比較接近,每顆核心與低頻的Exynos 7420相近,只有大約50mW。

      而與驍龍820/821的兩個kryo大核相比,麒麟960的功耗更低,兩顆大核的功率大致為2.8W,而kryo則能達到3.1-3.3W。但剩余的兩顆小核在運行時消耗更低的功率,相比之下,麒麟960之前的優勢不再。

      續航測試:

      盡管在峰值功耗上麒麟960明顯更高,但華為Mate9在續航測試中的表現結果卻非常不錯。在PCMark的測試中,接近10小時的續航時間比Mate8甚至都高出27%,與單純的CPU性能測試的結果并不相符,恐怕也只能說這一代的系統優化更加出色。


      ▲續航測試

      在這張圖中,顯示了Mate9在運行PCMark 2.0性能測試時的總系統功耗(測試環境:無線電關閉、屏幕亮度僅為10nits),而除了在加載下一個測試場景時的引起的較高功率之外,總功率消耗保持在3W以下,且平時一般都低于2W,遠低于麒麟960四顆大核測量的5.3W。

      而在這個表中的測試項目:瀏覽器網絡測試、視頻測試、文件寫入、圖片編輯和數據操作,這些項目基本上都是我們平時經常用到的手機功能??梢钥吹?,線程從小核心轉移到大核心以及手機動態地調整電壓匹配CPU頻率和負載,在大部分場景下,CPU只開啟1-2個大核,麒麟960比麒麟950的功率多使用754mW,而非四核全開時的1601mW。因此,雖然CPU效率很重要,但我們需要根據實際使用的情況來考慮,也不能忘記軟件(程序調度、CPUidle)對續航的影響。

      系統功耗:

      單方面的只看功耗是片面的,一款設備的功耗大于其它設備,但如果它在更短的時間內完成任務,實際上可以使用更少的功耗,以獲得更長的待機時間。而在上兩個圖中,同樣關閉無線電、屏幕亮度為10nits,減少不同屏幕對結果的影響。

      第一張圖中,顯示了每款手機在PCMark 2.0性能測試時所消耗的總功耗。Mate9比Mate8大概超出了16%,而使用GPU的視頻和圖片編輯功能時從高到低差距最大,而在數據操縱和寫入時,驍龍821的功耗比麒麟960還略大,因為在這樣的測試中必須使用兩顆大核,而非GPU(可見麒麟的CPU功耗較低、GPU功耗略高)。

      第二張圖片是將PCMark分數除以顯示效率后所得到的功耗值(越高越高),可以看到,在寫入測試以及數據操縱的項目中,Mate9都比Mate8的效率更高,但在視頻和照片編輯部分,Mate9的GPU效率偏低,而高通的Adreno依然是效率最高的。

      屏幕亮度-功耗曲線圖:

      盡管麒麟960的SoC功耗更高,但在續航測試中Mate9卻優于Mate8,因此可以猜想,華為在其它地方做出了更多的優化。而在這種圖中,可以明顯的看出,在顯示效率方面Mate9要遠勝與Mate8。而作為一個手機最大的電量消耗部分,在屏幕方面的進步使得Mate9在續航方面有著不錯的表現。

      CPU線程穩定性:

      在CPU穩定方面的測試中,使用了與之前一樣的電源病毒,在A73的兩顆大核上運行兩線程,持續時間30分鐘,確定設備能夠保持CPU的峰值性能,而不至于像我們平時說的“三秒真男人”。這個測試也綜合考驗了CPU功耗、元器件散熱能力和對于熱量調度管理的水平。

      通過測試,Mate8和麒麟950可以非常穩定的保持在A72的峰值,Mate9卻沒能做到。因為麒麟960的功耗較高,因此CPU的峰值大約維持在11分鐘,但仍然是一個不錯的結果。一般來說,以手機CPU為中心的工作負載能夠將大核的巔峰維持到這個時間就已經表現不錯,因此Mate9的效率還算不錯。那么接下來,我們也比較期待像P10這樣身材較小的手機能否有很好的散熱。

      GPU功耗測試:

      麒麟960采用ARM最新的Mali-G71 GPU,與之前麒麟的 SoC不同,G71采用8核GPU以提高峰值性能。當然,更多的 核心也意味著更高的功耗,因此我們對GPU的持續性也比較感興趣。

      測試方法:在手機上運行GFXBench曼哈頓3.1和霸王龍性能測試,通過設備的電量計收集數據,在運行每個測試時將總功率減去設備空閑的功率,得到系統負載功率。

      曼哈頓3.1離屏功耗測試:

      從圖中可以看到,Mate9平均8.63W的功耗也是整個小組中成績最高的,這樣的成績對于智能手機的SoC實在是過高,因為這么高的數據對于想要長時間穩定在峰值功率基本不太可能?;蛟S是由于G71的主頻有點過高(1037MHz)導致的。畢竟三星8890的Mali-T880主頻也只有650MHz。

      在測試中,Mate9的曼哈頓3.1離屏成績為32.49Fps,比Mate8時期提高了整整3倍性能,但相同的,平均功耗也是Mate8的3倍,因此在效率方面基本持平。而高通的Adreno 530在驍龍820/821上同樣的成績,但功耗只有麒麟的一半??梢钥吹?,在GPU方面,高通依舊有著巨大的優勢。

      霸王龍離屏測試:

      在霸王龍離屏的測試中,麒麟960的成績變得更加糟糕,平均功率增加至9.51W,GPU的效率甚至低過麒麟950。而相比之下,三星S7的Exynos 8890使用的Mali-T880 MP12,主頻為650MHz,平均功耗4.7W,只有麒麟960的一半,效率卻能達到88%。

      在類似的測試中,無論是蘋果、高通還是三星,其SoC的平均功耗都在5W為上限,而到了5W時GPU就很難長時間保持在峰值性能,會因為過熱而降頻,因此麒麟960這樣的成績實在有些難以接受。

      曼哈頓3.1續航測試:

      過高的功耗對于麒麟960的電池續航也有著一定的影響,尤其是在游戲環節,Mate9比Mate8還少1小時的續航,說明在運行過程中Mate9并沒有對GPU的使用作出太明顯的優化。而最終,Mate9在續航測試中只有比較中等的水平,與比它電池容量明顯減小的一加3T等水平相同。

      GPU穩定性(曼哈頓3.1):

      通過圖表可以看到,Mate9在GPU降頻之前堅持了1分鐘左右,在8分鐘時幀數為21Fps,相對于峰值減少38%,在30分鐘后達到比較穩定的狀態,幀率為19Fps,不過依然比麒麟950的峰值的11.5Fps要強。而相比之下, 樂Pro3從峰值的33Fps峰值隨后會下降至19Fps,基本與麒麟960差不多。

      而在這張圖中可以看到,Mate9的GPU頻率和功耗在游戲續航測試前15分鐘的變化:一旦GPU主頻下降至533MHz,其平均功耗會下降至4W,這也屬于可持續穩定的功耗。這說明麒麟應該把GPU的主頻下調至650MHz至700MHz更為明智,目前來看,1037MHz的峰值主頻確實有些Hold不住。

      總結:

      性能方面,在進行整數運算時,麒麟960的A73比950的A72效率更高,甚至優于高通的kryo和A57,但在浮點運算時,結果正相反,高通的kryo和A72要優于A73。麒麟960采用更大的64KB L1緩存,使得延遲和讀取帶寬都有所提高,但寫入帶寬則低于麒麟950;寫入方面,麒麟960的L2緩存帶寬對于讀取和寫入都較低與麒麟950。綜合來看,麒麟960對于主內存的延遲降低了25%,帶寬提高了69%。而截至CPU的部分,麒麟960的提升顯而易見。

      但麒麟960的GPU功耗卻出了問題,甚至低于麒麟950。盡管ARM宣稱A73的功耗低于A72不少,但在麒麟960上卻并沒有體現,GPU功耗過高可能與主頻有關。不過在其它方面,Mate9對于顯示效率的提升、CPU功耗的控制使得在續航方面,Mate9依然有不錯的表現。

      相比過去,麒麟960的進步確實給人留下了深刻的印象,并且也增強了我們對麒麟970的期待。麒麟960提供了ARM最強的A73架構、更強性能的G71 GPU和CCI-550互聯。并且支持Cat12/13的鏈接速度以及UFS 2.1的內存規格。麒麟960并非簡單的對麒麟950的升級,而是一顆全新的處理器,在實際體驗中也優于麒麟950。在Mate9上的表現,證明了麒麟960稱得上一顆旗艦級的SoC,并且我們也期待在下一款產品身上,華為能夠解決其現有缺陷,在各方面都能躋身于優秀的水準。


      EETOP微信群


      為了更好地便于大家交流學習,EETOP按區域組建了一些微信群,歡迎所在區域的網友加入各自的區域群,加群方法:?先加 jack_eetop 為好友,發送如下信息:加群+區域+單位(或院校)+職業。

      比如: 加群+北京+利達科技+數字IC設計

      今天先加 EETOP北京群,歡迎北京的網友加入。

      1. EETOP北京群

      注為了防止機器人加入,初次進群請務必主動打招呼!



      點擊下方閱讀原文,查看更多精彩


      Copyright ? 華為手機價格交流組@2017