二十年前,IBM與超級計算機管理藍色基因/L。
打破幾乎神奇的計算能力極限:每秒100萬億計算操作。甚至在2005年獲得了以專家界聞名的戈登·貝爾獎(Gordon Bell Prive)的幾乎難以想像的數字。
僅20年後,這項壯舉首次在一張圖形卡中成功。NVIDIAS RTX 5090它還能夠每秒進行超過100萬億的計算操作 - 新旗艦店重達104.8 Tflops。
一個里程碑,是真的。但是這可以彼此比較嗎?
簡短的答案:不,不是。為了澄清為什麼這樣做的原因,讓我們看一下藍色基因/L實際設置了記錄。
這就是測量超級計算機的性能
通常,通過高性能LINPACK基準(HPL)在TOP500列表中的超級計算機的性能。
求解了苛刻的數學任務(具有n個未知和n個方程式的線性方程),並研究了每秒具有一定精度的每秒滑動逗號操作(FP32或FP64)。
通常,使用64位(FP64)的滑行或浮動逗號數,因為高精度對於科學計算特別重要。
藍色基因/L還用FP64測量,該FP64需要比FP32更大的計算能力 - 2004年11月,它達到了70.7 Tflops FP64。
但是,單個節點(每個處理器的節點的節點)是專門針對FP64計算而定的。總共使用了32,768個PowerPC 440處理器,每個處理器都有700 MHz破爛。
當2005年超級計算機每秒打破了100萬億潤滑劑操作(TFLOPS)的品牌時,它不是用HPL測量的,而是在高壓和溫度條件下模擬了高度複雜的動力學。
這意味著他能夠將表演帶到街上。
這就是確定圖形卡的計算能力的方式
我們來到RTX 5090。您的理論計算能力為104.8 Tflops。該值不是測量的,而是根據以下計算結果:
著色器削弱x時鐘頻率(MHz)x操作每一時鐘 / 1,000,000 = tflops
非常重要:這些是Tflops,精度為32位,即fp32。
RTX 5090的TFLOPS FP64的值為1.6- 這只是藍色基因/L所獲得的一部分。公式是:
FP64計算單元的數量x時鐘(MHz)x操作每個時鐘 / 1,000,000 = tflops fp64
由於遊戲圖形卡的精度為32位的滑動逗號操作,因此降低了FP64性能,也就是說,GPU上安裝了更少的FP64計算單元。
僅此一項就表明,藍色基因/L和RTX 5090之間的比較是基於值而沒有其他信息的值。
另外,由CPU製成的超級計算機由每個核心組成,而不是由許多核心製成的GPU。 RTX 5090上的圖形處理單元具有高達21,760個著色器單元。此外,在其上還安裝了張量和射線跟踪核心,但是,這並不能流入經典的FP32性能中。
CPU的工作方式與GPU不同
相比之下,CPU的核心較少(在一個到幾百個之間),這些是通過優化的,以盡可能快地執行不同的複雜計算,即一個接一個順序的計算。
通過多線程或將許多CPU連接在一起,也可以用於並行計算。
另一方面,GPU通常可以高度平行。他們同時執行許多相對簡單的添加和乘法,這是計算遊戲圖形的理想選擇。
一個共同的比較將CPU描述為可以特別快速運輸各種貨運的平面。在同一張圖片中,GPU是巨大的貨船,只有容器(不考慮內容)才能以較低的速度運輸它們,但更多的是它們。
總結:
- CPU核心比GPU核心更快,更靈活(目前,CPU的多核操作中約為5 GHz,而GPU上所有核心的2.8 GHz約為2.8 GHz)。
- GPU核心設計用於並行化和很少的基本功能。在GPU上,它們的數量級比坐在CPU上的核心上。
- 因此,不允許將CPU-Flops與GPU-Flops進行比較。
最新的超級計算機結合了CPU和GPU的功能。首先top500目前隊長
(美國)具有1,051,392個CPU核心(AMD EPYC 24核,未更詳細地指定)和9,988,244 GPU核心(AMD Instinct MI300A)。
他的計算能力不再在Teraflops中測量,而是在Petaflops中測量的。在滿載的情況下,El Capitan達到2,746個Pflops FP64。
Blue Gene/L從2004年至2007年領先前500名。他總是被擴展,最後管理了596個TFLOPS FP64。