显卡的TOPS AI算力比较

虽然自己没设备但喜欢聊 😀,和别人讨论的时候经常要反复查,查询一下汇总,有可能填错了。。。到时候发现错误再订正吧。

AMD 的没找到哪个表/文档里有算 TOPS 的…就不列了

N 卡

20 系到 40 系

GeForce RTX 20 系列

型号 架构 制程 (nm) 显存大小 显存类型 显存位宽 显存带宽 (GB/s) 峰值单精度 (FP32) TOPS (AI) TDP (W)
RTX 2080 Ti Turing 12 11GB GDDR6 352-bit 616 13.45 TFLOPS 114 TOPS 260
RTX 2080 Super Turing 12 8GB GDDR6 256-bit 496 11.15 TFLOPS 89 TOPS 250
RTX 2080 Turing 12 8GB GDDR6 256-bit 448 10.07 TFLOPS 81 TOPS 225
RTX 2070 Super Turing 12 8GB GDDR6 256-bit 448 9.06 TFLOPS 72 TOPS 215
RTX 2070 Turing 12 8GB GDDR6 256-bit 448 7.47 TFLOPS 65 TOPS 175
RTX 2060 Super Turing 12 8GB GDDR6 256-bit 448 7.19 TFLOPS 57 TOPS 175
RTX 2060 Turing 12 6GB GDDR6 192-bit 336 6.45 TFLOPS 52 TOPS 160

GeForce RTX 30 系列

型号 架构 制程 (nm) 显存大小 显存类型 显存位宽 显存带宽 (GB/s) 峰值单精度 (FP32) TOPS (AI) TDP (W)
RTX 3090 Ti Ampere 8 24GB GDDR6X 384-bit 1008 40.0 TFLOPS 320 TOPS 450
RTX 3090 Ampere 8 24GB GDDR6X 384-bit 936 35.6 TFLOPS 284.7 TOPS 350
RTX 3080 Ti Ampere 8 12GB GDDR6X 384-bit 912 34.1 TFLOPS 272.8 TOPS 350
RTX 3080 Ampere 8 10GB GDDR6X 320-bit 760 29.8 TFLOPS 238.1 TOPS 320
RTX 3070 Ti Ampere 8 8GB GDDR6X 256-bit 608 21.7 TFLOPS 174 TOPS 290
RTX 3070 Ampere 8 8GB GDDR6 256-bit 448 20.3 TFLOPS 162.5 TOPS 220
RTX 3060 Ti Ampere 8 8GB GDDR6 256-bit 448 16.2 TFLOPS 101 TOPS 200
RTX 3060 Ampere 8 12GB GDDR6 192-bit 360 12.7 TFLOPS 101 TOPS 170
RTX 3050 Ampere 8 8GB GDDR6 128-bit 224 9.1 TFLOPS 54.2 TOPS 130

GeForce RTX 40 系列

型号 架构 制程 (nm) 显存大小 显存类型 显存位宽 显存带宽 (GB/s) 峰值单精度 (FP32) TOPS (AI) TDP (W)
RTX 4090 Ada Lovelace 4 24GB GDDR6X 384-bit 1008 82.6 TFLOPS 1321 TOPS 450
RTX 4080 Super Ada Lovelace 4 16GB GDDR6X 256-bit 736 52.2 TFLOPS 836 TOPS 320
RTX 4080 Ada Lovelace 4 16GB GDDR6X 256-bit 717 49.0 TFLOPS 780 TOPS 320
RTX 4070 Ti Super Ada Lovelace 4 16GB GDDR6X 256-bit 672 40.1 TFLOPS 706 TOPS 285
RTX 4070 Ti Ada Lovelace 4 12GB GDDR6X 192-bit 504 40.1 TFLOPS 641 TOPS 285
RTX 4070 Super Ada Lovelace 4 12GB GDDR6X 192-bit 504 35.6 TFLOPS 568 TOPS 220
RTX 4070 Ada Lovelace 4 12GB GDDR6X 192-bit 504 29.1 TFLOPS 466 TOPS 200
RTX 4060 Ti (8GB) Ada Lovelace 4 8GB GDDR6 128-bit 288 22.1 TFLOPS 353 TOPS 160
RTX 4060 Ti (16GB) Ada Lovelace 4 16GB GDDR6 128-bit 288 22.1 TFLOPS 353 TOPS 160
RTX 4060 Ada Lovelace 4 8GB GDDR6 128-bit 272 15.1 TFLOPS 242 TOPS 115

A 卡

AMD Radeon RX 6000

型号 架构 制程 (nm) 显存大小 显存类型 显存位宽 显存带宽 (GB/s) 峰值单精度 (FP32) TDP (W)
RX 6900 XT RDNA 2 7 16GB GDDR6 256-bit 512 23.04 TFLOPS 300
RX 6800 XT RDNA 2 7 16GB GDDR6 256-bit 512 20.74 TFLOPS 300
RX 6800 RDNA 2 7 16GB GDDR6 256-bit 512 16.17 TFLOPS 250
RX 6700 XT RDNA 2 7 12GB GDDR6 192-bit 384 13.21 TFLOPS 230
RX 6750 XT RDNA 2 7 12GB GDDR6 192-bit 432 13.31 TFLOPS 250
RX 6600 XT RDNA 2 7 8GB GDDR6 128-bit 256 10.6 TFLOPS 160
RX 6600 RDNA 2 7 8GB GDDR6 128-bit 224 8.93 TFLOPS 132
RX 6750 GRE (12GB) RDNA 2 7 12GB GDDR6 192-bit 384 13.21 TFLOPS 230
RX 6750 GRE (10GB) RDNA 2 7 10GB GDDR6 160-bit 320 11.3 TFLOPS 170

AMD Radeon RX 7000

型号 架构 制程 (nm) 显存大小 显存类型 显存位宽 显存带宽 (GB/s) 峰值单精度 (FP32) TDP (W)
RX 7900 XTX RDNA 3 5nm GCD、6nm MCD 24GB GDDR6 384-bit 960 61.4 TFLOPS 355
RX 7900 XT RDNA 3 5nm GCD、6nm MCD 20GB GDDR6 320-bit 800 51.6 TFLOPS 315
RX 7900 GRE RDNA 3 5nm GCD、6nm MCD 16GB GDDR6 256-bit 576 46.0 TFLOPS 260
RX 7800 XT RDNA 3 5nm GCD、6nm MCD 16GB GDDR6 256-bit 624 37.3 TFLOPS 263
RX 7700 XT RDNA 3 5nm GCD、6nm MCD 12GB GDDR6 192-bit 432 35.2 TFLOPS 245
RX 7600 XT RDNA 3 6nm 16GB GDDR6 128-bit 288 22.6 TFLOPS 190
RX 7600 RDNA 3 6nm 8GB GDDR6 128-bit 288 21.7 TFLOPS 165

I 卡

Intel Arc A 系列

型号 架构 制程 (nm) 显存大小 显存类型 显存位宽 显存带宽 (GB/s) 峰值单精度 (FP32) TOPS (AI) TDP (W)
A770 Xe HPG 6 16GB GDDR6 256-bit 512 19.66 TFLOPS 233 TOPS 225
A750 Xe HPG 6 8GB GDDR6 256-bit 512 17.20 TFLOPS 204 TOPS 225
A580 Xe HPG 6 8GB GDDR6 256-bit 512 12.29 TFLOPS 156 TOPS 175
A380 Xe HPG 6 6GB GDDR6 96-bit 186 4.198 TFLOPS 61 TOPS 75

Intel Arc B 系列

型号 架构 制程 (nm) 显存大小 显存类型 显存位宽 显存带宽 (GB/s) 峰值单精度 (FP32) TOPS (AI) TDP (W)
B580 Xe2 HPG 5 12GB GDDR6 192-bit 456 13.67 TFLOPS 233 TOPS 190
B570 Xe2 HPG 5 10GB GDDR6 160-bit 380 11.52 TFLOPS 207 TOPS 150

TOPS 与 TFLOPS 的区别

  • TFLOPS:每秒万亿次浮点运算,衡量浮点计算性能。
  • TOPS:每秒万亿次操作,衡量低精度或整数计算性能。
特性 TFLOPS TOPS
计算类型 浮点运算(FP32、FP64) 整数或低精度运算(INT8、FP16)
核心类型 CUDA 核心、流处理器 Tensor 核心、AI 加速单元
主要用途 图形渲染、科学计算 深度学习推理、AI 加速
精度支持 高精度(FP32、FP64) 低精度(INT8、FP16)

TFLOPS = (核心数 × 每核心每周期浮点运算次数 × 核心频率(GHz)) / 10^3

TOPS = (核心数 × 每核心每周期操作次数 × 核心频率(GHz)) / 10^3

示例

  • 3584 核心,1.5 GHz,每核心每周期 2 次浮点运算:
    TFLOPS = (3584 × 2 × 1.5) / 10^3 = 10.75 TFLOPS

  • 544 Tensor 核心,1.5 GHz,每核心每周期 128 次 INT8 操作:
    TOPS = (544 × 128 × 1.5) / 10^3 = 104.448 TOPS

参考

techpowerup - GPU Specs Database

tomshardware - GPUS

桌面显卡性能天梯图

List of Desktop GPUs by Generative AI TOPS