虽然自己没设备但喜欢聊 😀,和别人讨论的时候经常要反复查,查询一下汇总,有可能填错了。。。到时候发现错误再订正吧。
AMD 的没找到哪个表/文档里有算 TOPS 的…就不列了
N 卡
20 系到 40 系
GeForce RTX 20 系列
型号 | 架构 | 制程 (nm) | 显存大小 | 显存类型 | 显存位宽 | 显存带宽 (GB/s) | 峰值单精度 (FP32) | TOPS (AI) | TDP (W) |
---|---|---|---|---|---|---|---|---|---|
RTX 2080 Ti | Turing | 12 | 11GB | GDDR6 | 352-bit | 616 | 13.45 TFLOPS | 114 TOPS | 260 |
RTX 2080 Super | Turing | 12 | 8GB | GDDR6 | 256-bit | 496 | 11.15 TFLOPS | 89 TOPS | 250 |
RTX 2080 | Turing | 12 | 8GB | GDDR6 | 256-bit | 448 | 10.07 TFLOPS | 81 TOPS | 225 |
RTX 2070 Super | Turing | 12 | 8GB | GDDR6 | 256-bit | 448 | 9.06 TFLOPS | 72 TOPS | 215 |
RTX 2070 | Turing | 12 | 8GB | GDDR6 | 256-bit | 448 | 7.47 TFLOPS | 65 TOPS | 175 |
RTX 2060 Super | Turing | 12 | 8GB | GDDR6 | 256-bit | 448 | 7.19 TFLOPS | 57 TOPS | 175 |
RTX 2060 | Turing | 12 | 6GB | GDDR6 | 192-bit | 336 | 6.45 TFLOPS | 52 TOPS | 160 |
GeForce RTX 30 系列
型号 | 架构 | 制程 (nm) | 显存大小 | 显存类型 | 显存位宽 | 显存带宽 (GB/s) | 峰值单精度 (FP32) | TOPS (AI) | TDP (W) |
---|---|---|---|---|---|---|---|---|---|
RTX 3090 Ti | Ampere | 8 | 24GB | GDDR6X | 384-bit | 1008 | 40.0 TFLOPS | 320 TOPS | 450 |
RTX 3090 | Ampere | 8 | 24GB | GDDR6X | 384-bit | 936 | 35.6 TFLOPS | 284.7 TOPS | 350 |
RTX 3080 Ti | Ampere | 8 | 12GB | GDDR6X | 384-bit | 912 | 34.1 TFLOPS | 272.8 TOPS | 350 |
RTX 3080 | Ampere | 8 | 10GB | GDDR6X | 320-bit | 760 | 29.8 TFLOPS | 238.1 TOPS | 320 |
RTX 3070 Ti | Ampere | 8 | 8GB | GDDR6X | 256-bit | 608 | 21.7 TFLOPS | 174 TOPS | 290 |
RTX 3070 | Ampere | 8 | 8GB | GDDR6 | 256-bit | 448 | 20.3 TFLOPS | 162.5 TOPS | 220 |
RTX 3060 Ti | Ampere | 8 | 8GB | GDDR6 | 256-bit | 448 | 16.2 TFLOPS | 101 TOPS | 200 |
RTX 3060 | Ampere | 8 | 12GB | GDDR6 | 192-bit | 360 | 12.7 TFLOPS | 101 TOPS | 170 |
RTX 3050 | Ampere | 8 | 8GB | GDDR6 | 128-bit | 224 | 9.1 TFLOPS | 54.2 TOPS | 130 |
GeForce RTX 40 系列
型号 | 架构 | 制程 (nm) | 显存大小 | 显存类型 | 显存位宽 | 显存带宽 (GB/s) | 峰值单精度 (FP32) | TOPS (AI) | TDP (W) |
---|---|---|---|---|---|---|---|---|---|
RTX 4090 | Ada Lovelace | 4 | 24GB | GDDR6X | 384-bit | 1008 | 82.6 TFLOPS | 1321 TOPS | 450 |
RTX 4080 Super | Ada Lovelace | 4 | 16GB | GDDR6X | 256-bit | 736 | 52.2 TFLOPS | 836 TOPS | 320 |
RTX 4080 | Ada Lovelace | 4 | 16GB | GDDR6X | 256-bit | 717 | 49.0 TFLOPS | 780 TOPS | 320 |
RTX 4070 Ti Super | Ada Lovelace | 4 | 16GB | GDDR6X | 256-bit | 672 | 40.1 TFLOPS | 706 TOPS | 285 |
RTX 4070 Ti | Ada Lovelace | 4 | 12GB | GDDR6X | 192-bit | 504 | 40.1 TFLOPS | 641 TOPS | 285 |
RTX 4070 Super | Ada Lovelace | 4 | 12GB | GDDR6X | 192-bit | 504 | 35.6 TFLOPS | 568 TOPS | 220 |
RTX 4070 | Ada Lovelace | 4 | 12GB | GDDR6X | 192-bit | 504 | 29.1 TFLOPS | 466 TOPS | 200 |
RTX 4060 Ti (8GB) | Ada Lovelace | 4 | 8GB | GDDR6 | 128-bit | 288 | 22.1 TFLOPS | 353 TOPS | 160 |
RTX 4060 Ti (16GB) | Ada Lovelace | 4 | 16GB | GDDR6 | 128-bit | 288 | 22.1 TFLOPS | 353 TOPS | 160 |
RTX 4060 | Ada Lovelace | 4 | 8GB | GDDR6 | 128-bit | 272 | 15.1 TFLOPS | 242 TOPS | 115 |
A 卡
AMD Radeon RX 6000
型号 | 架构 | 制程 (nm) | 显存大小 | 显存类型 | 显存位宽 | 显存带宽 (GB/s) | 峰值单精度 (FP32) | TDP (W) |
---|---|---|---|---|---|---|---|---|
RX 6900 XT | RDNA 2 | 7 | 16GB | GDDR6 | 256-bit | 512 | 23.04 TFLOPS | 300 |
RX 6800 XT | RDNA 2 | 7 | 16GB | GDDR6 | 256-bit | 512 | 20.74 TFLOPS | 300 |
RX 6800 | RDNA 2 | 7 | 16GB | GDDR6 | 256-bit | 512 | 16.17 TFLOPS | 250 |
RX 6700 XT | RDNA 2 | 7 | 12GB | GDDR6 | 192-bit | 384 | 13.21 TFLOPS | 230 |
RX 6750 XT | RDNA 2 | 7 | 12GB | GDDR6 | 192-bit | 432 | 13.31 TFLOPS | 250 |
RX 6600 XT | RDNA 2 | 7 | 8GB | GDDR6 | 128-bit | 256 | 10.6 TFLOPS | 160 |
RX 6600 | RDNA 2 | 7 | 8GB | GDDR6 | 128-bit | 224 | 8.93 TFLOPS | 132 |
RX 6750 GRE (12GB) | RDNA 2 | 7 | 12GB | GDDR6 | 192-bit | 384 | 13.21 TFLOPS | 230 |
RX 6750 GRE (10GB) | RDNA 2 | 7 | 10GB | GDDR6 | 160-bit | 320 | 11.3 TFLOPS | 170 |
AMD Radeon RX 7000
型号 | 架构 | 制程 (nm) | 显存大小 | 显存类型 | 显存位宽 | 显存带宽 (GB/s) | 峰值单精度 (FP32) | TDP (W) |
---|---|---|---|---|---|---|---|---|
RX 7900 XTX | RDNA 3 | 5nm GCD、6nm MCD | 24GB | GDDR6 | 384-bit | 960 | 61.4 TFLOPS | 355 |
RX 7900 XT | RDNA 3 | 5nm GCD、6nm MCD | 20GB | GDDR6 | 320-bit | 800 | 51.6 TFLOPS | 315 |
RX 7900 GRE | RDNA 3 | 5nm GCD、6nm MCD | 16GB | GDDR6 | 256-bit | 576 | 46.0 TFLOPS | 260 |
RX 7800 XT | RDNA 3 | 5nm GCD、6nm MCD | 16GB | GDDR6 | 256-bit | 624 | 37.3 TFLOPS | 263 |
RX 7700 XT | RDNA 3 | 5nm GCD、6nm MCD | 12GB | GDDR6 | 192-bit | 432 | 35.2 TFLOPS | 245 |
RX 7600 XT | RDNA 3 | 6nm | 16GB | GDDR6 | 128-bit | 288 | 22.6 TFLOPS | 190 |
RX 7600 | RDNA 3 | 6nm | 8GB | GDDR6 | 128-bit | 288 | 21.7 TFLOPS | 165 |
I 卡
Intel Arc A 系列
型号 | 架构 | 制程 (nm) | 显存大小 | 显存类型 | 显存位宽 | 显存带宽 (GB/s) | 峰值单精度 (FP32) | TOPS (AI) | TDP (W) |
---|---|---|---|---|---|---|---|---|---|
A770 | Xe HPG | 6 | 16GB | GDDR6 | 256-bit | 512 | 19.66 TFLOPS | 233 TOPS | 225 |
A750 | Xe HPG | 6 | 8GB | GDDR6 | 256-bit | 512 | 17.20 TFLOPS | 204 TOPS | 225 |
A580 | Xe HPG | 6 | 8GB | GDDR6 | 256-bit | 512 | 12.29 TFLOPS | 156 TOPS | 175 |
A380 | Xe HPG | 6 | 6GB | GDDR6 | 96-bit | 186 | 4.198 TFLOPS | 61 TOPS | 75 |
Intel Arc B 系列
型号 | 架构 | 制程 (nm) | 显存大小 | 显存类型 | 显存位宽 | 显存带宽 (GB/s) | 峰值单精度 (FP32) | TOPS (AI) | TDP (W) |
---|---|---|---|---|---|---|---|---|---|
B580 | Xe2 HPG | 5 | 12GB | GDDR6 | 192-bit | 456 | 13.67 TFLOPS | 233 TOPS | 190 |
B570 | Xe2 HPG | 5 | 10GB | GDDR6 | 160-bit | 380 | 11.52 TFLOPS | 207 TOPS | 150 |
TOPS 与 TFLOPS 的区别
- TFLOPS:每秒万亿次浮点运算,衡量浮点计算性能。
- TOPS:每秒万亿次操作,衡量低精度或整数计算性能。
特性 | TFLOPS | TOPS |
---|---|---|
计算类型 | 浮点运算(FP32、FP64) | 整数或低精度运算(INT8、FP16) |
核心类型 | CUDA 核心、流处理器 | Tensor 核心、AI 加速单元 |
主要用途 | 图形渲染、科学计算 | 深度学习推理、AI 加速 |
精度支持 | 高精度(FP32、FP64) | 低精度(INT8、FP16) |
TFLOPS = (核心数 × 每核心每周期浮点运算次数 × 核心频率(GHz)) / 10^3
TOPS = (核心数 × 每核心每周期操作次数 × 核心频率(GHz)) / 10^3
示例:
3584 核心,1.5 GHz,每核心每周期 2 次浮点运算:
TFLOPS = (3584 × 2 × 1.5) / 10^3 = 10.75 TFLOPS544 Tensor 核心,1.5 GHz,每核心每周期 128 次 INT8 操作:
TOPS = (544 × 128 × 1.5) / 10^3 = 104.448 TOPS