显卡的TOPS AI算力比较

虽然自己没设备但喜欢聊 😀，和别人讨论的时候经常要反复查，查询一下汇总，有可能填错了。。。到时候发现错误再订正吧。

AMD 的没找到哪个表/文档里有算 TOPS 的…就不列了

N 卡

20 系到 40 系

GeForce RTX 20 系列

型号	架构	制程 (nm)	显存大小	显存类型	显存位宽	显存带宽 (GB/s)	峰值单精度 (FP32)	TOPS (AI)	TDP (W)
RTX 2080 Ti	Turing	12	11GB	GDDR6	352-bit	616	13.45 TFLOPS	114 TOPS	260
RTX 2080 Super	Turing	12	8GB	GDDR6	256-bit	496	11.15 TFLOPS	89 TOPS	250
RTX 2080	Turing	12	8GB	GDDR6	256-bit	448	10.07 TFLOPS	81 TOPS	225
RTX 2070 Super	Turing	12	8GB	GDDR6	256-bit	448	9.06 TFLOPS	72 TOPS	215
RTX 2070	Turing	12	8GB	GDDR6	256-bit	448	7.47 TFLOPS	65 TOPS	175
RTX 2060 Super	Turing	12	8GB	GDDR6	256-bit	448	7.19 TFLOPS	57 TOPS	175
RTX 2060	Turing	12	6GB	GDDR6	192-bit	336	6.45 TFLOPS	52 TOPS	160

GeForce RTX 30 系列

型号	架构	制程 (nm)	显存大小	显存类型	显存位宽	显存带宽 (GB/s)	峰值单精度 (FP32)	TOPS (AI)	TDP (W)
RTX 3090 Ti	Ampere	8	24GB	GDDR6X	384-bit	1008	40.0 TFLOPS	320 TOPS	450
RTX 3090	Ampere	8	24GB	GDDR6X	384-bit	936	35.6 TFLOPS	284.7 TOPS	350
RTX 3080 Ti	Ampere	8	12GB	GDDR6X	384-bit	912	34.1 TFLOPS	272.8 TOPS	350
RTX 3080	Ampere	8	10GB	GDDR6X	320-bit	760	29.8 TFLOPS	238.1 TOPS	320
RTX 3070 Ti	Ampere	8	8GB	GDDR6X	256-bit	608	21.7 TFLOPS	174 TOPS	290
RTX 3070	Ampere	8	8GB	GDDR6	256-bit	448	20.3 TFLOPS	162.5 TOPS	220
RTX 3060 Ti	Ampere	8	8GB	GDDR6	256-bit	448	16.2 TFLOPS	101 TOPS	200
RTX 3060	Ampere	8	12GB	GDDR6	192-bit	360	12.7 TFLOPS	101 TOPS	170
RTX 3050	Ampere	8	8GB	GDDR6	128-bit	224	9.1 TFLOPS	54.2 TOPS	130

GeForce RTX 40 系列

型号	架构	制程 (nm)	显存大小	显存类型	显存位宽	显存带宽 (GB/s)	峰值单精度 (FP32)	TOPS (AI)	TDP (W)
RTX 4090	Ada Lovelace	4	24GB	GDDR6X	384-bit	1008	82.6 TFLOPS	1321 TOPS	450
RTX 4080 Super	Ada Lovelace	4	16GB	GDDR6X	256-bit	736	52.2 TFLOPS	836 TOPS	320
RTX 4080	Ada Lovelace	4	16GB	GDDR6X	256-bit	717	49.0 TFLOPS	780 TOPS	320
RTX 4070 Ti Super	Ada Lovelace	4	16GB	GDDR6X	256-bit	672	40.1 TFLOPS	706 TOPS	285
RTX 4070 Ti	Ada Lovelace	4	12GB	GDDR6X	192-bit	504	40.1 TFLOPS	641 TOPS	285
RTX 4070 Super	Ada Lovelace	4	12GB	GDDR6X	192-bit	504	35.6 TFLOPS	568 TOPS	220
RTX 4070	Ada Lovelace	4	12GB	GDDR6X	192-bit	504	29.1 TFLOPS	466 TOPS	200
RTX 4060 Ti (8GB)	Ada Lovelace	4	8GB	GDDR6	128-bit	288	22.1 TFLOPS	353 TOPS	160
RTX 4060 Ti (16GB)	Ada Lovelace	4	16GB	GDDR6	128-bit	288	22.1 TFLOPS	353 TOPS	160
RTX 4060	Ada Lovelace	4	8GB	GDDR6	128-bit	272	15.1 TFLOPS	242 TOPS	115

A 卡

AMD Radeon RX 6000

型号	架构	制程 (nm)	显存大小	显存类型	显存位宽	显存带宽 (GB/s)	峰值单精度 (FP32)	TDP (W)
RX 6900 XT	RDNA 2	7	16GB	GDDR6	256-bit	512	23.04 TFLOPS	300
RX 6800 XT	RDNA 2	7	16GB	GDDR6	256-bit	512	20.74 TFLOPS	300
RX 6800	RDNA 2	7	16GB	GDDR6	256-bit	512	16.17 TFLOPS	250
RX 6700 XT	RDNA 2	7	12GB	GDDR6	192-bit	384	13.21 TFLOPS	230
RX 6750 XT	RDNA 2	7	12GB	GDDR6	192-bit	432	13.31 TFLOPS	250
RX 6600 XT	RDNA 2	7	8GB	GDDR6	128-bit	256	10.6 TFLOPS	160
RX 6600	RDNA 2	7	8GB	GDDR6	128-bit	224	8.93 TFLOPS	132
RX 6750 GRE (12GB)	RDNA 2	7	12GB	GDDR6	192-bit	384	13.21 TFLOPS	230
RX 6750 GRE (10GB)	RDNA 2	7	10GB	GDDR6	160-bit	320	11.3 TFLOPS	170

AMD Radeon RX 7000

型号	架构	制程 (nm)	显存大小	显存类型	显存位宽	显存带宽 (GB/s)	峰值单精度 (FP32)	TDP (W)
RX 7900 XTX	RDNA 3	5nm GCD、6nm MCD	24GB	GDDR6	384-bit	960	61.4 TFLOPS	355
RX 7900 XT	RDNA 3	5nm GCD、6nm MCD	20GB	GDDR6	320-bit	800	51.6 TFLOPS	315
RX 7900 GRE	RDNA 3	5nm GCD、6nm MCD	16GB	GDDR6	256-bit	576	46.0 TFLOPS	260
RX 7800 XT	RDNA 3	5nm GCD、6nm MCD	16GB	GDDR6	256-bit	624	37.3 TFLOPS	263
RX 7700 XT	RDNA 3	5nm GCD、6nm MCD	12GB	GDDR6	192-bit	432	35.2 TFLOPS	245
RX 7600 XT	RDNA 3	6nm	16GB	GDDR6	128-bit	288	22.6 TFLOPS	190
RX 7600	RDNA 3	6nm	8GB	GDDR6	128-bit	288	21.7 TFLOPS	165

I 卡

Intel Arc A 系列

型号	架构	制程 (nm)	显存大小	显存类型	显存位宽	显存带宽 (GB/s)	峰值单精度 (FP32)	TOPS (AI)	TDP (W)
A770	Xe HPG	6	16GB	GDDR6	256-bit	512	19.66 TFLOPS	233 TOPS	225
A750	Xe HPG	6	8GB	GDDR6	256-bit	512	17.20 TFLOPS	204 TOPS	225
A580	Xe HPG	6	8GB	GDDR6	256-bit	512	12.29 TFLOPS	156 TOPS	175
A380	Xe HPG	6	6GB	GDDR6	96-bit	186	4.198 TFLOPS	61 TOPS	75

Intel Arc B 系列

型号	架构	制程 (nm)	显存大小	显存类型	显存位宽	显存带宽 (GB/s)	峰值单精度 (FP32)	TOPS (AI)	TDP (W)
B580	Xe2 HPG	5	12GB	GDDR6	192-bit	456	13.67 TFLOPS	233 TOPS	190
B570	Xe2 HPG	5	10GB	GDDR6	160-bit	380	11.52 TFLOPS	207 TOPS	150

TOPS 与 TFLOPS 的区别

TFLOPS：每秒万亿次浮点运算，衡量浮点计算性能。
TOPS：每秒万亿次操作，衡量低精度或整数计算性能。

特性	TFLOPS	TOPS
计算类型	浮点运算（FP32、FP64）	整数或低精度运算（INT8、FP16）
核心类型	CUDA 核心、流处理器	Tensor 核心、AI 加速单元
主要用途	图形渲染、科学计算	深度学习推理、AI 加速
精度支持	高精度（FP32、FP64）	低精度（INT8、FP16）

TFLOPS = (核心数 × 每核心每周期浮点运算次数 × 核心频率（GHz）) / 10^3

TOPS = (核心数 × 每核心每周期操作次数 × 核心频率（GHz）) / 10^3

示例：

3584 核心，1.5 GHz，每核心每周期 2 次浮点运算：
TFLOPS = (3584 × 2 × 1.5) / 10^3 = 10.75 TFLOPS
544 Tensor 核心，1.5 GHz，每核心每周期 128 次 INT8 操作：
TOPS = (544 × 128 × 1.5) / 10^3 = 104.448 TOPS

参考

techpowerup - GPU Specs Database

tomshardware - GPUS

桌面显卡性能天梯图

List of Desktop GPUs by Generative AI TOPS