超频、PCIe4.0-最新最全深度学习工作站方案2021v2

时间:2021-06-21   来源:   网友评论:0   人气: 212 作者:

目录
1 提升深度学习算力的最新硬件方案
2
深度学习选择GPU-性能指标最新排序
3 UltraLAB深度学习工作站新机型介绍
4 UltraLAB 深度学习工作站基准配置方案2021v2
4.1 GA300i深度学习工作站配置推荐(2块GPU方案,超值型)
4.2 GT410P深度学习工作站配置推荐(最大5块GPU方案,高性能型)
4.3 GX650M深度学习工作站配置推荐(最大6块GPU方案,完美极致型)

最新xeon三代+PCIe 4.0架构-深度学习训练、AI智能、神经元计算基准配置推荐2021v2

最新AMD锐龙Pro+PCIe 4.0架构-深度学习训练、AI智能、神经元计算基准配置推荐2021v3


一.提升深度学习性能的最新硬件
随着深度学习、人工智能、大数据AI分析等应用深入,对图形工作站的性能要求越来越高,深度学习主流框架Pytorch、Tensorflow等,在GPU训练神经网络性能指标---训练吞吐量,如何通过模型更快地运行数据集,需要调用更多GPU并行训练,如何提升深度学习算力的硬件性能,关键硬件如下:

No

关键硬件

主要任务

解决方案

1

硬盘读取速度

数据从硬盘读取到内存,并做一些预处理

PCIe 4.0 SSD

2

PCIe传输速度

内存中的数据通过PCIe总线传输到GPU显存

PCIe 4.0 x16接口

3

CPU频率

从内存中取出一批数据,转化为numpy array,并作数据预处理/增强操作,如翻转、平移、颜色变换等。处理完毕后送回内存

数据预处理是CPU单核计算,cpu频率至关重要

4

内存

数据从硬盘读取到内存,GPU计算好结果返回到内存

内存容量、带宽

5

GPU

计算机视觉(CV)、自然语言处理(NLP)、文本到语音 (TTS) 等的 GPU 训练速度

每秒处理样本()的数量

单卡的CUDA FP32Tensor FP16指标越高越好

多卡并行数量越大越好


二.深度学习选择GPU-最新性能指标排序
(GPU型号性能对比表,按单精度FP32排序)

No

型号

卡数

CUDA核数

单精度FP32    Tfops

张量计算FP16

(Tfops)

显存带宽GBs

显存  合计GB

备注

1

A6000

7

75264

280

2184

768

336

超越DGX-2

2

RTX3090

7

73472

249

1995

936

168

超越DGX-2

3

A6000

6

64512

240

1872

768

288

超越DGX-2

4

RTX3080

8

69632

238

1904

760

80

9*2080ti

5

Tesla V100

16

81920

238

1760

653

192

DGX-2

6

RTX3090

6

62976

213

1710

936

144

接近DGX-2

6

A6000

5

53760

200

1560

768

240

全能高速

7

RTX3080

6

52224

179

1428

760

60

5*3090

8

RTX3090

5

52480

178

1425

936

120

 

8

A6000

5

53760

200

1560

768

240

全能高速

29

A5000

6

49152

166

1302

768

144

全能高速

9

A6000

4

43008

160

1248

768

192

全能高速

10

RTX3080

5

43520

149

1190

760

50

9*2080ti

11

RTX3090

4

41984

142

1140

936

96

 

12

RTX3070

7

41216

142

1141

448

56

 

13

A5000

5

40960

139

1085

768

120

全能高速

14

RTX2080Ti

9

39168

121

990

616

99

 

15

RTX3070

6

35328

122

978

448

48

7Titan RTX

16

RTX3080

4

34816

119

952

760

40

8*2080ti

17

Titan RTX

7

32256

114

910

672

168

 

18

A5000

4

32768

111

868

768

96

全能高速

19

RTX2080Ti

8

34816

108

880

616

88

 

20

RTX3090

3

41984

107

855

936

72

 

21

RTX3070

5

29440

102

815

448

40

 

22

RTX3080

3

34816

89

714

760

40

4*titanRTX

23

A5000

3

24576

84

651

768

72

全能高速

24

RTX3070

4

23552

81

652

448

32

 

25

A6000

2

21504

80

624

768

96

全能高速

26

RTX3090

2

20992

71

570

936

48

 

27

Titan RTX

4

18432

65

520

672

96

 

28

RTX3070

3

23552

61

489

448

24

 

29

RTX3080

2

17408

60

476

760

20

多用途

30

A5000

2

16384

56

432

768

48

全能高速

31

RTX2080Ti

4

17408

54

440

616

44

 

32

RTX2080s

4

12288

44

252

496

32

 

33

RTX3070

2

11776

41

326

448

16

3090

34

A6000

1

10752

40

312

768

48

全能高速

35

RTX3090

1

10496

36

285

936

24

全能高速

36

Titan RTX

2

9216

32

260

672

48

 

37

RTX3080

1

8704

30

238

760

10

科研型

38

A5000

1

8192

28

217

768

24

全能高速

39

RTX2080Ti

2

8704

28

220

616

22

 

40

RTX2080s

2

3072

22

126

496

16

 

41

RTX3070

1

5888

20

163

448

8

科研型

42

Titan RTX

1

4608

16

130

672

24

 

43

TITAN V

1

5120

14.90

110

653

12

 

44

RTX2080Ti

1

4352

13

110

616

11

 


 

文章评论