Tesla 系列 GPU 的 ECC 功能及性能优化
在 Tesla 系列 GPU 中,默认开启了 ECC(Error Correcting Code,错误检查和纠正)功能。此功能能够提高数据的正确性,但同时也会带来可用内存的减少以及性能上的损失。
我们可以通过命令 “nvidia-smi
” 查看设备上所有 GPU 的信息参数。若要查看指定 GPU 的信息参数,可使用命令 “nvidia-smi -i n
”(其中 n 代表 GPU 在设备下的编号,如 0、1、2 等),详细信息可通过 “nvidia-smi -a -i n
” 获取。在这些信息参数中,有一项是 “volatile UncorECC
”,通过该选项可查看当前的 ECC 配置。
要关闭或开启第 n 号 GPU 的 ECC 模式,可以使用命令 “nvidia-smi -i n -e 0/1
”,其中 0 表示关闭,1 表示开启。需要注意的是,该设置在重启后生效。经过实践验证,关闭 ECC 程序后,性能能够得到 13% 至 15% 的提升。
此外,使用 “sudo nvidia-smi -pm 1
” 命令可以修改 GPU memory 的缓存不清除,从而提高下次的加载速度
今天在安装好卡的时候,查了一下卡,本来这张P40的卡,显存是24G的,查询出来只有22G左右,发出来给大家分享一下,操作完记得重启才生效!