AI人工智能 | 人工智能机器人【中国人工智能网】

滚动新闻

开拓|深度进修练习时GPU温渡过高?输入这几行呼吁就能迅速降温

时间:2017-07-17 22:41来源:网络整理 作者:AI人工智能

开辟|深度学习操练时GPU温度过高?输入这几行号令就能迅速降温

AI科技评论按:本文作者胡智豪,原载于作者小我私家博客,AI科技评论经授权宣布。

新买返来的不带水冷公版GPU,在满负载运行的时候,温度从室温顿时飙升到85度,并且模子练习不是几分钟完事,很有大概要恒久保持在高温状态下运行,让如此昂贵的GPU一直发热真是让人太心疼!

开辟|深度学习操练时GPU温度过高?输入这几行号令就能迅速降温

首先获得知乎上一位伴侣的文章开导:从零开始组装深度进修平台(GPU散热)。详细地点:

~aHR0cDovL3QuY24v!RK9wyBK

这篇文章写的是在ubuntu X server情况下,通过修改nvidia-settings来修改GPU电扇速度,因为默认的nvidia-settings配置是,纵然GPU在计较的时候温度已经到达85度,电扇速度最高不会高出70%,这样就无法很好地为GPU举办散热,因此需要手动修改GPU电扇速度。

注,以下配置都是针对linux系统的GPU配置,windows的伴侣请搜索相关文章。

  一、假如你有显示器(X server)

可以完全凭据上面提到的文章《从零开始组装深度进修平台》操纵,这里贴出要害步调为:

1. 修改/etc/X11/xorg.cong文件

sudo nano /etc/X11/xorg.conf

2. 在Section "Device"内里插手 Option "Coolbits" "4"

Section "Device"

     Identifier      "Device0"

     Driver          "nvidia"

     VendorName      "NVIDIA"

     Option          "Coolbits" "4"

EndSection

3. 重启电脑sudo reboot

4. 输入:

nvidia-settings -a "[gpu:0]/GPUFanControlState=1" -a "[fan:0]/GPUTargetFanSpeed=100"

这里GPUTargetFanSpeed=100就是电扇的速度, 100就是电扇运行在100%的速度, 也可以改成其它速度. 留意在新的NVIDIA驱动, GPUCurrentFanSpeed 被改成了 GPUTargetFanSpeed. 别的GPUFanControlState=1暗示让用户可以手动调理GPU电扇速度。

感激原文知乎作者:张三

  二、假如你没有显示器

一般在ubuntu上搭建完深度进修情况后,很多伴侣习惯把ubuntu的X桌面处事禁用掉,然后通过另一台windows系统的电脑通过ssh来毗连GPU呆板利用。这个时候X server已经被禁用掉,开机也自动启动呼吁行模式,上面第一种做法就不合用于这种环境了。原因是,nvidia-settings只能在X桌面情况下运行,若你想强行利用这个配置就会报错:

开辟|深度学习操练时GPU温度过高?输入这几行号令就能迅速降温

因此正常环境下,是不行能通过修改这个配置来改变电扇速度的。

但有没有其它要领修改呢?有!你需要骗过系统,让它你有显示器,这就是常说的headless模式。

主要的办理要领是参考了链接里这篇文章(fan speed without X : powermizer drops card to p8):

~aHR0cDovL3QuY24v!RK9ASS5

这篇文章提供了修改电扇速度的剧本,在ubuntu下运行剧本即可及时调理电扇速度,从而为GPU降温。

这里提供具体步调:

1. 克隆这个github客栈到当地目次/opt:

https://github.com/boris-dimitrov/set_gpu_fans_public

cd /opt

git clone https://github.com/boris-dimitrov/set_gpu_fans_public

开辟|深度学习操练时GPU温度过高?输入这几行号令就能迅速降温

开辟|深度学习操练时GPU温度过高?输入这几行号令就能迅速降温

在这个客栈包罗上图几个文件,主要起浸染的是cool_gpu这个文件,我们把文件夹克隆下来之后,运行cool_gpu就可以调理电扇速度了。

2. 修改文件夹名字为set-gpu-fans,因为作者疏忽,在cool_gpu代码中此文件夹被定名为“set-gpu-fans”,然而git clone下来的文件夹名字是“set_gpu_fans_public”。

sudo mv set_gpu_fans_public set-gpu-fans

3. 建设一个标记链接,让系统知道这个代码在那边:

ln -sf ~/set-gpu-fans /opt/set-gpu-fans

4.定位到set-gpu-fans文件夹,输入以下呼吁:

cd /opt/set-gpu-fans

sudo tcsh

./cool_gpu >& controller.log &

tail -f controller.log

这个呼吁是运行cool_gpu降温代码,启动后会看到这些及时变革的提示:

开辟|深度学习操练时GPU温度过高?输入这几行号令就能迅速降温

在开始计较测试前,我们看看今朝GPU的温度:

开辟|深度学习操练时GPU温度过高?输入这几行号令就能迅速降温

这里用的是2卡举办计较测试,我们可以看到,2卡的Perf(机能)一项已经被调解为“P2”(其它卡仍为P8),2卡的温度为35度,并且三个电扇的速度均为55%。“P2”指的是nvidia的显卡power state,从P0到P12,最高机能状态为P0,运行计较是为P2,最低功耗(最低机能)为P12

启动模子练习,我们可以看到措施正在不绝地自动调理温度:

开辟|深度学习操练时GPU温度过高?输入这几行号令就能迅速降温

当运行练习模子一段时间后,最终的温度状态如下图:

开辟|深度学习操练时GPU温度过高?输入这几行号令就能迅速降温

电扇被全部调理到80%的速度,温度不变在65度!比拟文章开头的数据,显卡温度从84度降到65度,整整下降了20度!

  三、一点要留意的

在上面第二部门的文章出来之前,网上还传播着另一篇文章,那篇可以说是最原始的版本,上面第二部门的代码正是基于该篇原始版本文章改造的,链接地点在这里(Set fan speed without an X server):

~aHR0cDovL3QuY24v!RK9yQmf

但这篇文章的原始代码存在一个严重问题:固然可以或许强制改变电扇速度,但GPU会被降频事情,power state会被强制降为P8,导致运算机能严重下降!

大概是那篇文章颁发时间较量早,不大合用此刻最新的显卡和驱动,因此才有了上面第二部门的改造版本,所以各人不要利用原始版本的代码,不然GPU会被限制机能。

开辟|深度学习操练时GPU温度过高?输入这几行号令就能迅速降温

    标签: