我试图在ganglia ( /ganglia/gmond_python_modules/gpu/nvidia/ )中添加GPU Nvidia模块。
我们是否需要应用ganglia_web.patch补丁?
如果我不应用这个补丁,当我去http:// localhost / ganglia /
如果我尝试应用该修补程序,我有以下问题:
ubuntu@server:/usr/share/ganglia-webfrontend$ sudo patch -p0 < /home/ubuntu/gmond_python_modules/gpu/nvidia/ganglia_web.patch sudo: unable to resolve host server patching file host_view.php Hunk #1 FAILED at 17. Hunk #2 FAILED at 37. Hunk #3 FAILED at 144. Hunk #4 FAILED at 153. Hunk #5 FAILED at 169. 5 out of 5 hunks FAILED -- saving rejects to file host_view.php.rej patching file templates/default/host_view.tpl Hunk #1 FAILED at 80. Hunk #2 FAILED at 89. 2 out of 2 hunks FAILED -- saving rejects to file templates/default/host_view.tpl.rej ubuntu@server:/usr/share/ganglia-webfrontend$ cd /usr/share/ganglia-webfrontend
自述文件没有提到如何处理修补程序文件。
Web界面确实包含GPU度量,但所有图像都是404:
当我去一个Grid > [name] > [gpu node] ,我没有看到任何GPU选项:
在Ganglia服务器上(即在运行gmetad的服务器上),我跑了:
git clone https://github.com/ganglia/gmond_python_modules.git sudo cp gmond_python_modules/gpu/nvidia/graph.d/* /usr/share/ganglia-webfrontend/graph.d/ sudo /etc/init.d/gmetad restart
在Ganglia客户端(即在运行gmond的服务器上,以及GPU所在的位置),我跑了:
git clone https://github.com/ganglia/gmond_python_modules.git sudo pip install nvidia-ml-py sudo cp gmond_python_modules/gpu/nvidia/python_modules/nvidia.py /usr/lib/ganglia/nvidia.py sudo cp gmond_python_modules/gpu/nvidia/conf.d/nvidia.pyconf /etc/ganglia/conf.d sudo /etc/init.d/ganglia-monitor restart
我用:
自己碰到这个之后,昨天也奇怪了。 我问了一个模块的开发者。 他说应该“只是工作”…所以,玩了一下后,我发现以下工作:
在networking主机上:
在GPU节点上(注意,这是RHEL / SL / Cent软件包名称和位置):
来源:
cp conf.d/nvidia.pyconf /etc/ganglia/conf.d/ cp python_module/nvidia.py /usr/lib64/ganglia/
重新启动gmond
现在不需要修补Web树。 所以,在Web界面上转到:
Grid > [name] > [gpu node]
现在上市应该有一个“gpu指标”。 可能想崩溃,看看。 如果没有出于某种原因,您可以转到网格> [名称]页面,然后在度量标准下拉菜单中select一个gpu_ *度量标准。 一旦你这样做, 可能会踢一些东西。 我必须这样做才能让其中一个节点显示“GPU指标”部分…但另一个我没有。
因人而异。
-J
在Ubuntu xenial上我发现我也需要添加modpython.conf来告诉ganglia的modpython.so来加载nvidia.py模块:
sudo pip install nvidia-ml-py 来源:
cp conf.d/nvidia.pyconf /etc/ganglia/conf.d/ cp python_module/nvidia.py /usr/lib/ganglia/python_modules/
如果你没有/etc/ganglia/conf.d/modpython.conf
cat <<EOF | sudo tee /etc/ganglia/conf.d/modpython.conf modules { module { name = "python_module" path = "/usr/lib/ganglia/modpython.so" params = "/usr/lib/ganglia/python_modules/" } } include ('/etc/ganglia/conf.d/*.pyconf') EOF