Ganglia的GPU Nvidia模块:我们需要修补ganglia-webfrontend吗?

我试图在ganglia ( /ganglia/gmond_python_modules/gpu/nvidia/ )中添加GPU Nvidia模块。

我们是否需要应用ganglia_web.patch补丁?

如果我不应用这个补丁,当我去http:// localhost / ganglia /

如果我尝试应用该修补程序,我有以下问题:

 ubuntu@server:/usr/share/ganglia-webfrontend$ sudo patch -p0 < /home/ubuntu/gmond_python_modules/gpu/nvidia/ganglia_web.patch sudo: unable to resolve host server patching file host_view.php Hunk #1 FAILED at 17. Hunk #2 FAILED at 37. Hunk #3 FAILED at 144. Hunk #4 FAILED at 153. Hunk #5 FAILED at 169. 5 out of 5 hunks FAILED -- saving rejects to file host_view.php.rej patching file templates/default/host_view.tpl Hunk #1 FAILED at 80. Hunk #2 FAILED at 89. 2 out of 2 hunks FAILED -- saving rejects to file templates/default/host_view.tpl.rej ubuntu@server:/usr/share/ganglia-webfrontend$ cd /usr/share/ganglia-webfrontend 

自述文件没有提到如何处理修补程序文件。

Web界面确实包含GPU度量,但所有图像都是404:

在这里输入图像说明

当我去一个Grid > [name] > [gpu node] ,我没有看到任何GPU选项:

在这里输入图像说明

在Ganglia服务器上(即在运行gmetad的服务器上),我跑了:

 git clone https://github.com/ganglia/gmond_python_modules.git sudo cp gmond_python_modules/gpu/nvidia/graph.d/* /usr/share/ganglia-webfrontend/graph.d/ sudo /etc/init.d/gmetad restart 

在Ganglia客户端(即在运行gmond的服务器上,以及GPU所在的位置),我跑了:

 git clone https://github.com/ganglia/gmond_python_modules.git sudo pip install nvidia-ml-py sudo cp gmond_python_modules/gpu/nvidia/python_modules/nvidia.py /usr/lib/ganglia/nvidia.py sudo cp gmond_python_modules/gpu/nvidia/conf.d/nvidia.pyconf /etc/ganglia/conf.d sudo /etc/init.d/ganglia-monitor restart 

我用:

  • Ganglia Web前端版本3.6.1
  • Ganglia Web后端(gmetad)版本3.6.0
  • RRDtool版本1.4.7。
  • Ubuntu 14.04.3 LTS x64服​​务器

自己碰到这个之后,昨天也奇怪了。 我问了一个模块的开发者。 他说应该“只是工作”…所以,玩了一下后,我发现以下工作:

在networking主机上:

  1. cp conf.d / nvidia.pyconf /etc/ganglia/conf.d/
  2. cp graph.d / * /usr/share/ganglia-webfrontend/graph.d/
  3. 重新启动gmond

在GPU节点上(注意,这是RHEL / SL / Cent软件包名称和位置):

  1. 安装点(python-pip)
  2. 运行:pip install nvidia-ml-py
  3. 来源:

     cp conf.d/nvidia.pyconf /etc/ganglia/conf.d/ cp python_module/nvidia.py /usr/lib64/ganglia/ 
  4. 重新启动gmond

现在不需要修补Web树。 所以,在Web界面上转到:

 Grid > [name] > [gpu node] 

现在上市应该有一个“gpu指标”。 可能想崩溃,看看。 如果没有出于某种原因,您可以转到网格> [名称]页面,然后在度量标准下拉菜单中select一个gpu_ *度量标准。 一旦你这样做, 可能会踢一些东西。 我必须这样做才能让其中一个节点显示“GPU指标”部分…但另一个我没有。

因人而异。

-J

在Ubuntu xenial上我发现我也需要添加modpython.conf来告诉ganglia的modpython.so来加载nvidia.py模块:

  1. 安装点(python-pip)
  2. 运行: sudo pip install nvidia-ml-py
  3. 来源:

     cp conf.d/nvidia.pyconf /etc/ganglia/conf.d/ cp python_module/nvidia.py /usr/lib/ganglia/python_modules/ 
  4. 如果你没有/etc/ganglia/conf.d/modpython.conf

     cat <<EOF | sudo tee /etc/ganglia/conf.d/modpython.conf modules { module { name = "python_module" path = "/usr/lib/ganglia/modpython.so" params = "/usr/lib/ganglia/python_modules/" } } include ('/etc/ganglia/conf.d/*.pyconf') EOF