Skip to content

UFM Enterprise 6.16 裸金属安装指南

摘要: NVIDIA UFM Enterprise 是 InfiniBand 网络的核心管理平台,提供网络拓扑可视化、性能监控及拥塞控制功能。本文档详细介绍了 UFM 6.16 版本在 RHEL 7.9 裸金属环境下的部署流程。

1. 安装前准备

1.1 系统要求

  • 操作系统: Red Hat Enterprise Linux Server 7.9 (Maipo)
  • 内核版本: 推荐保持 RHEL 7.9 默认内核。
  • IB 驱动: MLNX_OFED_LINUX-23.10-2.1.3.1-rhel7.9-x86_64 (必须与 OS 版本严格匹配)。
  • UFM 版本: ufm-6.16.0.el7.x86_64.mofed5

1.2 硬件与分区规划

  • 硬件: 建议专用物理机作为 UFM Master 节点。
  • 分区建议:
    • /boot/efi: 1G
    • /boot: 1G
    • swap: 32G (UFM 对内存交换有一定依赖,建议保留)
    • /: 剩余容量 (日志数据均存储在 /opt/ufm 下,需保证根分区充足)

1.3 基础环境配置

  1. 网络配置: 配置静态 IP,并记录 MAC 地址(申请 License 用)。
  2. SSH: 配置节点间免密登录。
  3. Yum 源: 配置本地 ISO 源或网络源。

1.4 依赖安装与冲突清理

UFM 依赖大量 Python 和 Web 组件,且与系统自带的 OpenSM 冲突。

bash
# 1. 安装依赖包
yum install -y sshpass python3 python3-libs python3-mod_wsgi \
    lftp zip rsync telnet qperf net-tools apr-util-openssl \
    mod_ssl mod_session libxslt gnutls net-snmp net-snmp-libs \
    net-snmp-utils httpd psmisc cairo

# 2. 卸载冲突软件 (OpenSM 和 Sharp)
# UFM 自带优化过的 OpenSM,必须卸载系统自带版本
yum remove -y sharp-3.1.1*
rpm -e opensm-devel opensm opensm-static opensm-libs

2. 软件获取与 License

2.1 获取 License

登录 NVIDIA 许可门户,使用主节点的 MAC 地址生成 License 文件。

  • 存放路径: /opt/mellanox/licenses/ (如果目录不存在请手动创建)

2.2 下载安装包

将安装包上传至 /opt/UFMpackage/ 目录。

  • 文件名示例: ufm-6.16.0.el7.x86_64.mofed5.tgz

3. 安装流程

3.1 解压与执行

bash
cd /opt/UFMpackage
tar -zxvf ufm-6.16.0.el7.x86_64.mofed5.tgz
cd ufm-6.16.0.el7.x86_64.mofed5

# 执行安装脚本
./install.sh

3.2 交互式安装

脚本启动后会询问确认:

text
Do you want to install UFM Enterprise [y|n]? y

安装程序将自动执行以下检查:

  • ✅ 系统架构与发行版检测
  • ✅ OFED 驱动版本兼容性
  • ✅ IB 接口状态
  • ✅ SELinux 状态
  • ✅ 磁盘空间与权限

3.3 安装完成

成功日志示例:

text
[*] UFM Installation finished successfully.
[*] To enable UFM on startup run:
    systemctl enable ufm-enterprise.service

HA 部署注意

如果是部署 UFM HA (高可用) 集群,请勿在此刻手动启动 UFM 服务。需在配置完 HA 脚本(cv_config)后由集群资源管理器自动接管服务启动。

4. 访问与管理

4.1 启动服务 (单机模式)

如果仅部署单节点 UFM,可直接启动:

bash
# 开机自启
systemctl enable ufm-enterprise.service

# 启动服务
systemctl start ufm-enterprise.service

# 查看状态
systemctl status ufm-enterprise.service

4.2 Web UI 访问

  • 地址: https://<UFM_IP>/ufm
  • 默认凭据:
    • User: admin
    • Password: 123456

4.3 常用维护

  • 日志路径: /opt/ufm/files/logs/ufm-enterprise.log
  • 端口配置: /opt/ufm/files/conf/gv.cfg (如需修改 HTTP/HTTPS 端口)

AI-HPC Organization