[NVIDIA] InfiniBand - Running SM(서버 , 스위치)

2025. 4. 3. 12:53·Network/NVIDIA

Runnning SM


SM은 서버, 관리 스위치 또는 UFM에서 실행 가능 함.

# Small Scale Fabric : 소규모 패브릭

1. SM은 일반적으로 MLNX OS 기반의 관리형 스위치에서 실행됨. 최대 2000개 노드

- Medium to Large scale fabrics : 중대형 패브릭

2. SM은 일반적으로 엔비디아 OFED 스택 상단의 서버 또는 UFM 서버/어플라이언스에서 실행됨.

- 스위치 SM VS 서버/UFM 구현에서 지원하는 기능 범위 간에 차이가 있을 수 있음.


Running SM from a Server | 서버에서 실행


- SM NVIDIA OFED 스택 위에서 실행된다.

- notice : ofed가 설치되어 실행 중일 때, SM은 기본적으로 실행되지 않는다. 

- sm 서비스가 시작되면 기본 우선 순위는 0이다. 

 

1. SM 상태 확인

[root@mtlacad07 ~]# /etc/init.d/opensmd status

 

2. SM 실행 후 상태 확인

[root@mtlacad07 ~]# /etc/init.d/opensmd start
[root@mtlacad07 ~]# /etc/init.d/opensmd status

 

# SM priority 구성 : 디폴트는 0 이고, values 1 ~ 15

# UCAST_CASHE 활성화하여 과도한 heavy sweeps 방지

# 라우팅 엔진 구성

- 관련 토폴로지에 적합

- ftree 또는 updn이 정의된 경우 루트 GUID 파일을 입력한다.


SM Failover : SM 장애조치


- SM Failover : 마스터 SM에 장애가 발생하면 대기 중 하나가 새 마스터로 선택된다. 

- SM Handover : 실패한 마스터가 작동 중일 경우, 마스터로 재선출

= 이 시나리오를 이중 장애 조치라고 한다.

- 새로운 마스터가 선출될 때마다 처음부터 직물을 재발견한다.

- 안정성을 높이고 오버헤드를 줄이며 전반적인 성능을 향상시키기 위해 SM 핸드오버를 피하는 것이 좋다.

- 이중 장애 조치를 방지하기 위해 두 SM에서 값 15로 구성되는 master_sm_pri 매개변수를 사용함.

- 매개변수 master_sm_pri는 마스터가 될 때만 OpenSM에서 사용된다.


openSM 구성 파일


opensm.conf 파일에는 패브릭을 관리하는 동안 OpenSM이 처리하는 매개변수가 포함되어 있음.

# 파일이 없는 경우 해당 명령어를 사용하여 생성

[root@mtlacad07 ~]# opensm -C /etc/opensm/opensm.conf

 

1. 이 플래그는 open sm 구성 파일로 내보낸다.

2. 엔비디아 OFED로 작업할 때 위치는 /etc/opensm/opensm.conf 이다.

3. UFM으로 작업할 때 위치는 /opt/ufm/file/conf/opensm/opensm.conf이다.

 

# 라우팅 엔진 구성

- 라우팅 엔진이 구성이 안 되어 있을 시 기본적으로 SM은 minhop으로 실행된다. 


Verify Subnet Activity Status | 서브넷 활동 상태 확인


# opensm.log

[root] cat var/log/opensm.log | grep 'SUBNET UP'

 

- opensm이 서브넷을 올바르게 설정할 수 있는 경우 해당 로그 파일에는 'SUBNET UP' 메시지가 포함된다.


라우팅 엔진 컨버전스 확인


 [root@mtlacad07 ~]# grep table /var/log/opensm.log


Running SM from Switch | 스위치에서 SM 실행


- NVIDIA OFED 매니저 스위치로 MLNX-OS 실행

- MLNX-OS는 NVIDIA 테크놀로지의 스위치 플랫폼을 관리하고 구성할 수 있도록 해준다.

- MLNX-OS를 사용하면 다음을 통해 스위치를 관리하고 구성할 수 있다.

1. switch CLI

2. switch webUI

3. 스위치 SM VS 서버 / UFM 구현에서 지원하는 기능 범위 간에 차이가 있을 수 있다. 

 

# SM Running 하는 방법

Right-Spine-SW02 [standalone: master] > en
Right-Spine-SW02 [standalone: master] # conf t
Right-Spine-SW02 [standalone: master] (config) # ib sm
Right-Spine-SW02 [standalone: master] (config) # show ib sm

 

# SM pri 셋팅

 Right-Spine-SW02 [standalone: master] (config) # show ibsmsm-priority 0
 Right-Spine-SW02 [standalone: master] (config) # ibsmsm-priority 15
 Right-Spine-SW02 [standalone: master] (config) # show ibsmsm-priority 15

 

저작자표시 비영리 변경금지 (새창열림)

'Network > NVIDIA' 카테고리의 다른 글

[NVIDIA] OFED  (0) 2025.04.09
[NVIDIA] Leaf-Spine 토폴로지 및 라우팅 알고리즘  (0) 2025.04.03
[NVIDIA] Infiniband Command  (0) 2025.04.03
[NVIDIA] InfiniBand - 2  (0) 2025.04.03
[NVIDIA]IDRAC 셋팅  (0) 2025.03.28
'Network/NVIDIA' 카테고리의 다른 글
  • [NVIDIA] OFED
  • [NVIDIA] Leaf-Spine 토폴로지 및 라우팅 알고리즘
  • [NVIDIA] Infiniband Command
  • [NVIDIA] InfiniBand - 2
Kouji
Kouji
Journey to Becoming a Data & Server Engineer
  • Kouji
    Kouji's Data & Server Journey
    Kouji
  • 전체
    오늘
    어제
    • 분류 전체보기
      • Programming
        • Python
        • SQL
      • Data & AI
        • Data Analysis
        • Ai
      • Cloud(AWS)
      • OS
        • Linux
        • Docker
        • Jenkins
        • Ubuntu
        • Window
        • Kubernates
        • Ansible
      • Network
        • NVIDIA
        • Network[이론]
        • Network[GNS3, Packet]
        • Network[On-Premise]
        • Network [L2, L3]
      • 트러블 슈팅
      • Life
        • My Career Stories
        • Personal
      • 개발 + OS 지식 함양
  • 블로그 메뉴

    • 홈
    • 관리 페이지
    • 글쓰기
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    인프라
    오블완
    L3
    리눅스
    IT
    CISCO
    라우팅
    알고리즘
    VMware
    네트워크관리사
    Linux
    스위치
    ubuntu
    서버엔지니어
    dns
    티스토리챌린지
    네트워크엔지니어링
    클라우드엔지니어
    시스템엔지니어
    docker
    네트워크
    화이팅
    네트워크엔지니어
    인프라엔지니어
    도커
    OS
    AWS
    서버
    웹
    보안
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
Kouji
[NVIDIA] InfiniBand - Running SM(서버 , 스위치)
상단으로

티스토리툴바