[NVIDIA] Infiniband Command

2025. 4. 3. 10:32·Network/NVIDIA

ibdiagnet


[root@]# ibdiagnet

 

- InfiniBand 네트워크 토폴로지 분석 가능

- OFED command를 사용해서 기본적인 네트워크 및 vital 정보 확인을 수행하기 위한 도구

 

1. 다음과 같은 사용 가능한 정보가 출력

- 연결성

- 장치 상태

 

2. 다음과 같은 범위에서 에러 확인

- 포트 : 카운터 임계 값, 포트 상태

- 노드 : 펌웨어 버전, LID assingments

- 링크 : 링크 속도

- 패브릭 : 토폴로지 매칭, 서브넷 매니저 라우팅

* 오류가 화면에 출력이 되며, 로그 파일로 저장됨 : /var/tmp/ibdiagnet2

 

3. ibdiagnet 네트워크 진단 및 디버깅을 위한 명령중 도구 : 120

# help, man 명령어를 통해서 세부 정보 확인 가능

[root]# cd /usr/bin/ibdiagnet

 

4. 장애 분석을 위한 필수 command

[root]# ibdiagnet --pc --reset_phy_info --pm_per_lane --get_phy_info -r

 

 

5. 정확한 장애 분석을 하려면 : 모든 Counter 값을 초기화 한 후, 현 상태를 진단해야한다. 

[순서대로]

[root]# cd /var/tmp/ibdiagnet2 // /var/tmp 하위에 ibdiagnet2에 저장
//case 진행 시 ibdiagnet2 archive file 필요
[root]# cd /var/tmp/ibdiagnet2/ibdiagnet2.log.file ///var/tmp/ibdiagnet2 하위의 ibdiagnet2.log.file에 진단 내용 저장


ibstat


[root]# ibstat

 

- IB device의 정보 확인, 제품 정보, Firmware, LID, GUID, RATE 등 정보 표시

- 현재 장착되어 있는 HCA 정보 확인 가능


ibv_devinfo


[root@ufm-1]# ibv_devinfo

 

IB device의 정보 확인, 제품 정보, Firmware, LID, GUID, RATE 등 정보 표시


ibswitchs


 [root@ufm-1]# ibswitches

 

IB device의 정보 확인, 제품 정보, Firmware, LID, GUID, RATE 등 정보 표시


ibhost


 [root@ufm-1]# ibhosts

 

Fabric에 있는 모든 Infiniband Host의 기본 정보 (GUID, Name, Ports, LID)를 보여줌


ibping


[root]# ibping

 

- 해당 커맨드를 사용해서 IB 노드 간의 연결을 검증해준다.

- ibping -S : 서버 측

- ibping -L : 클라이언트 측 <LID>

- ibping -C <cname> : 사용할 CA 카드


iblinkinfo


 [root@ufm-1]# iblinkinfo

 

- Fabric에 있는 모든 스위치, 서버의 포트 연결정보를 보여줌


ibaddr


[root@ufm-1]# ibaddr
 GID fe80::b859:9f03:ab:8338 LID start 0x1 end 0x1

 

- 현재 장비의 GID, LID를 보여줌


sminfo


root@070:/home/dgxa100# sminfo-C mlx5_7
sminfo: sm lid 1 sm guid 0xb8599f0300ab8338, activity count 234513055 priority 15 state 3 
SMINFO_MASTER

root@070:/home/dgxa100# sminfo-C mlx5_5
sminfo: sm lid 1 sm guid 0xc42a1030007a082, activity count 14945987 priority 15 state 3 SMINFO_MASTER

 

- SM에 대한 LID, GUID 등 정보를 보여줌


show inventory


Leaf-2 [standalone: master] (config) # show inventory


- 스위치에서 module 별 part number 및 serial number 확인

저작자표시 비영리 변경금지

'Network > NVIDIA' 카테고리의 다른 글

[NVIDIA] Leaf-Spine 토폴로지 및 라우팅 알고리즘  (0) 2025.04.03
[NVIDIA] InfiniBand - Running SM(서버 , 스위치)  (0) 2025.04.03
[NVIDIA] InfiniBand - 2  (0) 2025.04.03
[NVIDIA]IDRAC 셋팅  (0) 2025.03.28
[NVIDIA]UFM 설치 및 HA 클러스터 구성 정리  (0) 2025.03.28
'Network/NVIDIA' 카테고리의 다른 글
  • [NVIDIA] Leaf-Spine 토폴로지 및 라우팅 알고리즘
  • [NVIDIA] InfiniBand - Running SM(서버 , 스위치)
  • [NVIDIA] InfiniBand - 2
  • [NVIDIA]IDRAC 셋팅
Kouji
Kouji
Journey to Becoming a Data & Server Engineer
  • Kouji
    Kouji's Data & Server Journey
    Kouji
  • 전체
    오늘
    어제
    • 분류 전체보기
      • Programming
        • Python
        • SQL
      • Data & AI
        • Data Analysis
        • Ai
      • Cloud(AWS)
      • OS
        • Linux
        • Docker
        • Jenkins
        • Ubuntu
        • Window
        • Kubernates
        • Ansible
      • Network
        • NVIDIA
        • Network[이론]
        • Network[GNS3, Packet]
        • Network[On-Premise]
        • Network [L2, L3]
      • 트러블 슈팅
      • Life
        • My Career Stories
        • Personal
      • 개발 + OS 지식 함양
  • 블로그 메뉴

    • 홈
    • 관리 페이지
    • 글쓰기
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    OS
    서버엔지니어
    ubuntu
    VMware
    티스토리챌린지
    알고리즘
    Linux
    화이팅
    dns
    docker
    웹
    오블완
    서버
    IT
    네트워크엔지니어링
    네트워크
    네트워크관리사
    시스템엔지니어
    스위치
    L3
    AWS
    인프라
    인프라엔지니어
    리눅스
    네트워크엔지니어
    CISCO
    클라우드엔지니어
    보안
    도커
    라우팅
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
Kouji
[NVIDIA] Infiniband Command
상단으로

티스토리툴바