LLM 서빙 효율화에 대한 고민: H-MAS 설계 기록
Published:
1. 시작하게 된 배경
최근 LLM 인프라를 개인적으로 다루면서 가장 크게 느낀 점은 GPU 자원의 희소성에 비해 버려지는 성능이 너무 많다는 것이었습니다. 특히 소규모 GPU 자원을 가진 환경에서는 모델 크기에 맞지 않는 자원 배분이나 하드웨어 특성을 무시한 배치 때문에 효율이 떨어지는 경우가 빈번해 보였습니다.
어떻게 하면 비싼 GPU를 낭비 없이, 더 똑똑하게 쓸 수 있을까?
라는 질문이 이 프로젝트의 시작점이었습니다.
2. 해결하고 싶은 지점
거창한 기능보다 실제 서빙 환경에서 꼭 필요하다고 느낀 세 가지 핵심 가치에 집중하고 있습니다.
- 적재적소 배치: 하드웨어 특성을 인지해서 모델이 제 성능을 낼 수 있는 최적의 위치에 배정하는 것
- 끊김 없는 환경: 멀티 클러스터 환경을 통합 관리하여, 한 곳에 장애가 생겨도 서비스가 유지되는 고가용성 확보
- 데이터 가속: 모델 로딩 시간을 최적화하여 오토스케일링을 신속하게 완료할 수 있는 구조
3. 현재 진행 상황: 인터페이스 및 사용자 경험(UX) 설계
실제 백엔드 엔진의 세부 구현에 앞서, 인프라 운영자가 이 복잡한 자원들을 어떻게 하면 가장 직관적으로 제어할 수 있을지 사용자 경험(UX)을 먼저 정리해 보고 있습니다.
- 인프라 현황: 흩어진 멀티 클러스터 자원들의 사용률과 상태를 한눈에 파악
- 하드웨어 맵: GPU 간의 연결 상태를 시각적으로 보며 관리
- 정책 기반 배포: 복잡한 설정 없이 원하는 운영 정책에 맞춰 모델을 띄우는 과정
4. 다음 단계 및 로드맵
현재는 전체적인 시스템 설계와 함께 주요 화면들을 구체화해 나가는 단계입니다. 이 과정이 정리되는 대로, 화면 뒤에서 실제로 자원을 지능적으로 스케줄링하고 최적화할 핵심 엔진 개발에 집중할 예정입니다.
| 단계 | 주요 내용 | 상태 |
|---|---|---|
| 1 단계 | 프론트엔드 프로토타입 및 하드웨어 토폴로지 시각화 설계 | 진행 중 |
| 2 단계 | 핵심 스케줄링 알고리즘 구현 및 멀티 클러스터 제어 엔진 개발 | 진행 예정 |
| 3 단계 | 실제 이기종 장비 환경에서의 성능 검증 및 안정성 테스트 | 진행 예정 |
개인적인 연구로 시작한 프로젝트이지만, 실제 현업의 인프라 고민을 해결할 수 있는 결과물을 만드는 것이 목표입니다. 진행 과정에서 마주하는 기술적인 도전들은 앞으로도 꾸준히 이곳에 기록해 보겠습니다.