인프라 엔지니어 & 인벤토리 매니저
/ 코어 & 백엔드 엔지니어
- 래블업은?
'Make AI Accessible' 이라는 모토로 래블업은 혁신적인 AI 인프라 운영 플랫폼 Backend.AI를 개발하고 서비스하는 회사입니다. AI 모델 개발부터 학습, 배포, 관리까지, AI 인프라 운영의 복잡성을 최소화하고자 노력하며, 다양한 규모의 연산을 효율적으로 운영하고 개발자/연구자/운영자의 부담을 덜어 핵심 가치에 집중할 수 있도록 지원합니다.
- 래블업의 인프라 엔지니어 & 인벤토리 매니저는?
래블업의 인프라 엔지니어 & 인벤토리 매니저는 당사가 보유한 고성능 컴퓨팅 환경과 AI 인프라의 효율적인 관리를 담당합니다. 당사가 보유한 AI 가속기 및 CPU 컴퓨팅 용도의 Linux 서버, 고속 네트워크 인프라, 고속 스토리지 시스템 등 당사의 하드웨어 인프라를 종합적으로 관리하고, 당사의 사업 환경에 기반한 수요를 예측하며, 여러 유관 부서 혹은 협력사와 커뮤니케이션합니다.
- 주요 업무
- 서버 및 PoC 인프라 관리: 당사가 보유한 AI 및 CPU 컴퓨팅 용도의 Linux 서버의 정기 관리, 신규 장비 입/출고 관제, AI 가속기 설치 및 유지보수, 새로운 기술 평가 및 도입 검토
- 고속 네트워크 인프라 유지보수: Infiniband / RoCE 시스템 설치 및 구성, RoCE 장비 관리 및 성능 최적화, 기타 네트워크 연결 솔루션 유지보수, 네트워크 성능 모니터링 및 문제 해결
- 고성능 스토리지 시스템 관리: WekaFS, Lustre, CephFS, Pure Storage 등 래블업에서 사용하는 고성능 스토리지 시스템에 대한 관리 및 유지보수
- 클라우드 & 네트워크 인프라 관리: AWS VPC 보안 정책 및 라우팅 설정 유지보수, AWS VPC와 On-Site Physical Network 간 Direct Connect 기능 유지보수, 다수개의 Subnet 간 ACL 기반 연결 제어를 위한 통합 VPN 솔루션 관리, Mikrotik, Dell 등 다양한 Network S/W 및 Router 유지보수, 방화벽 유지보수 및 보안 정책 관리
- 자격 요건
- 리눅스 서버 관리 경험
- 클라우드 인프라 (AWS, Azure, GCP 등) 관리 경험
- 네트워크 구성 및 보안 관련 실무 지식
- Python 또는 Shell 스크립트를 활용한 자동화 경험
- Docker image build 경험
- OpenStack 등의 On-Premises VM infrastructure 운영 경험
- 우대 사항
- AI/ML 워크로드 실행 환경에 대한 이해
- VPN 솔루션 개발 또는 구축 경험
- AWS Direct Connect, Azure ExpressRoute 등의 VPC - On-Prem 간 Hybrid Traffic 구성 및 관리 경험
- GPU 서버 구축 및 관리 경험
- GPU 사용 목적의 Docker Image Farm 구축 및 관리 경험
- 고성능 병렬 파일 시스템(WekaFS, Lustre, CephFS 등) 실무 경험
- 고성능 네트워크 환경(Infiniband, RoCE) 실무 경험
- Mellanox, Dell 등의 Infiniband 및 RoCE 장비 운용 경험
- Azure AD를 통한 팀 단위의 Infrastructure 접근 제한 관리 경험
- 혜택 및 복지
- 유연하게 사용할 수 있는 재택 근무
- Mac 기반 최신 장비 지원
- 월 단위 체력 단련비 지원
- 점심 식대 지원
- 복지포인트 지원
- 본인, 배우자의 연 1회 건강검진 지원
- 최고의 원두, 최고의 커피 머신 보유
- 개발자 커뮤니티 활동 적극 권장