모델 학습을 넘어 AI 인프라를 경험하다

김태은리서치 인턴

래블업인턴십

2026년 5월 29일

Career

모델 학습을 넘어 AI 인프라를 경험하다

김태은리서치 인턴

래블업인턴십

2025년 여름, 6월부터 8월까지 래블업에서 리서치 인턴으로 일했습니다. 래블업은 AI 연구와 서비스 운영에 필요한 인프라를 만들고 개선하는 회사입니다. Backend.AI를 중심으로 GPU 자원 관리, 실험 환경 구성, 워크로드 실행, 자동화 도구 같은 영역을 다룹니다.

인턴십 이전까지 제가 경험한 AI는 주로 모델 학습과 최적화에 가까웠습니다. 어떤 모델을 쓰고, 어떻게 학습시키고, 성능을 어떻게 개선할지 고민하는 쪽에 더 익숙했습니다. 하지만 래블업에서 맡은 일들은 그보다 한 단계 바깥에 있었습니다. 래블업에서 저는 GPU 벤치마크를 분석하고, FastTrack을 사용하며 개선점을 찾고, PyCon 부스 이벤트 페이지를 만들고, 오픈소스 프로젝트에 직접 pull request를 제출하는 것과 같은 다양한 일들을 할 수 있었습니다. 내부 실험 환경을 사용하면서 문제를 기록하고, 결과를 문서화하고, 팀에서 다시 활용할 수 있도록 정리하는 일도 진행했습니다.

이 글에서는 인턴십 동안 했던 작업들을 중심으로, 모델을 실행하고 운영하는 환경을 다루며 배운 점을 정리해보려 합니다.

인턴십에서 맡은 일들

리서치 인턴의 업무는 Backend.AI 생태계에 익숙해지는 것에서 시작되었습니다. Backend.AI의 WebUI와 FastTrack을 사용해보고, 실제 사용 시나리오에서 문제가 생기는 지점을 기록하고, 필요한 경우 이슈를 제보하거나 직접 수정했습니다. 동시에 GPU 벤치마크 분석처럼 리서치 팀의 작업에 가까운 일도 함께 진행하기도 했습니다.

처음에는 Backend.AI와 FastTrack의 구조가 낯설었습니다. 하지만 직접 워크로드를 실행하고, 설정을 바꿔보고, 결과를 비교하다 보니 AI 인프라에서 중요한 문제가 조금씩 보이기 시작했습니다. 모델 성능만큼이나 실행 환경의 안정성, 반복 가능한 실험, 결과를 해석할 수 있는 지표, 그리고 도구의 사용성이 중요하다는 사실도 배울 수 있었습니다.

이번 인턴십에서 주로 작업한 내용은 크게 아래의 세 가지로 요약할 수 있습니다.

GPU 벤치마크 결과를 분석하고 성능 지표를 개선하는 일
FastTrack을 사용하며 발견한 버그와 사용성 문제를 수정하는 일
PyCon 2025 부스 이벤트를 위한 피드백 수집 페이지를 만드는 일

여기에 더해 각 작업의 결과와 과정을 문서화하고, 팀원들과 논의하며 다음 작업으로 이어지도록 만드는 것도 중요한 부분이었습니다. 처음에는 제품을 사용하는 입장에 가까웠지만, 시간이 지나면서 문제를 재현하고, 원인을 좁히고, 수정 방향을 제안하거나 직접 구현하는 역할까지 맡게 되었습니다.

GPU 워크로드 벤치마킹

주요 프로젝트 중 하나는 GPU 벤치마크 분석이었습니다. 목표는 다양한 설정이 벤치마크 성능에 어떤 영향을 주는지 평가하고, FastTrack을 통해 이 과정을 일부 자동화하는 것이었습니다. 단순히 벤치마크를 실행하는 데서 끝나는 것이 아니라, 설정을 바꿔가며 결과를 비교하고, 결과가 흔들리는 원인을 찾아보고, 반복 실행을 통해 안정성을 확인하는 과정이 필요했습니다.

AI 워크로드 벤치마킹은 처음에는 단순해 보입니다. 워크로드를 실행하고, 수치를 수집하고, 결과를 비교하면 될 것처럼 보이죠. 하지만 실제로는 벤치마크 결과에 편차가 생기는 이유가 항상 명확하지는 않습니다. 네트워크 지연, 실행 간 편차, 요청 패턴, 시스템 상태 같은 요소가 모두 지표에 영향을 줄 수 있었습니다. 하나의 평균값만으로는 무슨 일이 일어나고 있는지 충분히 설명하기 어려웠습니다.

그래서 여러 실행 간 벤치마크 결과의 일관성을 살펴보고, 무엇을 측정해야 하는지 더 신중하게 생각하게 되었습니다. 네트워크 지연의 영향을 줄여보는 실험을 진행했고, 같은 조건에서 여러 번 실행했을 때 결과가 얼마나 안정적으로 유지되는지도 확인했습니다. 처리량과 지연 시간뿐 아니라 편차도 중요한 신호라는 사실도 배웠습니다. 특히 추론 워크로드에서는 요청별 토큰 처리량의 편차가 집계 지표만으로는 보이지 않는 불안정성을 드러낼 수 있다는 사실도 흥미로웠습니다.

이 실험과 분석 내용을 래블업 내부 Knowledge Base에 문서화해 팀이 다시 참고할 수 있도록 했습니다. 결과를 표로 모으는 것뿐 아니라, 어떤 조건에서 어떤 차이가 나타났는지, 어떤 결과는 다시 확인이 필요한지, 이후 자동화할 때 무엇을 고려해야 하는지도 함께 남겼습니다. 이후에는 리서치 팀의 벤치마킹 스크립트에 요청별 토큰 처리량 편차 지표를 추가했습니다. 작은 기여였지만, 벤치마크 결과를 단일 대표값 이상으로 해석할 수 있게 만든다는 점에서 의미 있는 작업이었습니다.

이 작업에서 얻은 가장 큰 배움은 벤치마킹이 단순히 더 빠른 숫자를 만드는 일이 아니라는 점입니다. 중요한 것은 측정 과정 자체를 신뢰할 수 있게 만드는 것입니다. AI 인프라에서 믿을 수 있는 벤치마크를 만들려면 반복 가능성, 편차를 설명할 수 있는 충분한 맥락, 그리고 수작업으로 인한 불일치를 줄이는 자동화가 필요하다는 사실을 배울 수 있었습니다.

FastTrack 사용성 개선과 오픈소스 기여

GPU 벤치마크 작업을 진행하면서 FastTrack을 자주 사용하게 되었습니다. FastTrack은 실험과 자동화 작업을 더 쉽게 구성할 수 있도록 돕는 도구였고, 실제로 사용하다 보니 기능뿐 아니라 사용 흐름과 인터페이스도 자연스럽게 눈에 들어오기 시작했습니다. 벤치마크 자동화에 필요한 흐름을 따라가다 보면, 어떤 입력이 헷갈리는지, 어떤 상태가 더 명확히 보여야 하는지, 어떤 동작은 사용자가 예상한 방식과 다르게 느껴지는지 확인할 수 있었습니다. 레이블, 상태 표시, 워크플로우 등은 각각만 보면 사소해 보일 수 있습니다. 하지만 사용자가 실험을 실행하거나 자원을 관리하는 중이라면 이런 작은 마찰도 작업 속도와 정확성에 영향을 줍니다. 인프라 소프트웨어에서 사용성은 기술적 품질과 분리된 요소가 아니었습니다.

인턴십 초기에 FastTrack 모달의 레이블과 관련된 작은 이슈를 제보한 적이 있습니다. 이 이슈는 빠르게 논의되고 수정되었습니다. 변경 자체는 작았지만, 실제 사용 중 발견한 문제가 제품 개선으로 이어지는 과정을 경험할 수 있었습니다.

FastTrack 사용 화면

이후 FastTrack을 사용하면서 더 많은 버그와 사용성 개선 지점을 발견했고, 결국에는 프로젝트에 직접 기여하게 되었습니다. 인턴십 동안 FastTrack에 여섯 개의 pull request를 제출했고, 버그 리포트를 해결했으며, 사용자 경험을 개선하기 위한 다양한 논의에 참여했습니다. 처음에는 이슈를 정리하고 질문하는 것에서 시작했지만, 점차 코드베이스를 읽고 변경 범위를 파악한 뒤 직접 수정안을 만들 수 있게 되었죠.

이 과정을 통해 개발자 도구는 작고 구체적인 반복을 통해 좋아진다는 것을 배울 수 있었니다. 이슈 리포트, 코드 리뷰, pull request 하나하나가 더 큰 제품 피드백 루프의 일부가 되는 것이죠. 특히 오픈소스 인프라 프로젝트에서는 사용자, 기여자, 메인테이너의 경계가 유동적일 수 있기 때문에 이런 루프가 더욱 중요하다는 것을 느낄 수 있었습니다.

PyCon 피드백 설문 페이지 만들기

PyCon 2025를 앞두고 래블업 부스 이벤트 페이지를 만드는 작업에도 참여했습니다. 이 페이지는 참가자가 두 개의 AI 생성 블로그 결과물과 사람이 작성한 글을 비교하며 피드백을 제출할 수 있도록 설계되었습니다. 참가자가 생성 AI가 만든 문장을 읽고 선택을 제출하면 그 응답이 분석 가능한 형태로 저장되어야 하는 작은 실험 도구의 형태였습니다.

페이지는 Next.js, Tailwind CSS, shadcn/ui로 만들었습니다. 데이터 저장은 Google Apps Script를 통해 Google Sheets에 연결했고, 배포는 AWS Amplify를 사용했습니다. 프론트엔드 화면 구성, 응답 제출 흐름, Google Sheets 연동, 배포 설정까지 한 번에 다루어야 했기 때문에 비교적 작은 애플리케이션이었지만 실제 이벤트 환경에서 가벼운 데이터 수집 워크플로우를 만드는 좋은 연습이었습니다.

PyCon 부스 피드백 페이지

설문은 200여명 이상이 참여했고, 천 건 이상의 응답이 모였습니다. 실험 과정과 응답 결과를 학회에서 발표하기도 했습니다. 엔지니어링 관점에서 보면, 단순한 애플리케이션이라도 실제 운영을 염두에 두는 순간 여러 문제가 드러난다는 것을 보여준 프로젝트였습니다. 명확한 인터페이스, 일관된 구조의 데이터 수집, 빠른 배포, 그리고 행사 당일 트래픽 증가에 대한 대비까지 중요하지 않은 일이 없었습니다.

이 경험 역시 인턴십의 큰 주제와 연결되었습니다. GPU 워크로드를 벤치마킹하든, 사람의 선호 데이터를 수집하든, 결과를 둘러싼 시스템이 중요하다는 사실 말입니다. 도구, 배포, 데이터 저장, 사용자 경험이 모두 최종 결과의 품질에 영향을 준다는 점도 배울 수 있었습니다.

오픈소스와 커뮤니티 맥락

래블업의 엔지니어링 문화는 오픈소스 커뮤니티와 인프라 제품이 서로 어떻게 영향을 주고받는지도 가까이에서 볼 수 있게 해주었습니다. AI 인프라는 더 넓은 클라우드 네이티브 생태계와 분리되어 존재하지 않습니다. 컨테이너, 오케스트레이션, 스케줄링, 관찰 가능성, 재현 가능한 운영 같은 여러 공통된 아이디어 위에 만들어집니다.

래블업이 스폰서로 참여한 KubeCon + CloudNativeCon 2025에 참석할 기회가 있었습니다. 이 컨퍼런스를 통해 클라우드 네이티브 인프라와 AI 인프라의 연결이 더 분명하게 보였습니다. 또한 이 때의 경험은 이후에 쿠버네티스에 대한 첫 오픈소스 기여로 이어질 수 있었습니다. 저는 지금도 저는 SIG Docs 커뮤니티 내에서 계속해서 적극적으로 기여하고 있으며, 라즈베리 파이 클러스터로 구성된 소규모 홈랩을 운영하며 클라우드 네이티브 기술을 더 깊이 탐구하고 있습니다.

이후 래블업은 Emory University의 CS 해커톤에 GPU 자원과 Backend.AI 접근 권한을 지원했습니다. 이 환경에서는 온보딩과 사용성의 중요성이 매우 뚜렷하게 드러났습니다. 참가자들은 저의 짧은 설명을 듣고 정해진 시간 안에 플랫폼을 이해하고, 워크로드를 실행하고, 문제를 해결해야 했습니다.

Emory University 해커톤

이 경험들을 통해 인프라 플랫폼은 복잡한 컴퓨팅 자원과 그것을 사용하려는 사람들 사이의 인터페이스이기도 합니다. 좋은 인프라는 강력한 시스템을 더 쉽게 접근할 수 있게 만들어야 하다는 점을 깨달을 수 있었고 래블업이 오픈소스 기여와 커뮤니티 참여를 적극적으로 장려하는 문화 구축을 얼마나 중요하게 생각하는지 알 수 있었습니다.

돌아보며

래블업에서의 인턴십은 AI 엔지니어링을 바라보는 방식을 바꾸어 주었습니다. 이전에는 주로 모델 개발의 관점에서 AI를 바라봤습니다. 하지만 벤치마킹, FastTrack 기여, 이벤트 페이지 개발, 오픈소스 워크플로우를 경험하며 모델을 둘러싼 인프라가 모델 자체만큼 중요하다는 것을 알게 되었습니다.

가장 큰 배움은 AI 인프라에는 측정, 자동화, 사용성, 커뮤니티 피드백이 함께 필요하다는 점입니다. 신뢰할 수 있는 시스템은 성능을 최적화하는 것만으로 만들어지지 않습니다. 결과를 해석 가능하게 만들고, 도구를 사용하기 쉽게 만들고, 워크플로우를 반복 가능하게 만드는 과정이 함께 필요합니다.

AI 분야에 처음 들어오면 모델 아키텍처나 학습 기법에 집중하기 쉽습니다. 물론 그것들도 중요합니다. 하지만 그것은 전체 그림의 일부일 뿐입니다. AI 워크로드가 더 커지고 더 넓게 배포될수록, 그 워크로드를 뒷받침하는 시스템은 팀이 실제로 무엇을 만들고, 테스트하고, 운영할 수 있는지를 계속해서 결정하게 될 것입니다.