포지션 상세

업스테이지는 AI 기술로 해결할 수 있는 비즈니스 문제들을 풀어갑니다. "Making AI Beneficial"이라는 미션 아래, 누구나 AI 기술의 혜택을 누릴 수 있도록 '적용이 쉬운 AI 솔루션'을 개발하고 있습니다. 세계 최고 수준의 AI 모델을 다양한 분야에서 손쉽게 활용할 수 있는 API 시리즈를 출시하여 기업 고객들의 비즈니스 성공에 기여하고 있습니다. 또한, LLM 기술을 비즈니스 환경에 맞게 최적화하여 기업들의 업무 효율과 생산성을 높일 수 있는 Private LLM 서비스를 제공하는 등 AI가 세상에 이롭게 사용될 수 있도록 노력하고 있습니다.

LLM 기술과 더불어 Document Parse와 Information Extraction 등의 제품을 통해 문서 처리 분야에서 혁신을 이루고 있으며, 자체 LLM 및 Chat AI 기술을 비즈니스 환경에 맞게 최적화하여 기업들의 업무 효율과 생산성을 높일 수 있는 AI Space를 개발하는 등 업무 환경의 미래를 위한 인텔리전스를 만들어 갑니다.

LLM Serving 팀은 대규모 GPU 클러스터 위에서 Upstage Solar LLM을 가장 빠르고, 안정적이며, 비용 효율적으로 제공하기 위한 서빙 플랫폼과 추론 최적화 기술을 연구·개발합니다. 팀의 핵심 목표는 ① latency·throughput·cost 간의 trade-off를 최적화하는 서빙 아키텍처 구축, ② Prefill/Decode Disaggregation, KV Cache Offloading, Speculative Decoding, Expert Parallelism 등 최신 추론 기법의 프로덕션 적용, ③ Solar 모델의 구조적 특성을 고려한 양자화·경량화 및 커널 수준 최적화를 통한 토큰당 추론 비용의 지속적 절감입니다. 또한 vLLM, SGLang과 같은 오픈소스 추론 런타임에 자체 확장 기능을 기여하며, 대규모 트래픽을 효율적으로 처리하기 위한 라우팅·스케줄링 로직과 높은 가용성을 보장하는 관측 가능성(Observability) 체계를 설계합니다. 팀에 합류한다면, 최신 서빙 기술을 실제 프로덕션 환경에서 빠르게 검증하고, 글로벌 프론티어 수준의 LLM 서빙 인프라를 함께 만들어가는 경험을 할 수 있습니다.

주요업무

주요 업무

LLM 추론의 latency, throughput, cost 간 trade-off를 최적화하기 위한 시스템 및 알고리즘을 설계·구현합니다.
정확도 손실을 최소화하면서 최신 하드웨어의 추론 가속 효과를 극대화하는 모델 경량화(quantization, pruning, kv-cache compression 등) 파이프라인을 발전시킵니다.
Speculative Decoding, Prefill/Decode Disaggregation, Expert Parallelism 등 최신 추론 기법을 연구하고 실제 프로덕션 환경에 적용합니다.
Upstage Solar 모델의 구조적 특성을 고려한 추론 최적화 기법을 연구하고 프로덕션에 적용합니다.
최신 연구를 빠르게 follow-up하고 실제 서빙 환경에서 가치를 검증합니다.
토큰당 추론 비용을 지속적으로 절감하고, 프로덕션 환경에서 높은 비용 효율성을 달성합니다.

자격요건

필수사항

3년 이상의 모델 추론 최적화 연구/개발 경험
최신 LLM 아키텍처 및 추론 최적화 기술에 대한 깊은 이해
vLLM, SGLang, TensorRT-LLM, Text Generation Inference 등 LLM 추론 엔진의 사용 경험 및 내부 동작에 대한 이해
다음 중 하나 이상에 대한 깊은 이해 및 실무 경험
- Model compression (quantization, expert pruning 등)
- KV cache optimization (quantization, eviction, offloading 등)
- GPU 프로그래밍 (CUDA/Triton/TensorRT 등)
- ML/GPU 컴파일러 스택 (XLA, torch.compile/Inductor, MLIR 등)
Python, C/C++ 등 하나 이상의 프로그래밍 언어에 대한 높은 수준의 이해
최신 논문을 읽고 핵심 아이디어를 코드로 구현할 수 있는 능력
한국어 및 영어 능통자

AI ResearchEngineer-LLM Inference Optimization

포지션 상세

주요업무

자격요건

기술 스택 • 툴

태그

마감일

근무지역