업스테이지-AI ResearchEngineer-LLM Inference Optimization
1/1
업스테이지경기 경력 3년 이상

AI ResearchEngineer-LLM Inference Optimization

포지션 상세

업스테이지는 AI 기술로 해결할 수 있는 비즈니스 문제들을 풀어갑니다. "Making AI Beneficial"이라는 미션 아래, 누구나 AI 기술의 혜택을 누릴 수 있도록 '적용이 쉬운 AI 솔루션'을 개발하고 있습니다. 세계 최고 수준의 AI 모델을 다양한 분야에서 손쉽게 활용할 수 있는 API 시리즈를 출시하여 기업 고객들의 비즈니스 성공에 기여하고 있습니다. 또한, LLM 기술을 비즈니스 환경에 맞게 최적화하여 기업들의 업무 효율과 생산성을 높일 수 있는 Private LLM 서비스를 제공하는 등 AI가 세상에 이롭게 사용될 수 있도록 노력하고 있습니다.

LLM 기술과 더불어 Document Parse와 Information Extraction 등의 제품을 통해 문서 처리 분야에서 혁신을 이루고 있으며, 자체 LLM 및 Chat AI 기술을 비즈니스 환경에 맞게 최적화하여 기업들의 업무 효율과 생산성을 높일 수 있는 AI Space를 개발하는 등 업무 환경의 미래를 위한 인텔리전스를 만들어 갑니다.

LLM Serving 팀은 대규모 GPU 클러스터 위에서 Upstage Solar LLM을 가장 빠르고, 안정적이며, 비용 효율적으로 제공하기 위한 서빙 플랫폼과 추론 최적화 기술을 연구·개발합니다. 팀의 핵심 목표는 ① latency·throughput·cost 간의 trade-off를 최적화하는 서빙 아키텍처 구축, ② Prefill/Decode Disaggregation, KV Cache Offloading, Speculative Decoding, Expert Parallelism 등 최신 추론 기법의 프로덕션 적용, ③ Solar 모델의 구조적 특성을 고려한 양자화·경량화 및 커널 수준 최적화를 통한 토큰당 추론 비용의 지속적 절감입니다. 또한 vLLM, SGLang과 같은 오픈소스 추론 런타임에 자체 확장 기능을 기여하며, 대규모 트래픽을 효율적으로 처리하기 위한 라우팅·스케줄링 로직과 높은 가용성을 보장하는 관측 가능성(Observability) 체계를 설계합니다. 팀에 합류한다면, 최신 서빙 기술을 실제 프로덕션 환경에서 빠르게 검증하고, 글로벌 프론티어 수준의 LLM 서빙 인프라를 함께 만들어가는 경험을 할 수 있습니다.

주요업무

주요 업무

LLM 추론의 latency, throughput, cost 간 trade-off를 최적화하기 위한 시스템 및 알고리즘을 설계·구현합니다.
정확도 손실을 최소화하면서 최신 하드웨어의 추론 가속 효과를 극대화하는 모델 경량화(quantization, pruning, kv-cache compression 등) 파이프라인을 발전시킵니다.
Speculative Decoding, Prefill/Decode Disaggregation, Expert Parallelism 등 최신 추론 기법을 연구하고 실제 프로덕션 환경에 적용합니다.
Upstage Solar 모델의 구조적 특성을 고려한 추론 최적화 기법을 연구하고 프로덕션에 적용합니다.
최신 연구를 빠르게 follow-up하고 실제 서빙 환경에서 가치를 검증합니다.
토큰당 추론 비용을 지속적으로 절감하고, 프로덕션 환경에서 높은 비용 효율성을 달성합니다.

자격요건

필수사항

3년 이상의 모델 추론 최적화 연구/개발 경험
최신 LLM 아키텍처 및 추론 최적화 기술에 대한 깊은 이해
vLLM, SGLang, TensorRT-LLM, Text Generation Inference 등 LLM 추론 엔진의 사용 경험 및 내부 동작에 대한 이해
다음 중 하나 이상에 대한 깊은 이해 및 실무 경험
- Model compression (quantization, expert pruning 등)
- KV cache optimization (quantization, eviction, offloading 등)
- GPU 프로그래밍 (CUDA/Triton/TensorRT 등)
- ML/GPU 컴파일러 스택 (XLA, torch.compile/Inductor, MLIR 등)
Python, C/C++ 등 하나 이상의 프로그래밍 언어에 대한 높은 수준의 이해
최신 논문을 읽고 핵심 아이디어를 코드로 구현할 수 있는 능력
한국어 및 영어 능통자

기술 스택 • 툴

태그

마감일

상시채용

근무지역

리모트근무
본 채용정보는 원티드랩의 동의없이 무단전재, 재배포, 재가공할 수 없으며, 구직활동 이외의 용도로 사용할 수 없습니다.
본 채용 정보는 에서 제공한 자료를 바탕으로 원티드랩에서 표현을 수정하고 이의 배열 및 구성을 편집하여 완성한 원티드랩의 저작자산이자 영업자산입니다. 본 정보 및 데이터베이스의 일부 내지는 전부에 대하여 원티드랩의 동의 없이 무단전재 또는 재배포, 재가공 및 크롤링할 수 없으며, 게재된 채용기업의 정보는 구직자의 구직활동 이외의 용도로 사용될 수 없습니다. 원티드랩은 에서 게재한 자료에 대한 오류나 그 밖에 원티드랩이 가공하지 않은 정보의 내용상 문제에 대하여 어떠한 보장도 하지 않으며, 사용자가 이를 신뢰하여 취한 조치에 대해 책임을 지지 않습니다.
<저작권자 (주)원티드랩. 무단전재-재배포금지>