Atlas: An LLM inference engine written from scratch in Rust and CUDAAtlas는 Rust와 CUDA로 처음부터 새로 작성된 LLM 추론 엔진으로, Python이나...

Atlas: An LLM inference engine written from scratch in Rust and CUDAAtlas는 Rust와 CUDA로 처음부터 새로 작성된 LLM 추론 엔진으로, Python이나 PyTorch 의존성이 전혀 없으며 약 2.5GB의 단일 바이너리 이미지로 기존 vLLM 대비 최대 3.3배 빠른 추론 속도를 자랑합니다. DGX Spark 단일 GPU 환경에서 Qwen3.5-35B 모델 기준 초당 130토큰 처리 속도를 기록하며, 핸드튜닝된 CUDA 커널과 다중 토큰 예측(MTP) 기법을 통해 높은 효율성을 구현했습니다. 다양한 대형 모델을 지원하며 OpenAI 호환 API를 제공해 에이전트 및 툴 호출에 즉시 활용할 수 있습니다. 오픈소스로 곧 공개될 예정이며, 커뮤니티 중심으로 모델 및 하드웨어 지원을 확장해 나가고 있습니다.https://atlasinference.io#llm #inference #rust #cuda #gpu

Read Original

Related