Mastodon discussion May 28

Cerebras (@cerebras)Cerebras Inference에서 Multi-LoRA가 비공개 프리뷰로 제공된다. 하나의 베이스 모델 위에 여러 LoRA 어댑터를 올려 요청마다 전환할 수 있으며, 재로딩이나 ...

Cerebras (@cerebras)Cerebras Inference에서 Multi-LoRA가 비공개 프리뷰로 제공된다. 하나의 베이스 모델 위에 여러 LoRA 어댑터를 올려 요청마다 전환할 수 있으며, 재로딩이나 별도 배포 없이 지연시간 증가도 없다고 한다. 여러 도메인·고객별 어댑터를 운영하는 추론 인프라에 실용적인 ...