fly51fly (@fly51fly)블랙박스 LLM에서 다단계 추론과 도구 사용을 위한 프롬프트 정책을 다루고, 경험의 반복적 distillation으로 이를 개선하는 연구입니다. 에이전트/툴유즈 파이프라인 설계에 ...

fly51fly (@fly51fly)블랙박스 LLM에서 다단계 추론과 도구 사용을 위한 프롬프트 정책을 다루고, 경험의 반복적 distillation으로 이를 개선하는 연구입니다. 에이전트/툴유즈 파이프라인 설계에 직접 관련된 주제로, 실무 적용 가능성이 있는 편이지만 아직 논문 단계입니다.https://x.com/fly51fly/status/2055400219324641370#llm #agents #tooluse #prompting #distillation

Read Original

Related

Mastodon discussion 11m ago

Classic – Hacker NewsHacker News의 인기 게시물 목록에서는 Rust로 작성된 Unix 영감을 받은 코딩 에이전트 Zerostack, 오픈소스 2.6B 파라미터 월드 모델 SANA-WM, 그리...

Classic – Hacker NewsHacker News의 인기 게시물 목록에서는 Rust로 작성된 Unix 영감을 받은 코딩 에이전트 Zerostack, 오픈소스 2.6B 파라미터 월드 모델 SANA-WM, 그리고 LLM 메모리 최적화 연구 δ-mem 등 AI 개발자에게 유용한 최신 도구와 연구가 다수 포함되어 있습니...