Где заканчивается вызов LLM и начинается backend система: локальный RAG на FastAPI и OllamaХотел разобраться где заканчивается простой вызов локальной LLM и начинается backend система. Сначала всё выглядело просто: frontend отправляет вопрос, FastAPI принимает POST /ask, backend вызывает локальную модель через Ollama и возвращает ответ. Но стало понятно: для помощника по документации этого мало. Модель отвечает, но непонятно на какие документы она опирается, какие фрагменты попали в prompt, сколько времени занял каждый этап и что делать, если индекс устарел. В статье показываю не "как вообще устроен RAG", а путь от простого вызова локальной LLM к небольшому backend/RAG-проекту с API контрактом, request_id, логированием, sources, timings, rebuild index, negative tests и честными ограничениями. От LLM вызова к RAG системеhttps://habr.com/ru/articles/1048252/#rag #llm #fastapi #ollama #python #backend #embeddings #vector_store #request_id #локальная_llm
Related
This blog post goes beyond the usual 'Reviewing AI code be hard' to actual steps one can take to get an understanding of...
This blog post goes beyond the usual 'Reviewing AI code be hard' to actual steps one can take to get an understanding of the avalance of code AI agents vomit out. I think the idea ...
It finally always boils down to Mr Pareto.Like almost every abstraction layer before it, AI makes 80% of the work easier...
It finally always boils down to Mr Pareto.Like almost every abstraction layer before it, AI makes 80% of the work easier, but the final 20% may actually become harder. The human is...
1/ People keep asking me if AI is going to replace programmers. Fair question - AI writes most of my code these days. I'...
1/ People keep asking me if AI is going to replace programmers. Fair question - AI writes most of my code these days. I'm one person building seven products on the side (a life OS,...