Где заканчивается вызов LLM и начинается backend система: локальный RAG на FastAPI и OllamaХотел разобраться где заканчи...

Где заканчивается вызов LLM и начинается backend система: локальный RAG на FastAPI и OllamaХотел разобраться где заканчивается простой вызов локальной LLM и начинается backend система. Сначала всё выглядело просто: frontend отправляет вопрос, FastAPI принимает POST /ask, backend вызывает локальную модель через Ollama и возвращает ответ. Но стало понятно: для помощника по документации этого мало. Модель отвечает, но непонятно на какие документы она опирается, какие фрагменты попали в prompt, сколько времени занял каждый этап и что делать, если индекс устарел. В статье показываю не "как вообще устроен RAG", а путь от простого вызова локальной LLM к небольшому backend/RAG-проекту с API контрактом, request_id, логированием, sources, timings, rebuild index, negative tests и честными ограничениями. От LLM вызова к RAG системеhttps://habr.com/ru/articles/1048252/#rag #llm #fastapi #ollama #python #backend #embeddings #vector_store #request_id #локальная_llm

Где заканчивается вызов LLM и начинается backend система: локальный RAG на FastAPI и OllamaХотел разобраться где заканчи...

Metadata

Related

This blog post goes beyond the usual 'Reviewing AI code be hard' to actual steps one can take to get an understanding of...

It finally always boils down to Mr Pareto.Like almost every abstraction layer before it, AI makes 80% of the work easier...

1/ People keep asking me if AI is going to replace programmers. Fair question - AI writes most of my code these days. I'...