Кастомный пайплайн BERTopic: как кластеризовать тексты и получить интерпретируемые темы с помощью LLMПривет, Хабр! Меня ...

Кастомный пайплайн BERTopic: как кластеризовать тексты и получить интерпретируемые темы с помощью LLMПривет, Хабр! Меня зовут Антон и я занимаюсь задачами NLP в компании Ростелеком Информационные технологии. Если вам приходилось разбирать большие массивы текстов: отзывов, обращений в поддержку или комментариев, то вы знаете, насколько это трудоемкий процесс. В статье я покажу, как автоматизировать этот процесс с помощью пайплайна BERTopic: от эмбеддингов и кластеризации до интерпретации тем. Особое внимание уделим тому, как встроить локальную LLM в пайплайн и получить человекочитаемые названия тем.https://habr.com/ru/companies/rostelecom/articles/1035346/#кластеризация #bertopic #llm #hdbscan #nlp #umap

Read Original

Related