Быстрая кластеризация (TF-IDF)
Быстрая кластеризация группирует фразы по частоте и весу слов (алгоритм TF-IDF). Работает мгновенно и бесплатно.
Быстрая кластеризация группирует фразы по частоте и весу слов (алгоритм TF-IDF). Работает мгновенно и бесплатно.
Как запустить
- Откройте проект с загруженными фразами
- Перейдите на вкладку Группы в верхней панели
- Нажмите кнопку Кластеризация → выберите По словам (TF-IDF)
- Настройте параметры или оставьте по умолчанию
- Нажмите Запустить
Результат появится сразу — фразы распределятся по группам в левой панели.
Параметры
Минимальный размер группы — группы с меньшим количеством фраз помещаются в «Без группы». По умолчанию: 3.
Порог схожести — насколько похожими должны быть фразы, чтобы попасть в одну группу.
- Выше → меньше групп, каждая более конкретная
- Ниже → больше фраз объединяется, темы шире
Когда TF-IDF работает хорошо
- Фразы содержат явные ключевые слова (
купить ноутбук,ноутбук цена,ноутбук недорого→ одна группа) - Нет синонимов и перефразировок
- Нужен быстрый черновой разбор перед ручной доработкой
Ограничения
TF-IDF не понимает смысл — только совпадение слов:
купить телефониприобрести смартфонпопадут в разные группы- Близкие по смыслу, но разные по словам фразы не объединятся
Для точного результата используйте AI-кластеризацию.
Что дальше
- AI-кластеризация — если результат TF-IDF не устроил
- Работа с группами — переименовать и подправить вручную
- История кластеризаций — вернуться к предыдущему результату