Оценка качества кластеризации
Подскажите пожалуйста. Если стоит задача кластеризации нескольких тысяч поисковых запросов ( то есть коротких предложений в 2-5 слов, не обязательно русских ) Каким образом оценить качество реализованного подхода (какую метрику использовать, если нету размеченных данных с определенными кластерами)? И каким образом лучше подобрать количество кластеров?
ищи в сети полно. метрику какую использовать ( используй в совокупности несколько метрик) потому что сложно сказать какая из метрик в твоем случае будет лучше работать. Нужно тестировать и смотреть
2 ответа 2
по-моему на данный вопрос невозможно дать однозначный ответ. Различные алгоритмы кластеризации по разному кластеризируют один и тот же дата сет.
Пример из SciKit-Learn документации — все алгоритмы обрабатывали одинаковые наборы входных данных. Строки представляют набор данных, столбцы — различные алгоритмы кластеризации.
Различные алгоритмы выдают разные результаты для разных данных.
PS я не знаю какой алгоритм лучше подойдет для ваших данных.
Иван, вчера или позавчера вы задали аналогичный вопрос.
В своем ответе на него я дал вам кучу ссылок, просмотрев (хотя-бы бегло) которые вы бы нашли ответы на ваши вопросы. И про количество кластеров, и про метрики, и даже про способы сравнения алгоритмов. Вы их просмотрели и так и не смогли найти ответы? Или вы желали, что вам тут вот прямо в форуме выложили готовые решения? В чем причина практически дублирования вопроса?
Дело, наверное, в разнице уровня понимания. На любой вопрос можно дать много ссылок, они полезные, за них спасибо. Но они охватывают всю конкретную область знаний и ясности, что из алгоритмов лучше использовать, при их беглом прочтении, не дают. Да, из них я узнал еще про несколько алгоритмов и метрик качества алгоритмов. Но опыта не хватает, чтобы выбрать что-то и корректно оценить результат. Поэтому и спросил, с расчетом, что люди, которые уже работали с чем-то похожим скажут «я бы использовал это, оценил так-то и потом добавил еще вот это, а вообще обычно здесь использую то-то».
Т.е. вы ожидаете «рібу, а не сети» — готовое, кеи-то подготовленное для вас решение, а не хотите самому разобраться в вопросе. Ну, каждому свое. Кстати,, а что будет, если вам тут дадут готовое решение, вы его доверчиво примете, но оно по факту окажутся ошибочными? Или того худе — посоветует пол десятка разных подходов. Как без собственного понимания выбрать правильно?