Иерархиялық және бөліктік кластерлеу арасындағы айырмашылық

Иерархиялық және бөліктік кластерлеу арасындағы айырмашылық
Иерархиялық және бөліктік кластерлеу арасындағы айырмашылық

Бейне: Иерархиялық және бөліктік кластерлеу арасындағы айырмашылық

Бейне: Иерархиялық және бөліктік кластерлеу арасындағы айырмашылық
Бейне: Деректер архитектуралары: иерархиялық, желілік және реляциялық 2024, Шілде
Anonim

Иерархиялық және бөліктік кластерлеу

Кластерлеу – деректерді талдауға және ұқсас деректер топтарына бөлуге арналған машиналық оқыту әдісі. Бұл топтар немесе ұқсас деректер жиындары кластерлер деп аталады. Кластерлік талдау кластерлерді автоматты түрде анықтай алатын кластерлеу алгоритмдерін қарастырады. Иерархиялық және Бөлімдік - кластерлеу алгоритмдерінің осындай екі класы. Иерархиялық кластерлеу алгоритмдері деректерді кластерлердің иерархиясына бөледі. Парициональды алгоритмдер деректер жиынын өзара бөлінген бөлімдерге бөледі.

Иерархиялық кластерлеу дегеніміз не?

Иерархиялық кластерлеу алгоритмдері шағын кластерлерді үлкеніректерге біріктіру немесе үлкенірек кластерлерді кішіректерге бөлу циклін қайталайды. Қалай болғанда да, ол дендограмма деп аталатын кластерлердің иерархиясын жасайды. Агломеративті кластерлеу стратегиясы кластерлерді үлкеніректерге біріктірудің төменнен жоғарыға әдісін қолданады, ал бөлуші кластерлеу стратегиясы кішіректерге бөлудің жоғарыдан төменге әдісін қолданады. Әдетте, қандай үлкен/кіші кластерлерді біріктіру/бөлу үшін пайдаланылатынын шешу үшін ашкөз тәсіл қолданылады. Евклидтік қашықтық, Манхэттен қашықтығы және косинус ұқсастығы сандық деректер үшін ең жиі қолданылатын ұқсастық көрсеткіштері болып табылады. Сандық емес деректер үшін Хамминг қашықтығы сияқты көрсеткіштер пайдаланылады. Иерархиялық кластерлеу үшін нақты бақылаулар (даналар) қажет емес екенін ескеру маңызды, өйткені тек қашықтықтардың матрицасы жеткілікті. Дендограмма – иерархияны өте анық көрсететін кластерлердің көрнекі көрінісі. Дендограмма кесілген деңгейге байланысты пайдаланушы әртүрлі кластерлерді ала алады.

Бөлімдік кластер дегеніміз не?

Бөлінген кластерлеу алгоритмдері әртүрлі бөлімдерді жасайды, содан кейін оларды қандай да бір критерий бойынша бағалайды. Олар сондай-ақ иерархиялық емес деп аталады, өйткені әрбір данасы бір-бірін жоққа шығаратын k кластердің бірінде орналасқан. Кластерлердің бір ғана жиыны әдеттегі бөлімдік кластерлеу алгоритмінің шығысы болғандықтан, пайдаланушы кластерлердің қажетті санын (әдетте k деп аталады) енгізуі қажет. Ең жиі қолданылатын бөлімдік кластерлеу алгоритмдерінің бірі k-орташа кластерлеу алгоритмі болып табылады. Пайдаланушы бастамас бұрын кластерлер санын (k) беруі қажет және алгоритм алдымен k бөлімдерінің орталықтарын (немесе центроидтарын) бастайды. Қысқаша айтқанда, k-кластерлеу алгоритмі содан кейін ағымдағы орталықтар негізінде мүшелерді тағайындайды және ағымдағы мүшелер негізінде орталықтарды қайта бағалайды. Бұл екі қадам белгілі бір кластер ішілік ұқсастық мақсат функциясы және кластер аралық ұқсастық емес мақсат функциясы оңтайландырылғанша қайталанады. Сондықтан орталықтарды ақылға қонымды инициализациялау бөліктік кластерлеу алгоритмдерінен сапалы нәтиже алудың өте маңызды факторы болып табылады.

Иерархиялық және бөліктік кластерлеудің айырмашылығы неде?

Иерархиялық және бөлімдік кластерлеудің орындалу уақытында, болжамдарда, енгізу параметрлерінде және нәтиже кластерлерінде негізгі айырмашылықтары бар. Әдетте, бөліктік кластерлеу иерархиялық кластерге қарағанда жылдамырақ. Иерархиялық кластерлеу тек ұқсастық өлшемін талап етеді, ал бөлшектік кластерлеу кластерлердің саны мен бастапқы орталықтар сияқты күштірек жорамалдарды талап етеді. Иерархиялық кластерлеу кез келген енгізу параметрлерін қажет етпейді, ал бөліктік кластерлеу алгоритмдері іске қосу үшін кластерлердің санын талап етеді. Иерархиялық кластерлеу кластерлердің анағұрлым мағыналы және субъективті бөлінуін қайтарады, бірақ бөлшектік кластерлеу дәл k кластерге әкеледі. Иерархиялық кластерлеу алгоритмдері сәйкестік өлшемі сәйкес анықталуы мүмкін болса, категориялық деректер үшін қолайлырақ.

Ұсынылған: