Увод у методе кластерирања
Овај чланак представља преглед различитих метода кластерирања које се користе у техникама вађења података са различитим принципима. Кластерирање је скуп објеката са подацима који су организовани у различито логичко групирање. Груписање сличних података и додвајање сличних података у појединачне кластере. Кластерирање се изводи у великим скуповима података за неконтролисано учење. Током тога изводимо подјелу на скупу података у групе. Структура кластера је приказана на следећи начин са подскуповима. Ц = ц1, ц2… ц н . Пошто групе кластера имају сличне објекте, неке методе морају се предузети у методама кластерисања како би се одредиле мере удаљености и сличности. Методе кластерирања заснивају се на пробабилистичким моделима. Ископавање података захтева кластерирање ради скалабилности у бављењу високим базама података, руковањем вишедимензионалним простором, бављењем погрешним подацима и буком.
Објасните методе кластерирања?
Ова метода групирања помаже у групирању вриједних података у кластере и из тога се узимају одговарајући резултати засновани на различитим техникама. На пример, у претраживању информација резултати упита груписани су у мале кластере, а сваки кластер има неважне резултате. Помоћу техника кластерирања груписане су у сличне категорије и свака категорија се подели у подкатегорије да би се помогло у истраживању излазних упита. Постоје различите врсте кластеринг метода, оне су
- Хијерархијске методе
- Методе поделе
- На основу густине
- Кластерирање засновано на моделу
- Грид заснован модел
Следи преглед техника које се користе у вађењу података и вештачкој интелигенцији.
1. Хијерархијски метод
Овом методом се ствара кластер поделом на начин одоздо према горе и одоздо према горе. Оба ова приступа производе дендрограм, који успоставља повезаност. Дендрограм је облик сличан стаблу који одржава редослијед спојених кластера. Хијерархијске методе производе вишеструке партиције у односу на нивое сличности. Они су подељени на агломеративно хијерархијско групирање и подељено хијерархијско групирање. Овде се ствара стабло кластера коришћењем техника спајања. За процес цепања користи се дељење, спајање користи агломеративно. Агломеративно удруживање укључује:
- У почетку узимајући све тачке података и сматрајући их појединачним кластерима, започињемо одоздо према горе. Ти се кластери спајају док не добијемо жељене резултате.
- Следећа два слична кластера су груписана у један велики грозд.
- Опет израчунавање близине у огромном кластеру и спајање сличних кластера.
- Завршни корак укључује спајање свих издатих кластера на сваком кораку да би се створио коначни појединачни кластер.
2. Метода поделе:
Главни циљ поделе је пресељење. Они премјештају партиције преласком из једног кластера у други што чини почетну партицију. Подељује „н“ објекте података на „к“ број кластера. Ова партициона метода се преферира више од хијерархијског модела у препознавању узорака. Следећи критеријуми су постављени да би задовољили технике:
- Сваки кластер треба имати један објект.
- Сваки објект података припада једном кластеру.
Партицијске технике партиције су најчешћи К-средњи алгоритам. Они се деле на 'К' гроздове представљене центроидима. Сваки центар кластера се израчунава као средина тог кластера и Р функција визуелно приказује резултат. Овај алгоритам има следеће кораке:
- Одабиром К објеката насумично из скупа података и формирају почетни центри (центроиди)
- Следеће додељивање еуклидске удаљености између објеката и средњег центра.
- Додјељивање средње вриједности за сваки појединачни кластер.
- Кораци ажурирања Центроида за сваки 'к' кластер.
3. Модел густине:
У овом моделу, кластери су дефинисани лоцирањем региона веће густине у кластеру. Главни принцип који стоји иза њих је концентрирање на два параметра: максимални радијус суседства и мин број тачака. Модел заснован на густини идентификује кластере различитих облика и буке. То функционира тако што открива обрасце процјеном просторне локације и удаљености од овдје кориштене методе сусједа је ДБСЦАН (Просторно кластерирање на темељу густоће) које пружа руке за велике просторне базе података. Кориштење три податковне тачке за кластерирање, наиме Цоре поинт, Бордер поинтс и оутлиерс. Примарни циљ је идентификовати кластере и њихове параметре дистрибуције. Процес кластерирања се зауставља са потребом за параметрима густине. Да бисте пронашли кластере, важно је имати параметар Минималне карактеристике по кластеру за израчунавање удаљености језгре. Три различита алата која пружа овај модел су ДБСЦАН, ХДБСЦАН, Мулти-сцале.
4. Кластерирање засновано на моделу
Овај модел комбинује два или три кластера заједно из дистрибуције података. Основна идеја овог модела је неопходно поделити податке у две групе на основу модела вероватноће (Мултиваријантне нормалне дистрибуције). Овде је свака група додељена као концепт или класа. Свака компонента је дефинисана функцијом густине. Да би се пронашао параметар у овом моделу, користи се процена максималне вероватноће за подешавање расподељене смеше. Сваки кластер 'К' се моделизује Гауссовом расподјелом са два параметра µ к средњим вектором и £ к коваријантним вектором.
5. Грид-басед Модел
У овом приступу, предмети се сматрају просторима покренутим подељивањем простора на ограничени број ћелија да би формирали мрежу. Уз помоћ решетке, техника кластера се примењује за бржу обраду која обично зависи од ћелија а не од објеката. Укључени кораци су:
- Стварање структуре мреже
- Густина ћелије се израчунава за сваку ћелију
- Примена механизма за сортирање на њихову густину.
- Претраживање центара кластера и кретање по комшијским ћелијама како би се поновио поступак.
Важност метода кластерирања
- Имајући методе групирања помаже у поновном покретању локалне процедуре претраживања и уклањању неефикасности. Кластерирање помаже у одређивању унутрашње структуре података.
- Ова кластер анализа користи се за анализу модела, векторску регију привлачности.
- Кластерирање помаже у разумевању природног групирања у скупу података. Њихова сврха је да имају смисла поделити податке у неку групу логичких групација.
- Квалитет кластера зависи од метода и идентификације скривених образаца.
- Они играју широку улогу у апликацијама као што су маркетиншка економска истраживања, веб дневници за препознавање образаца у мерама сличности, обрада слике, просторна истраживања.
- Користе се у вањским детекцијама за откривање превара кредитних картица.
Закључак
Кластерирање се сматра општим задатком за решавање проблема који формулише проблем оптимизације. Он има кључни значај у области вађења података и анализе података. Видели смо различите методе кластерирања које деле скуп података зависи од захтева. Већина истраживања заснива се на традиционалним техникама попут К-средстава и хијерархијских модела. Подручја кластера се примењују у државама високе димензије, што чини будући домет истраживача.
Препоручени чланак
Ово је водич за методе кластерирања. Овдје смо разговарали о концепту, важности и техникама метода кластерирања. Можете и да прођете кроз друге наше предложене чланке да бисте сазнали више -
- Шта је ЕТЛ?
- Шта је наука о подацима
- Шта је терадата?
- Топ 6 АВС алтернатива
- Кластерирање у машинском учењу
- Мултиваријантна регресија
- Хијерархијско кластерирање | Агломеративно и подељено кластерирање