Преглед врста кластерирања

Пре него што научимо о врстама кластера, схватимо шта је кластерирање и зашто је то сада важно у индустрији машинског учења.

Шта је кластерирање? Кластерирање је процес где алгоритам дели тачке података у скупи број група на основу принципа да сличне тачке података остају близу једна другој и да падају у исту групу.

Зашто је то сада тако важно? Разјаснимо да, примера ради, постоји пример интернет продавнице одеће и они желе да боље разумеју своје купце како би могли да учине ефикаснију своју стратегију оглашавања. Није могуће да имају јединствену врсту стратегије за сваког купца, уместо овога што могу учинити је да поделе купце у одређени број група (на основу претходних куповина) и имају засебну стратегију одвојених група. То чини пословање ефикаснијим, то је разлог зашто је кластерирање сада важно у индустрији.

Врсте кластерирања

Методе кластерирања у најширем обиму су класификоване у две врсте, то су Хард методе и меке методе. У методи тврдог кластерирања свака тачка података или опажање припада само једном кластеру. У методи меког кластерирања свака тачка података неће у потпуности припадати једном кластеру, уместо тога, може бити члан више класа, има скуп коефицијената чланства који одговарају вероватноћи да ће бити у датом кластеру.

Тренутно се користе различите врсте кластерских метода у употреби, овде у овом чланку погледајте неке од важних као што су хијерархијско кластерирање, кластерирање подељених партиција, нејасно кластерирање, кластерирање на основу густоће и кластерирање засновано на моделу дистрибуције. Сада ћемо разговарати о сваком од ових примера:

1. Партиционирање кластера

Партиционирање Кластерирање је врста кластеричке технике која дели скуп података на скупи број група. (На пример, вредност К у КНН и одлучиће се пре него што обучимо модел). Може се назвати и методом заснованом на центроидима. У овом приступу центар кластера (центроид) се формира тако да је удаљеност података у том кластеру минимална када се израчунава са другим центроидима кластера. Најпопуларнији пример овог алгоритма је алгоритам КНН. Овако изгледа алгоритам кластерирања партиција

2. Хијерархијско кластерирање

Хијерархијско кластерирање је врста технике кластерирања која тај скуп података дели на број кластера, где корисник не одређује број кластера који ће се генерисати пре обуке модела. Ова врста кластер технике позната је и као метода заснована на повезивању. У овом методу неће се извршити једноставна подјела скупа података, док нам омогућава хијерархију кластера који се спајају један с другим након одређене удаљености. Након што се хијерархијско кластерирање обави на скупу података, резултат ће бити стабло података заснованих на стаблу (Дендограм) који су подељени у кластере. Овако изгледа хијерархијско групирање након завршеног тренинга

Извор везе: Хијерархијско кластерирање

У кластерирању партиција и хијерархијском кластерирању, једна главна разлика коју можемо примјетити је да у кластеру подјељења предодређујемо вриједност на колико кластера желимо да подијелимо скуп података и не морамо унапријед специфицирати ову вриједност у хијерархијском кластерирању. .

3. Кластерирање на основу густоће

У овом кластеру, кластери технике ће се формирати сегрегацијом различитих региона густине на основу различитих густина у графикону података. Просторно кластерирање и примјена са буком заснованом на густоћи (ДБСЦАН) је најчешће кориштен алгоритам у овој врсти технике. Главна идеја овог алгоритма је да треба постојати минималан број тачака које садрже у близини одређеног радијуса за сваку тачку у кластеру. Досад у горе разматраним техникама кластерирања, ако пажљиво посматрате, можемо приметити једну заједничку ствар у свим техникама које су у облику формираних кластера или сферичне или овалне или конкавне. ДБСЦАН може формирати кластере различитих облика, ова врста алгоритма је најприкладнија када скуп података садржи буку или издатке. Овако изгледа алгоритам за просторно кластерирање на основу густоће након завршеног тренинга.

Извор везе: Кластерирање на основу густоће

4. Кластерирање засновано на моделу дистрибуције

Код ове врсте кластерирања, кластери технике настају идентификовањем вероватноће да све тачке података у кластеру потичу из исте дистрибуције (Нормалне, Гауссове). Најпопуларнији алгоритам у овој врсти технике је цлустер Екпецтатион-Макимизатион (ЕМ) помоћу Гауссових модела мешавина (ГММ).

Нормалне технике кластерирања попут хијерархијског кластерирања и кластерирања партицијама не заснивају се на формалним моделима, КНН при кластеру партиционирања даје различите резултате са различитим К-вредностима. Како КНН и КМН сматрају средину за центар кластера није најбоље погодити у неким случајевима са Гауссовим моделима мешавина, претпостављамо да су податковне тачке распоређене Гауссовом, тако да имамо два параметра за описивање средње вредности кластера и стандардно одступање. На овај начин се за сваки кластер додељује једна Гауссова дистрибуција, да би се добиле оптималне вредности ових параметара (средња и стандардна девијација) користи се алгоритам за оптимизацију назван Екпецтатион Макимизатион. Овако изгледа ЕМ - ГММ након тренинга.

Извор везе: Кластерирање засновано на моделу дистрибуције

5. Фуззи Цлустеринг

Припада грани мехких метода кластерирања, док све горе споменуте технике групирања припадају тешким методама кластерирања. У овој врсти технике кластерирања тачке близу центра, можда је део другог кластера у већем степену од тачака на ивици истог кластера. Вероватноћа да тачка припада одређеној кластеру је вредност која лежи између 0 до 1. Најпопуларнији алгоритам у овој врсти технике је ФЦМ (Фуззи Ц - Алгоритам). Овде се средња вредност кластера израчунава као средња вредност свих тачака, мерено њиховом вероватноћом да припадају кластеру.

Закључак - Врсте кластерирања

Ово су неке од различитих техника кластерирања које се тренутно користе и у овом смо чланку покрили један популаран алгоритам у свакој техници кластерирања. Морамо одабрати врсту технологије коју користимо на основу нашег скупа података и захтева које морамо испунити.

Препоручени чланци

Ово је водич за Врсте кластера. Овде ћемо разговарати о различитим врстама кластера са њиховим примерима. Можда ћете такође погледати следеће чланке да бисте сазнали више -

  1. Хијерархијски алгоритам кластерирања
  2. Кластерирање у машинском учењу
  3. Врсте алгоритама машинског учења
  4. Врсте техника анализе података
  5. Како користити и уклонити хијерархију у Таблеау-у?
  6. Комплетан водич за врсте анализа података

Категорија: