Шта је кластер анализа
Кластер анализа групира податке на основу карактеристика које поседује. Кластер анализа групира објекте на основу фактора који их чине сличним. Кластер анализа иначе се назива сегментацијска анализа или анализа таксономије. Кластер анализа не разликује зависне и независне променљиве. Кластерска анализа користи се у широком распону области као што су психологија, биологија, статистика, вађење података, препознавање образаца и друге друштвене науке.
Циљ кластер анализе
Главни циљ анализе кластера је решавање хетерогености у сваком скупу података. Остали циљеви анализе кластера су
- Опис таксономије - Препознавање група унутар података
- Поједностављење података - Способност да се анализирају групе сличних запажања уместо свих појединачних посматрања
- Израда или тестирање хипотеза - Развити хипотезу на основу природе података или тестирати претходно наведену хипотезу
- Идентификација односа - Поједностављена структура из анализе кластера која описује односе
Постоје две главне сврхе кластер анализе - Разумевање и корисност.
У околностима Разумевања, анализа кластера групише предмете који имају неке заједничке карактеристике
У сврху услужног програма, анализа кластера даје карактеристике сваког објекта података кластерима којима припадају.
Кластер анализа иде упоредо са факторском анализом и дискриминантном анализом.
Треба да поставите себи неколико питања о анализи кластера пре него што почнете с њим
- Које су променљиве релевантне?
- Да ли је довољна величина узорка?
- Могу ли се открити одметници и треба ли их уклонити?
- Како треба мерити сличност предмета?
- Да ли би требало да се стандардизују подаци?
Врсте кластера
Постоје три главне врсте кластерирања
- Хијерархијско кластерирање - које садржи агломеративну и поделу методу
- Делимично кластерирање - садржи К-средства, нејасна К-средства, исодате испод
- Кластерирање засновано на густоћи - има Денцлуст, ЦЛУПОТ, Меан Схифт, СВЦ, Парзен-Ватерхедхед ундер ундер
Претпоставке у кластерској анализи
Увек постоје две претпоставке у кластер анализи
- Претпоставља се да је узорак представник популације
- Претпоставља се да променљиве нису у корелацији. Чак и ако су променљиве у корелацији, уклоните корелиране променљиве или користите мере удаљености које надокнађују корелацију.
Кораци у кластер анализи
-
- Корак 1: Дефинишите проблем
- Корак 2: Одлучите одговарајућу меру сличности
- Корак 3: Одлучите како да групишете објекте
- Корак 4: Одлучите број кластера
- Корак 5: Интерпретирати, описати и потврдити кластер
Анализа кластера у СПСС
У СПСС-у можете наћи опцију анализе кластера у опцији Анализа / Класификовање. У СПСС постоје три методе за анализу кластера - К-Меанс кластер, Хијерархијски кластер и Двостепени кластер.
К-Меанс метода кластера класификује дату скуп података кроз фиксни број кластера. Ову је методу лако разумјети и даје најбољи резултат када су подаци добро одвојени једни од других.
Анализа кластера у два корака је алат дизајниран за обраду великих скупова података. Ствара кластере и на категоричке и на континуиране варијабле.
Хијерархијски кластер је најчешће коришћена метода анализе кластера. Комбинује случајеве у хомогене гроздове спајајући их кроз низ узастопних корака.
Хијерархијска анализа кластера садржи три корака
- Израчунајте удаљеност
- Повежите кластере
- Одабир решења одабиром правог броја кластера
Ниже су наведени кораци за вршење хијерархијске анализе кластера у СПСС.
- Први корак је одабир варијабли које ће се групирати. У доњем дијалошком оквиру је објашњено
- Кликом на опцију статистике у горњем дијалошком оквиру, добићете дијалошки оквир где желите да одредите излаз
- У дијалошком оквиру исцртајте додавање Дендрограма. Дендрограм је графички приказ хијерархијске методе анализе кластера. Показује како се кластери комбинују на сваком кораку све док не формирају јединствен кластер.
- Метода дијалошког оквира је пресудна. Овде можете поменути метод удаљености и кластера. У СПСС постоје три мере за интервал, бројање и бинарне податке.
- Квадратна еуклидијска удаљеност је збир квадратних разлика без узимања квадратног корена.
- У тачкама можете бирати меру Цхи Скуаре и Пхи Скуаре
- У одељку Бинарни снимци можете изабрати много опција. Најбоља опција за коришћење је квадрат еуклидне удаљености.
- Следећи корак је избор методе кластера. Увек се препоручује употреба једноструке везе или најближег суседа јер лако помаже у препознавању трошилаца. Када су одметници идентификовани, можете користити Вард-ову методу.
- Последњи корак је стандардизација
Критике кластер анализе
У наставку су наведене најчешће критике
- Она је дескриптивна, теоријска и неинферентна.
- Производиће кластере без обзира на стварно постојање било које структуре
- Не може се користити широко јер потпуно зависи од променљивих који се користе као основа за меру сличности
Шта је факторска анализа?
Факторска анализа је истраживачка анализа која помаже у групирању сличних варијабли у димензије. Може се користити за поједностављење података смањењем димензија опажања. Факторска анализа има неколико различитих метода ротације.
Факторска анализа користи се углавном за потребе смањења података.
Постоје две врсте факторских анализа - истраживачка и потврдна
- Истраживачка метода користи се када немате претходно дефинисану представу о структурама или димензијама у скупу променљивих.
- Метода потврде користи се када желите тестирати одређене хипотезе о структурама или димензијама у скупу променљивих.
Циљеви факторске анализе
Постоје два главна циља факторске анализе која су наведена у наставку
- Идентификација основних фактора - Ово укључује групирање променљивих у хомогене скупове, стварање нових променљивих и помагање у стицању знања о категоријама
- Преглед варијабли - Корисно је у регресији и идентификовању група које вам омогућавају да одаберете једну променљиву која представља многе.
Претпоставке факторске анализе
Постоје четири главне претпоставке фактор анализе које су наведене у даљем тексту
- Модели се обично заснивају на линеарним односима
- Претпоставља се да су прикупљени подаци интервално скалирани
- Мултиколинеарност у подацима је пожељна јер је циљ проналажење међусобно повезаних варијабли
- Подаци би требали бити отворени и одговорни за анализу фактора. Не би требало бити на такав начин да варијабла буде само у корелацији са собом и да не постоји повезаност са било којом другом променљивом. Факторска анализа не може се извршити на таквим подацима.
Врсте факторинга
- Факторинг главних састојака - метода која се најчешће користи када се израчунава тежина фактора како би се извукла максимална могућа варијанца и наставља се све док не остане значајна варијанца.
- Канонска факторска анализа - проналази факторе који имају највећу канонску корелацију са запаженим променљивим
- Уобичајена анализа фактора - тражи најмањи број фактора који могу објаснити заједничку варијанцу скупа променљивих
- Фактор слике - На основу корелацијске матрице где се свака варијабла предвиђа од осталих користећи вишеструку регресију
- Алпха Факторинг - максимизира поузданост фактора
- Факторски регресијски модел - Комбинација факторских модела и регресијског модела чији су фактори дјелимично познати
Критерији факторске анализе
-
Критеријуми сопствене вредности
- Представља количину варијанце у изворним варијаблама која је повезана са фактором
- Збир квадрата оптерећења фактора сваке променљиве на фактор представља својствено вредност
- Чувају се фактори са својственим вредностима већим од 1, 0
-
Критеријуми засићења
- Заплет својствених вредности према броју фактора, према редоследу вађења.
- Облик парцеле одређује број фактора
-
Проценат критеријума варијанце
- Сазнаје се број екстрахираних фактора тако да све већи проценат одступања који фактори извлаче достиже ниво задовољства.
-
Критеријуми испитивања значајности
- Откривен је статистички значај засебних сопствених вредности, а задржани су само они фактори који су статистички значајни
Факторска анализа користи се у разним областима као што су психологија, социологија, политологија, образовање и ментално здравље.
Факторска анализа у СПСС
У СПСС-у се опција факторске анализе може наћи у Анализи а смањења димензија фактору
- Започните додавањем променљивих на списак променљивих
- Кликните картицу Опис и додајте неколико статистика под којима се верификују претпоставке факторске анализе.
- Кликните на опцију Ектрацтион која ће вам омогућити да одаберете метод екстракције и одрежите вредност за екстракцију
- Главне компоненте (ПЦА) је задана метода екстракције која извлачи чак и некорелизоване линеарне комбинације променљивих. ПЦА се може користити када је корелациона матрица појединачна. Врло је слична каноничкој корелацијској анализи где први фактор има максималну варијанцу а следећи фактори објашњавају мањи део варијанце.
- Друга најопштија анализа је факторинг главних ос. Идентифицира латентне конструкте који стоје иза запажања.
- Следећи корак је одабир методе ротације. Варимак се најчешће користи. Ова метода поједностављује интерпретацију фактора.
- Друга метода је Куартимак. Овом методом се ротирају фактори како би се смањио број фактора. То поједностављује интерпретацију посматране променљиве.
- Следећи метод је Екуамак који представља комбинацију горе поменуте две методе.
- У дијалошком оквиру кликом на „опције“ можете управљати недостајућим вредностима
- Пре него што сачувате резултате у скупу података, прво покрените анализу фактора и проверите да ли постоје претпоставке и потврдите да су резултати смислени и корисни.
Анализа кластера вс факторска анализа
И анализа кластера и факторска анализа су ненадзирани метод учења који се користи за сегментацију података. Многи истраживачи који су нови у овом пољу сматрају да су анализа кластера и факторска анализа слични. Можда се чини слично, али се разликују на више начина. Разлике између анализе кластера и факторске анализе наведене су у наставку
-
објективан
Циљ анализе кластера и фактора су различити. Циљ кластер анализе је поделити запажања на хомогене и различите групе. Анализа фактора с друге стране објашњава хомогеност променљивих која су последица сличности вредности.
-
Сложеност
Сложеност је још један фактор на коме се анализа кластера и фактора разликује. Величина података различито утиче на анализу. Ако је величина података превелика, то постаје рачунски неизречиво у анализи кластера.
-
Решење
Рјешење проблема је мање-више слично и у факторској и у кластер анализи. Али факторска анализа пружа боље решење за истраживача у бољем аспекту. Анализа кластера не даје најбољи резултат, јер су сви алгоритми у кластер анализи рачунски неефикасни.
-
Апликације
Факторска анализа и анализа кластера различито се примјењују на стварне податке. Факторска анализа је погодна за поједностављење сложених модела. Смањује велики скуп променљивих на много мањи скуп фактора. Истраживач може развити скуп хипотеза и покренути факторску анализу да потврди или негира ове хипотезе.
Кластерска анализа је погодна за разврставање објеката на основу одређених критеријума. Истраживач може измерити одређене аспекте групе и поделити их у одређене категорије помоћу кластер анализе.
Такође постоји пуно других разлика које су поменуте у даљем тексту
- Кластер анализа покушава да групира случајеве док факторска анализа покушава да групише обележја.
- Кластерска анализа користи се за проналажење мањих група случајева који су репрезентативни за податке у целини. Факторска анализа користи се за проналажење мање групе карактеристика која су репрезентативна изворним карактеристикама скупова података.
- Најважнији део анализе кластера је проналажење броја кластера. У основи методе групирања су подељене на две - Агломеративна метода и Метода поделе. Агломеративна метода започиње са сваким случајем у сопственом кластеру и зауставља се када се достигне критеријум. Метода партиционирања започиње са свим случајевима у једном кластеру.
- Факторска анализа користи се за откривање основне структуре у скупу података.
Закључак
Надам се да би вам овај чланак помогао да разумете основе кластер анализе и фактор анализе и разлике између то двоје.
Сродни курсеви: -
- Курс анализе кластера