Увод у алгоритам стабла одлучивања
Када имамо проблем за решавање који је или класификација или регресијски проблем, алгоритам стабла одлука је један од најпопуларнијих алгоритама који се користи за изградњу класификационог и регресијског модела. Они спадају у категорију надзираног учења, односно података који су означени.
Шта је алгоритам стабла одлучивања?
Алгоритам стабла одлучивања је надзирани алгоритам машинског учења, гдје се подаци континуирано дијеле у сваки ред на основу одређених правила до коначног исхода. Узмимо пример, претпоставимо да отворите тржни центар и наравно, желели бисте да с временом расте у послу. У том случају, од вашег клијента ће бити потребни купци који се враћају плус нови купци. За то бисте припремили различите пословне и маркетиншке стратегије, попут слања е-поште потенцијалним купцима; стварајте понуде и понуде, циљајући нове купце итд. Али како да знамо ко су потенцијални купци? Другим речима, како класификовати категорију купаца? Као што ће неки купци посетити једном недељно, а други би желели да је посете једном или два пута месечно, или неки посете у четвртини. Дакле, стабла одлука су један такав алгоритам за класификацију који ће класификовати резултате у групе док више не остане сличности.
На овај начин, стабло одлука се спушта у формату дрвећа. Главне компоненте стабла одлука су:
- Чворови одлуке, где су подаци подељени или рецимо, то је место за атрибут.
- Веза везе, која представља правило.
- Допусти за одлучивање, који су коначни исходи.
Израда алгоритма стабла одлука
Много је корака који су укључени у рад стабла одлука:
1. Подјела - То је процес подјеле података на подгрупе. Раздвајање се може обавити на различитим факторима као што је приказано у наставку, тј. На основи пола, висине или на основу класе.
2. Обрезивање - То је процес скраћивања грана стабла одлучивања, чиме се ограничава дубина стабла
Обрезивање је такође две врсте:
- Пререзификација - Овде престајемо да расте стабло када не нађемо било какву статистички значајну повезаност између атрибута и класе на било ком одређеном чвору.
- Пострезирање - Да бисмо поставили обрезивање, морамо да потврдимо перформансе модела тестног скупа, а затим да одрежемо гране које су резултат превелике буке из сета за тренинг.
3. Одабир стабла - Трећи корак је поступак проналаска најмањег стабла које одговара подацима.
Примјери и илустрација конструкције стабла одлука
Као што смо научили принципе стабла одлука. Схватимо и илустрирамо то уз помоћ примера.
Рецимо да желите да играте крикет неког одређеног дана (На пример, у суботу). Који су фактори укључени који ће одлучити хоће ли се представа догодити или не?
Јасно је да је главни фактор клима, ниједан други фактор нема толико вероватноће колико климе има за прекид игре.
Прикупили смо податке из последњих 10 дана који су представљени у даљем тексту:
Дан | Веатхер | Температура | Влажност | Ветар | Игра? |
1 | Облачно | Вруће | Високо | Слаби | да |
2 | Сунчан | Вруће | Високо | Слаби | Не |
3 | Сунчан | Благ | Нормално | Јак | да |
4 | Кишна | Благ | Високо | Јак | Не |
5 | Облачно | Благ | Високо | Јак | да |
6 | Кишна | Хладан | Нормално | Јак | Не |
7 | Кишна | Благ | Високо | Слаби | да |
8 | Сунчан | Вруће | Високо | Јак | Не |
9 | Облачно | Вруће | Нормално | Слаби | да |
10 | Кишна | Благ | Високо | Јак | Не |
Конструирајмо сада своје стабло одлука на основу података које имамо. Дакле, стабло одлука смо поделили на два нивоа, први се заснива на атрибуту "Веатхер", а други ред је базиран на "Влажност" и "Ветар". Слике доле илуструју научено стабло одлука.
Такође можемо поставити неке вредности прага ако су функције непрекидне.
Шта је ентропија у алгоритму стабла одлука?
Једноставним речима, ентропија је мерило неуређености ваших података. Иако сте овај термин можда чули на часовима Математике или Физике, овде је исто.
Разлог зашто се ентропија користи у стаблу одлука је тај што је крајњи циљ у стаблу одлука груписање сличних група података у сличне класе, тј. Уређивање података.
Погледајмо доњу слику, где имамо иницијални скуп података и од нас се мора применити алгоритам стабла одлука како бисмо груписали сличне тачке података у једну категорију.
Након поделе одлуке, као што јасно можемо видети, већина црвених кругова спада у једну класу, док већина плавих крстова пада под другу класу. Отуда је донета одлука да се атрибути класификују на основу различитих фактора.
А сад, покушајмо да овдје учинимо нешто математике:
Рецимо да имамо „Н“ скупове ставке и да ове ставке спадају у две категорије, а сада, да бисмо груписали податке на основу налепница, уведемо омјер:
Ентропија нашег скупа је дата следећом једначином:
Провјеримо граф за задану једначину:
Изнад слике (са п = 0, 5 и к = 0, 5)
Предности
1. Дрво одлуке је једноставно за разумети, а након што га разумемо, можемо га конструисати.
2. Можемо имплементирати стабло одлука о бројчаним и категоричким подацима.
3. Дрво одлуке је доказано да је робустан модел са обећавајућим исходима.
4. Такође су ефикасни у времену са великим подацима.
5. Захтијева мање напора за обуку података.
Недостаци
1. Нестабилност - Само ако су информације прецизне и тачне, стабло одлука ће пружити обећавајуће резултате. Чак и ако постоји мала промена у улазним подацима, то може проузроковати велике промене на дрвету.
2. Сложеност - Ако је скуп података огроман са пуно ступаца и редова, врло је сложен задатак дизајнирати стабло одлука са многим гранама.
3. Трошкови - Понекад трошкови такође остају главни фактор јер када је потребно да се направи комплексно стабло одлука, потребно је напредно знање у квантитативној и статистичкој анализи.
Закључак
У овом чланку смо научили о алгоритму стабла одлука и како да га конструишемо. Такође смо видели велику улогу коју Ентропи игра у алгоритму стабла одлука и коначно, видели смо предности и недостатке стабла одлука.
Препоручени чланци
Ово је водич за алгоритам стабла одлучивања. Овде смо разговарали о улози коју играју ентропија, рад, предности и недостатак. Можете и да прођете кроз друге наше предложене чланке да бисте сазнали више -
- Важни методи за вађење података
- Шта је веб апликација?
- Водич за шта је наука о подацима?
- Питања о интервјуу аналитичара података
- Примена стабла одлука у вађењу података