Увод у стабло одлучивања у Рударству података

У данашњем свету о „великим подацима“, термин „Дата Мининг“ значи да морамо размотрити велике скупове података и извршити „минирање“ података и извући важан сок или суштину онога што подаци желе да кажу. Врло аналогна ситуација је са ископавањем угља где су потребни различити алати за вађење угља укопаног дубоко испод земље. Један од алата у извлачењу података је „Дрво одлучивања“. Стога је рударјење података само по себи огромно поље у којем ћемо наредних неколико одломака дубоко заронити у „алатку“ стабла одлука у Дата Мининг-у.

Алгоритам стабла одлучивања у Рударству података

Стабло одлука је приступ учења под надзором у којем тренирамо присутне податке уз већ сазнање шта је заправо циљна варијабла. Као што име каже, овај алгоритам има структуру типа стабла. Погледајмо прво теоријски аспект Стабла одлука, а затим погледамо исти у графичком приступу. У стаблу одлука алгоритам дели набор података на подскупове на основу најважнијег или најзначајнијег атрибута. Најзначајнији атрибут је означен у коријенском чвору и ту се врши цијепање цијелог скупа података који се налази у коријенском чвору. Ово подељење је познато као чворови одлучивања. У случају да више није могуће поделити, чвор се назива лист чвора.

Да би се алгоритам зауставио да би се достигла велика фаза, користи се критеријум заустављања. Један од критерија заустављања је минималан број опажања у чвору прије него што се догоди сплит. Иако се примјењује стабло одлука при дијељењу скупа података, треба бити опрезан да многи чворови могу једноставно имати бучне податке. Да бисмо се задовољили вањским или бучним проблемима са подацима, користимо технике познате као Подрезивање података. Обрезивање података није ништа друго него алгоритам за разврставање података из подскупине, што отежава учење из датог модела.

Истраживач машина Ј. Росс Куинлан, алгоритам стабла одлучивања објавио је као ИД3 (Итеративе Дицхотомисер). Касније је Ц4.5 пуштен као наследник ИД3-а. И ИД3 и Ц4.5 су похлепни приступ. Погледајмо сада дијаграм алгоритма стабла одлучивања.

Да бисмо разумели псеудо код, узели бисмо „н“ тачке података од којих свака има атрибуте „к“. Испод дијаграма тока је направљено имајући у виду „Добитак информација“ као услов за поделу.

IG (on individual split) = Entropy before the split – Entropy after a split (On individual split)

Уместо добивања информација (ИГ), такође можемо користити Гини индекс као критеријуме поделе. Да бисмо разумели разлику између ова два критеријума у ​​лаичком смислу, о овој добити информација можемо размишљати као о разлици ентропије пре расцепа и после поделе (подељен на основу свих доступних функција).

Ентропија је попут случајности и дошли бисмо до тачке после поделе да имамо најмање стање случајности. Дакле, информацијски добитак треба да буде највећи у односу на карактеристику коју желимо поделити. Иначе, ако желимо да одаберемо дељење на основу Гини индекса, пронашли бисмо Гини индекс за различите атрибуте и користећи исти сазнаћемо пондерисани Гини индекс за различити сплит и употријебили онај са вишим Гини индексом за подјелу података.

Важни услови стабла одлучивања у Рударству података

Ево неких важних услова стабла одлука у копању података датих у наставку:

  • Роот Ноде: Ово је први чвор где се одвија цепање.
  • Лист са чвором: Ово је чвор након кога нема више гранања.
  • Чвор одлуке: Чвор формиран након подјеле података с претходног чвора познат је као чвор одлуке.
  • Подружница: пододјељак стабла који садржи информације о посљедицама расцјепа на чвору за одлуку.
  • Обрезивање: Када постоји уклањање пот-чворова чвора за одлучивање да би се задовољили вањски или бучни подаци назива се обрезивање. Такође се сматра да је супротно од поделе.

Примена стабла одлука у вађењу података

Стабло одлука има врсту архитектуре која је изграђена са врстом алгоритма. У основи има образац "Иф Кс, па И елсе З" док је направљен раздјелник. Ова врста узорка користи се за разумевање људске интуиције у програмском пољу. Стога се ово може широко користити у разним проблемима категоризације.

  • Овај алгоритам се може широко користити у области где је циљна функција повезана са извршеном анализом.
  • Када су на располагању бројни облици акције.
  • Вањска анализа.
  • Разумевање значајног скупа функција за читав низ података и „мине“ неколико карактеристика са листе стотина функција у великим подацима.
  • Одабир најбољег лета за путовање на одредиште.
  • Процес доношења одлука заснован на различитим околностима.
  • Анализа буђења.
  • Анализа осјећаја

Предности стабла одлуке

Ево неких предности стабла одлука објашњеног у даљем тексту:

  • Једноставност разумевања: Начин на који је стабло одлуке представљено у својим графичким формама олакшава разумевање за особу која нема аналитичку позадину. Посебно за људе из руководства који желе да погледају које су карактеристике важне само једним погледом на стабло одлука могу изнијети своју хипотезу.
  • Истраживање података: Као што је речено, добијање значајних променљивих основна је функционалност стабла одлука и коришћењем истог може се утврдити током истраживања података о одлучивању која ће променљива требати посебну пажњу током фазе вађења података и моделирања.
  • Током фазе припреме података врло је мало људске интервенције и као резултат тог времена потрошеног током података чишћење се смањује.
  • Стабло одлука може да се бави категоричким, као и нумеричким варијаблама, а такође може да се бави и проблемима класификације у више класа.
  • Као део претпоставке, стабла одлука немају претпоставку просторне дистрибуције и структуре класификатора.

Закључак

Коначно, за закључак Дрвећа одлука доводе у потпуно другачију класу нелинеарности и прилагођавају се решавању проблема нелинеарности. Овај алгоритам је најбољи избор да опонаша мишљење људи на нивоу одлуке и прикаже га у математичко-графичком облику. При утврђивању резултата из нових невидљивих података користи се приступ одоздо према доле и следи принцип поделе и освајања.

Препоручени чланци

Ово је водич за стабло одлучивања у Рударству података. Овде смо расправљали о алгоритму, важности и примени стабла одлука у ископавању података, заједно са његовим предностима. Такође можете погледати следеће чланке да бисте сазнали више -

  1. Дата Сциенце Мацхине Леарнинг
  2. Врсте техника анализе података
  3. Дрво одлуке у Р
  4. Шта је истраживање података?
  5. Водич за различите методологије анализе података

Категорија: