Преглед стабла одлука у Р

Стабло одлука у р је облик супервизираног учења који се користи за исправљање проблема класификације и регресије. Они су снажан алгоритам машинског учења за рад са врло сложеним скуповима података. Основни концепт иза стабла одлука је раздвајање датог скупа података. Да бисте прошли кроз овај чланак, предлаже се да имате основне концепте учења на алгоритму стабла одлука.

Дрво одлуке у Р

За рад са стаблом одлуке у Р или лаичком смислу неопходно је радити са великим низима података, а директна употреба уграђених Р пакета олакшава рад. Стабло одлука је нелинеарни модел претпоставки који користи структуру стабла за класификацију односа. Стабло одлуке у Р користи две врсте променљивих: категоричку променљиву (Да или Не) и континуиране променљиве. Терминологије стабла одлучивања састоје се од коријенског чвора (формира етикету класе), чворова одлучивања (под-чворови), терминалног чвора (не дијеле се даље). Јединствени концепт овог приступа машинском учењу је да класификују дане податке у класе које формирају да или не проток (ако постоји) и представљају резултате у дрвеној структури. Алгоритам који се користи у стаблу одлуке у Р је Гини индекс, добит информација, ентропија. На располагању су различити пакети за изградњу стабла одлука у Р: рпарт (рекурзивни), парти, рандом Форест, ЦАРТ (класификација и регресија). Врло је лако имплементирати стабло одлука у Р.

Ради јасне анализе, дрво је подељено у групе: сет за тренинг и тест сет. Следећа имплементација користи аутомобилски скуп података. Овај скуп података садржи 1727 обс и 9 променљивих, са којима је изграђено класификацијско стабло. У овом чланку дозвољавамо дрвету пакет за забаву. Функција ствара () даје условна стабла с функцијом цртања.

Имплементација помоћу Р

Циљ је проучити скуп података о аутомобилу како би се предвидјело да ли је вредност аутомобила висока / ниска и средња.

и) Припрема података

Инсталирање пакета и учитавање библиотека

Овај модул чита скуп података као комплетан оквир података и структура података је дата на следећи начин:

data<-car // Reading the data as a data frame
str(data) // Displaying the structure and the result shows the predictor values.

Излаз:

Determining Factordata$vhigh View(car)
> data<-car

ии) Поделите податке

Дељење података коришћењем скупова података за обуку. Стабло одлуке подијељено је на под-чворове како би се постигла добра тачност. Сложеност је одређена величином стабла и стопом грешке. Овде се ради репродуктивност и генерише низ редова.

set. Seed (1234)
dt<-sample (2, nrow(data), replace = TRUE, prob=c (0.8, 0.2))
validate<-data(dt==2, )

Фиг : Приказивање вредности података

Затим додавање вредности података на 2

validate<-data(dt==2, )

Фиг : Приказ Р конзоле у ​​Р Студио

Креирање стабла одлука у Р-у са страницом пакета

  • Кликните на пакет-> инсталирај -> забаву. Овде смо узели прва три улаза из узорка од 1727 запажања на скуповима података. Стварање модела за предвиђање високих, ниских, средњих улаза.

Имплементација:

library(party)
tree<-ctree(v~vhigh+vhigh.1+X2, data = train)
tree

Излаз:

Парцеле које користе Цтрее

Предвиђање:

Проба генерише вероватноћу за бодовање,

Имплементација:

predict(tree, validate, type="prob")
predict(tree, validate)

(1) вхигх вхигх вхигх вхигх вхигх вхигх вхигх вхигх вхигх вхигх вхигх

(12) вхигх вхигх вхигх вхигх вхигх вхигх вхигх вхигх вхигх вхигх вхигх

(23) вхигх вхигх вхигх вхигх вхигх вхигх вхигх вхигх вхигх вхигх

(34) вхигх вхигх вхигх вхигх вхигх вхигх вхигх вхигх вхигх вхигх вхигх

(45) вхигх вхигх вхигх вхигх вхигх вхигх вхигх вхигх вхигх вхигх

(56) вхигх вхигх вхигх вхигх вхигх вхигх вхигх вхигх вхигх

(67) вхигх вхигх вхигх вхигх вхигх вхигх вхигх вхигх вхигх вхигх вхигх

(78) вхигх вхигх вхигх високо високо високо високо високо високо високо

(89) високо високо високо високо високо високо високо високо високо високо

(100) високо високо високо високо високо високо високо високо високо високо

(111) високо високо високо високо високо високо високо високо високо високо

(122) високо високо високо високо високо високо високо високо високо високо

(133) високо високо високо високо високо високо високо високо високо високо

(144) високо високо високо високо високо високо високо високо високо високо

(155) високо високо високо високо високо високо високо високо високо високо

(166) високо високо високо високо високо високо високо високо високо високо

(177) високо високо високо високо мед мед мед мед мед

(188) мед мед мед мед мед мед мед мед мед мед мед

(199) мед мед мед мед мед мед мед мед мед мед мед

(210) мед мед мед мед мед мед мед мед мед мед мед

(221) мед мед мед мед мед мед мед мед мед мед мед

(232) мед мед мед мед мед мед мед мед мед мед мед

(243) мед мед мед мед мед мед мед мед мед мед мед

(254) мед мед мед мед мед мед мед мед мед ниска ниска

(265) ниско ниско ниско ниско ниско ниско ниско ниско ниско ниско

(276) ниско ниско ниско ниско ниско ниско ниско ниско ниско ниско

(287) ниско ниско ниско ниско ниско ниско ниско ниско ниско ниско

(298) ниско ниско ниско ниско ниско ниско ниско ниско ниско ниско

(309) ниско ниско ниско ниско ниско ниско ниско ниско ниско ниско

(320) ниско ниско ниско ниско ниско ниско ниско ниско ниско ниско

(331) ниска ниска ниска ниска ниска

Нивои: високи ниски мед вхигх

Стабло одлучивања помоћу рпарт

За предвиђање класе помоћу функције рпарт () за метод класе. рпарт () користи Гини индекс за подјелу чворова.

library(rpart)
tr<-rpart (v~vhigh+vhigh.1+X2, train)
library (rpart. plot)
rpart. plot(tr)

rpart.plot(tr, extra=2)

Ова линија црта стабло и приказује вјероватноћу стварања додатних функција за постављање 2, а добијени резултат је дан у наставку.

Грешка погрешне класификације

Стопа грешке спречава прекомерно уклапање.

tbl<-table(predict(tree), train $v)
print(tbl)
tepre<-predict(tree, new=validate)

Излаз:

принт (тбл)

хигх лов мед вхигх

висок 332 0 0 0

0 0 0 0 0 0

мед 0 0 350 0

вхигх 0 0 0 351

Закључак

Стабло одлука је кључни изазов у ​​Р-у, а снага стабла је у томе што их је лако разумети и прочитати у поређењу са другим моделима. Они се популарно користе у проблемима науке о подацима. Ово је алат који производи хијерархију одлука имплементираних у статистичкој анализи. Потребно је статистичко знање за разумевање логичких интерпретација стабла одлука. Као што смо видели, стабло одлука је лако разумети, а резултати су ефикасни када има мање ознака класе, а други део њих је када постоји више класа етикета, сложени су израчуни. Овај пост чини стручњаком да гради предиктивне моделе учења на дрвећу.

Препоручени чланци

Ово је водич за Дрво одлучивања у Р. Овде смо расправљали о уводу, како да се користи и примени Р. Такође можете да прођете кроз остале наше предложене чланке да бисте сазнали више -

  1. Шта је бинарно дрво на Јави?
  2. Р Програмски језик
  3. Шта је код Висуал Студио?
  4. Увод у линијски графикон у Р
  5. Водич за биномну дистрибуцију у Р

Категорија: