Шта је ГЛМ у Р?

Генерализовани линеарни модели су подскуп линеарних регресијских модела и ефикасно подржавају не-нормалне дистрибуције. Да бисте то подржали препоручује се употреба функције глм (). ГЛМ добро функционира са променљивом када варијанца није константна и дистрибуира се нормално. Дефинисана је функција везе за трансформирање варијабле одзива тако да одговара одговарајућем моделу. ЛМ модел је направљен са породицом и са формулом. ГЛМ модел има три кључне компоненте које се називају случајна (вероватноћа), систематска (линеарни предиктор), компонента везе (за функцију логита). Предност употребе глм-а је што имају флексибилност модела, нема потребе за сталном варијанцом и овај модел одговара максималној процени вероватноће и њеном омјеру. У овој теми ћемо сазнати о ГЛМ-у у Р.

ГЛМ функција

Синтакса: глм (формула, породица, подаци, пондери, подскупови, Старт = нулл, модел = ТРУЕ, метход = ””…)

Овде породични типови (укључују моделе типова) укључују бином, Поиссон, Гауссиан, гама, квази. Свака дистрибуција има различиту употребу и може се користити или у класификацији и у предвиђању. А кад је модел гауссиан, одговор би требао бити прави цијели број.

А када је модел биноман, одговор би требало да буде класе са бинарним вредностима.

А када је модел Поиссон, одговор би требао бити не-негативан с нумеричком вриједношћу.

А кад је модел гама, одзив би требао бити позитивна нумеричка вриједност.

глм.фит () - За уклапање у модел

Лрфит () - означава логистичку регресију.

упдате () - помаже у ажурирању модела.

анова () - опциони тест.

Како створити ГЛМ у Р?

Овде ћемо видети како креирати једноставан генерализовани линеарни модел с бинарним подацима користећи функцију глм (). И наставком са скупом података о Дрвећу.

Примери

// Увоз библиотеке
library(dplyr)
glimpse(trees)

Да бисте видели категоријске вредности додељени су фактори.

levels(factor(trees$Girth))

// Провјера континуираних варијабли

library(dplyr)
continuous <-select_if(trees, is.numeric)
summary(continuous)

// Укључивање података о стаблу у Р претрагу Патхаттацх (стабла)

x<-glm(Volume~Height+Girth)
x

Излаз:

Позив: глм (формула = запремина-висина + опсег)

Коефицијенти:

Висина опсега висине

-57.9877 0.3393 4.7082

Степен слободе: 30 Укупно (тј. Нулта); 28 Преостали

Нулл Девианце: 8106

Преостало одступање: 421.9 АИЦ: 176.9

summary(x)

Позив:

глм (формула = запремина ~ висина + опсег)

Преостали одступи:

Мин. 1К средња вредност 3К макс

-6.4065 -2.6493 -0.2876 2.2003 8.4847

Коефицијенти:

Процена Стд. Грешка т вредност Пр (> | т |)

(Пресретање) -57.9877 8.6382 -6.713 2.75е-07 ***

Висина 0.3393 0.1302 2.607 0.0145 *

Опсег 4.7082 0.2643 17.816 <2е-16 ***

-

Сигниф. кодови: 0 '***' 0, 001 '**' 0, 01 '*' 0, 05 '.' 0.1 '' 1

(Параметар дисперзије за гаусову породицу 15.06862)

Нулта девијација: 8106.08 на 30 степени слободе

Преостала одступања: 421, 92 на 28 степени слободе

АИЦ: 176.91

Број понављања Фисхер-а: 2

Излаз резиме функције даје позиве, коефицијенте и резидуе. Горњи одговор показује да су и висина и опсег коефицијента неважни, јер је вероватноћа да су мање од 0, 5. Постоје две варијанте девијације назване нулта и резидуална. Најзад, оцењивање рибара је алгоритам који решава максимална питања вероватноће. Код бинома, одговор је вектор или матрица. цбинд () се користи за везање вектора колона у матриксу. А за добијање детаљних информација о кориштеном резимеу користи се.

Да бисте урадили као покус с капуљачом, извршава се следећи код.

step(x, test="LRT")
Start: AIC=176.91
Volume ~ Height + Girth
Df Deviance AIC scaled dev. Pr(>Chi)
421.9 176.91
- Height 1 524.3 181.65 6.735 0.009455 **
- Girth 1 5204.9 252.80 77.889 < 2.2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Call: glm(formula = Volume ~ Height + Girth)
Coefficients:
(Intercept) Height Girth
-57.9877 0.3393 4.7082
Degrees of Freedom: 30 Total (ie Null); 28 Residual
Null Deviance: 8106
Residual Deviance: 421.9 AIC: 176.9

Модел стане

a<-cbind(Height, Girth - Height)
> a

резиме (дрвеће)

Girth Height Volume
Min. : 8.30 Min. :63 Min. :10.20
1st Qu.:11.05 1st Qu.:72 1st Qu.:19.40
Median :12.90 Median :76 Median :24.20
Mean :13.25 Mean :76 Mean :30.17
3rd Qu.:15.25 3rd Qu.:80 3rd Qu.:37.30
Max. :20.60 Max. :87 Max. :77.00

Да бисте добили одговарајуће стандардно одступање

apply(trees, sd)
Girth Height Volume
3.138139 6.371813 16.437846
predict <- predict(logit, data_test, type = 'response')

Даље, ми ћемо се односити на променљиву реакцију броја да би се моделирао добар одзив. Да бисмо то израчунали, користићемо УСАЦЦДеатх скуп података.

Унесите следеће исјечке у Р конзолу и погледајмо како се на њима раде број година и квадрат квадрата.

data("USAccDeaths")
force(USAccDeaths)

// Анализирати годину од 1973-1978.

disc <- data.frame(count=as.numeric(USAccDeaths), year=seq(0, (length(USAccDeaths)-1), 1)))
yearSqr=disc$year^2
a1 <- glm(count~year+yearSqr, family="poisson", data=disc)
summary(a1)

Позив:

глм (формула = број ~ година + годинаСкр, породица = "поиссон", подаци = диск)

Преостали одступи:

Мин. 1К средња вредност 3К макс

-22.4344 -6.4401 -0.0981 6.0508 21.4578

Коефицијенти:

Процена Стд. Грешка з вредност Пр (> | з |)

(Пресретање) 9.187е + 00 3.557е-03 2582.49 <2е-16 ***

година -7.207е-03 2.354е-04 -30.62 <2е-16 ***

годинаСкр 8.841е-05 3.221е-06 27.45 <2е-16 ***

-

Сигниф. кодови: 0 '***' 0, 001 '**' 0, 01 '*' 0, 05 '.' 0.1 '' 1

(Параметар дисперзије за Поиссонову породицу 1)

Нулта девијација: 7357.4 на 71 степен слободе

Преостала одступања: 6358, 0 на 69 степени слободе

АИЦ: 7149.8

Број понављања Фисхер-а: 4

Да би се проверила најбоља подобност модела, може се користити следећа наредба

резидуе за тест. Из резултата у наставку вриједност је 0.

1 - pchisq(deviance(a1), df.residual(a1))

(1) 0

Коришћење породице КуасиПоиссон за већу варијанцу у датим подацима

a2 <- glm(count~year+yearSqr, family="quasipoisson", data=disc)
summary(a2)

Позив:

глм (формула = цоунт ~ година + годинаСкр, породица = "квазипоиссон",

дата = диск)

Преостали одступи:

Мин. 1К средња вредност 3К макс

-22.4344 -6.4401 -0.0981 6.0508 21.4578

Коефицијенти:

Процена Стд. Грешка т вредност Пр (> | т |)

(Пресретање) 9.187е + 00 3.417е-02 268.822 <2е-16 ***

година -7.207е-03 2.261е-03 -3.188 0.00216 **

годинаСкр 8.841е-05 3.095е-05 2.857 0.00565 **

-

(Параметар дисперзије за породицу квазипоиссона узео је 92.28857)

Нулта девијација: 7357.4 на 71 степен слободе

Преостала одступања: 6358, 0 на 69 степени слободе

АИЦ: НА

Број понављања Фисхер-а: 4

Упоређивање Поиссона са биномном АИЦ вредношћу значајно се разликује. Могу се анализирати прецизношћу и омјером опозива. Сљедећи корак је провјера остатка варијанце пропорционална средњој вриједности. Тада можемо да замислимо помоћу РОЦР библиотеке за побољшање модела.

Закључак

Стога смо се фокусирали на посебан модел зван генерализирани линеарни модел који помаже у фокусирању и процјени параметара модела. То је првенствено потенцијал за непрекидну варијаблу одговора. И видели смо како се ГЛМ уклапа у уграђене Р пакете. Они су најпопуларнији приступи за мерење података о броју и робустан алат за класификационе технике које користи научник података. Р језик, наравно, помаже у обављању компликованих математичких функција

Препоручени чланци

Ово је водич за ГЛМ у Р. Овде смо расправљали о ГЛМ функцији и како креирати ГЛМ у Р помоћу примера и резултата скупова стабала. Такође можете погледати следећи чланак да бисте сазнали више -

  1. Р Програмски језик
  2. Архитектура великих података
  3. Логистичка регресија у Р
  4. Велики послови са аналитиком података
  5. Поиссон регресија у Р | Примена Поиссон регресије

Категорија: