Поиссон регресија у Р - Примена Поиссон регресије

Преглед садржаја:

Anonim

Увод у Поиссонову регресију у Р

Поиссонова регресија је врста регресије која је слична вишеструкој линеарној регресији, осим што је одзив или зависна варијабла (И) бројчана варијабла. Зависна варијабла прати Поиссонову дистрибуцију. Предиктор или независне варијабле могу бити континуиране или категоричне природе. На неки начин слично је логистичкој регресији која такође има дискретну варијаблу одговора. Претходно разумевање Поиссонове дистрибуције и њеног математичког облика је веома битно да би се могло искористити за предвиђање. У Р-у, Поиссонова регресија се може спровести на врло ефикасан начин. Р нуди свеобухватан скуп функционалности за његову примену.

Примена Поиссон регресије

Сада ћемо разумети како се модел примењује. Следећи одељак даје корак по корак поступак за исти. За ову демонстрацију разматрамо „гала“ скуп података из „удаљеног“ пакета. Односи се на разноликост врста на острвима Галапагос. У скупу података налази се укупно 7 променљивих. Користићемо Поиссонову регресију да одредимо однос између броја биљних врста (врста) са другим променљивим у скупу података.

1. Прво учитајте „удаљени“ пакет. У случају да пакет не постоји, преузмите га помоћу функције инсталл.пацкагес ().

2. Након што се пакет учита, убаците "гала" скуп података у Р користећи дата () функцију као што је приказано у наставку.

3. Учитане податке треба визуализовати како би проучавали променљиву и проверили да ли постоје разлике. Можемо визуализовати или целокупне податке или само првих неколико редака помоћу функције хеад () као што је приказано на слици доле.

4. Да бисмо добили више увида у скуп података, можемо користити функцију помоћи у Р-у као што је доле наведено. Он генерише Р документацију као што је приказано на снимку заслона након снимка слике испод.

5. Ако проучавамо скуп података као што је споменуто у претходним корацима, тада можемо установити да су Врсте варијабла одговора. Сада ћемо проучити основни резиме променљивих предиктора.

Напомена, као што се може видети горе, изузели смо променљиву врсту. Резиме функција даје нам основне увиде. Само посматрајте средње вредности за сваку од ових променљивих, и можемо установити да огромна разлика, у смислу распона вредности, постоји између прве половине и друге половине, нпр. За средњу вредност променљиве подручја је 2, 59, али максимална вредност је 4669.320.

6. Сада када смо завршили са основном анализом, генерисаћемо хистограм за врсте како бисмо проверили да ли променљива следи Поиссонову дистрибуцију. Ово је илустровано у наставку.

Горњи код генерира хистограм за променљиву врсту заједно са кривуљом густоће која је над њим постављена.

Горња визуализација показује да врсте прате Поиссонову дистрибуцију, јер су подаци исправни. Такође можемо да генеришемо бокплот да добијемо бољи увид у образац дистрибуције као што је приказано у наставку.

7. Након завршетка прелиминарне анализе, сада ћемо применити Поиссонову регресију као што је приказано у наставку

На основу горње анализе, налазимо да су променљиве Ендемицс, Ареа и Најближе значајне и да је само њихово укључивање довољно за изградњу исправног Поиссонова регресијског модела.

8. Изградићемо модификовани Поиссонов регресијски модел узимајући у обзир само три променљиве. Ендемије, подручја и најближих. Да видимо који смо резултати добили.

Излаз производи одступања, регресијске параметре и стандардне грешке. Можемо видети да је сваки од параметара значајан на нивоу п <0, 05.

9. Следећи корак је тумачење параметара модела. Коефицијенти модела се могу добити или испитивањем коефицијената на горе наведеном излазу или употребом цоеф () функције.

У Поиссоновој регресији зависна варијабла се моделира као запис условно средњег логеа (л). Регресијски параметар од 0, 0355 за Ендемицс указује да је повећање варијабле за једну јединицу повезано са повећањем од 0, 04 за просечан број врста, држећи остале променљиве константним. Прекидач је просјечан број врста када је сваки од предвиђача једнак нули.

10. Међутим, много је лакше интерпретирати регресијске коефицијенте у изворној скали зависне променљиве (број врста, уместо броја врста врста). Излагање коефицијената омогућиће лако тумачење. То се ради на следећи начин.

Из горњих открића можемо рећи да је једна јединица на површини умножена очекиваним бројем врста за 0, 9999, а јединствено повећање броја ендемских врста представљених Ендемицима множи број врста за 1, 0361. Најважнији аспект Поиссонове регресије је да експонирани параметри имају мултипликативни, а не адитивни ефекат на променљиву реакцију.

11. Користећи горње кораке, добили смо Поиссонов регресијски модел за предвиђање броја биљних врста на острвима Галапагос. Међутим, врло је важно провјерити постоји ли превелика дисперзија. У Поиссоновој регресији варијанца и средња су једнаки.

Прекомерна дисперзија се дешава када је уочена варијанца варијабле одговора већа него што би предвиђала Поиссонова дистрибуција. Анализа превелике дисперзије постаје важна јер је уобичајена за податке о пребројавању и може негативно утицати на крајње резултате. У Р-у, овердисперзија се може анализирати коришћењем кк пакета. Анализа је илустрована испод.

Горњи значајни тест показује да је п-вредност мања од 0, 05, што снажно указује на присуство превелике дисперзије. Покушаћемо да уклопимо модел користећи глм () функцију, замењујући породицу = „Поиссон“ са породицом = „квазипоиссон“. Ово је илустровано у наставку.

Помно проучавајући горњи излаз, можемо видјети да су процјене параметара у квази-Поиссоновом приступу идентичне онима које је произвео Поиссонов приступ, мада су стандардне погрешке различите за оба приступа. Штавише, у овом случају за Ареа, п-вредност је већа од 0, 05 што је последица веће стандардне грешке.

Значај Поиссон регресије

  • Поиссонова регресија у Р корисна је за тачно предвиђање дискретне / бројачке променљиве.
  • Помаже нам да идентификујемо оне експланаторне променљиве које имају статистички значајан утицај на променљиву реакцију.
  • Поиссонова регресија у Р најприкладнија је за догађаје „ретке“ природе, јер имају тенденцију да прате Поиссонову дистрибуцију у односу на уобичајене догађаје који обично следе нормалну дистрибуцију.
  • Погодан је за примену у случајевима када је променљива одзива мали цели број.
  • Има широку примену, јер је предвиђање дискретних варијабли пресудно у многим ситуацијама. У медицини се може користити за предвиђање утицаја лека на здравље. Снажно се користи у анализи преживљавања попут смрти биолошких организама, квара механичких система итд.

Закључак

Поиссонова регресија заснована је на концепту Поиссонове дистрибуције. То је још једна категорија која припада скупу регресијских техника која комбинује својства и линеарних и логистичких регресија. Међутим, за разлику од Логистичке регресије која ствара само бинарни излаз, користи се за предвиђање дискретне променљиве.

Препоручени чланци

Ово је водич за Поиссон регресију у Р. Овде смо расправљали о увођењу Поиссон регресије и значају Поиссон регресије. Можете и да прођете кроз друге наше предложене чланке да бисте сазнали више -

  1. ГЛМ у Р
  2. Генератор случајних бројева у Р
  3. Регресиона формула
  4. Логистичка регресија у Р
  5. Линеар Регрессион вс Логистиц Регрессион | Топ разлике