Увод у анализу линеарне регресије

Често је збуњујуће научити неки концепт који је чак део нашег свакодневног живота. Али то није проблем, можемо си помоћи и развити се да учимо из својих свакодневних активности само анализом ствари и не бојимо се постављати питања. Зашто цена утиче на потражњу робе, зашто промена каматне стопе утиче на понуду новца. На све ове одговоре може се одговорити једноставним приступом познатим као линеарна регресија. Једина сложеност коју осећају током бављења линеарном регресијском анализом је идентификација зависних и независних променљивих.

Морамо пронаћи шта утиче на то, а половина проблема је решена. Морамо да видимо да ли је цена или потражња која утиче на понашање једних других. Једном када смо сазнали која је независна и зависна варијабла добро је ићи на нашу анализу. Доступно је више врста регресијске анализе. Ова анализа зависи од варијабли које су нам доступне.

3 врсте регресијске анализе

Ове три регресијске анализе имају максималне случајеве употребе у стварном свету, иначе постоји више од 15 врста регресијске анализе. Врсте регресијске анализе о којима ћемо разговарати су:

  1. Линеарна регресијска анализа
  2. Анализа вишеструке линеарне регресије
  3. Логистичка регресија

У овом чланку ћемо се фокусирати на анализу једноставне линеарне регресије. Ова анализа помаже нам да идентификујемо однос између независног и зависног фактора. Једноставнијим речима, регресијски модел нам помаже да установимо како промене независног фактора утичу на зависни фактор. Овај модел нам помаже на више начина као што су:

  • То је једноставан и моћан статистички модел
  • То ће нам помоћи да направимо предвиђања и прогнозе
  • То ће нам помоћи да донесемо бољу пословну одлуку
  • Помоћи ће нам да анализирамо резултате и исправимо грешке

Једнаџба линеарне регресије и подијели је на релевантне дијелове

И = β1 + β2Кс + ϵ

  • Где је β1 у математичкој терминологији познат као пресретање и β2 у математичкој терминологији познат као косина. Такође су познати и као коефицијенти регресије. ϵ је термин грешке, то је део И регресијског модела који није у стању објаснити.
  • И је зависна променљива (други термини који се наизменично користе за зависне променљиве су променљива одзива, регрес и мерена променљива, опажена променљива, одговорна променљива, објасњена променљива, променљива исхода, експериментална променљива и / или излазна променљива).
  • Кс је независна променљива (регресори, контролисана променљива, манипулисана променљивом, објасњавајућа променљива, променљива изложености и / или улазна променљива).

Проблем: За разумевање шта је линеарна регресијска анализа, узимамо скуп података „Аутомобили“ који се подразумевано долази у Р директоријумима. У овом скупу података налази се 50 проматрања (у основи редова) и 2 променљиве (ступци). Називи ступаца су „Дист“ и „Спеед“. Овде морамо видети утицај на променљиве брзине због променљивих брзина. Да видимо структуру података можемо покренути код (Стр). Овај код нам помаже да разумемо структуру скупа података. Ове нам функционалности помажу у доношењу бољих одлука јер имамо бољу слику о структури података. Овај код нам помаже да идентификујемо врсте скупова података.

Шифра:

Слично за провјеру статистичких контролних тачака скупа података можемо користити и резиме кода (аутомобили). Овај код даје средњи, средњи, распон скупа података у покрету, који истраживач може користити док се бави проблемом.

Излаз:

Овде можемо видети статистички излаз сваке променљиве који имамо у нашем скупу података.

Графички приказ скупова података

Врсте графичког приказа које ће овде бити покривене су и зашто:

  • Распон скице: Помоћу графикона можемо видети у ком смеру иде наш линеарни регресијски модел, да ли постоје снажни докази који доказују наш модел или не.
  • Бок Плот: Помаже нам да пронађемо ауторе.
  • Денсити Плот: Помозите нам да разумемо дистрибуцију независне променљиве, у нашем случају независна променљива је „Спеед“.

Предности графичког приказа

Овде су следеће предности:

  • Лако разумети
  • Помаже нам да донесемо брзу одлуку
  • Компаративна анализа
  • Мање труда и времена

1. Распршивач: Помаже вам да визуелизујете све односе између независне променљиве и зависне променљиве.

Шифра:

Излаз:

Из графикона можемо видети линеарно растући однос између зависне променљиве (Удаљеност) и независне променљиве (Брзина).

2. Бок Плот: Бок плот нам помаже да идентификујемо издатке у скуповима података. Предности употребе кутијице су:

  • Графички приказ локације и ширења променљивих.
  • Помаже нам да разумемо скочност и симетрију података.

Шифра:

Излаз:

3. Нацрт густоће (да бисте проверили нормалност дистрибуције)

Шифра:

Излаз:

Корелацијска анализа

Ова анализа нам помаже да пронађемо однос између променљивих. Постоји углавном шест врста корелационе анализе.

  1. Позитивна корелација (0, 01 до 0, 99)
  2. Негативна корелација (-0, 99 до -0, 01)
  3. Нема корелације
  4. Савршена корелација
  5. Јака корелација (вредност ближа ± 0, 99)
  6. Слаба корелација (вредност ближа 0)

Скица расипања нам помаже да идентификујемо које врсте скупова података корелације имају међу њима и код за проналажење корелације

Излаз:

Овде имамо снажну позитивну повезаност између брзине и даљине, што значи да међу њима постоји директан однос.

Линеарни регресиони модел

Ово је основна компонента анализе, раније смо само покушавали и тестирали да ли је скуп података који је расположен логичан за покретање такве анализе или не. Функција коју планирамо да користимо је лм (). Ова функција садржи два елемента који су формула и подаци. Пре него што доделимо која варијабла је зависна или независна, морамо бити сигурни у то, јер цела формула зависи од тога.

Формула изгледа овако,

Линеарна регресија <- лм (зависна променљива ~ независна променљива, подаци = датум.оквир)

Шифра:

Излаз:

Као што се можемо присјетити из горњег сегмента чланка, једначина линеарне регресије је:

И = β1 + β2Кс + ϵ

Сада ћемо се уклопити у информације које смо добили од горе наведеног кода у овој једначини.

дист = −17.579 + 3.932 ∗ брзина

Само што проналазак једнаџбе линеарне регресије није довољан, такође морамо проверити његову статистичку значајност. Да бисмо то постигли, морамо да проследимо код „Сажетак“ на нашем моделу линеарне регресије.

Шифра:

Излаз:

Постоји више начина провере статистичког значаја модела, овде се користи метода П-вредности. Можемо сматрати модел статистички прикладним када је П вредност мања од унапред утврђеног статистички значајног нивоа, који је у идеалном случају 0, 05. У нашој резимеу табеле (линеарна_регресија) можемо видети да је П-вредност испод 0, 05, па можемо закључити да је наш модел статистички значајан. Једном када будемо сигурни у свој модел, можемо да користимо наш скуп података да предвидимо ствари.

Препоручени чланци

Ово је водич за анализу линеарне регресије. Овдје разматрамо три врсте линеарне регресијске анализе, графички приказ скупова података с предностима и моделе линеарне регресије. Можете и да прођете кроз наше друге сродне чланке да бисте сазнали више -

  1. Регресиона формула
  2. Регресија тестирање
  3. Линеарна регресија у Р
  4. Врсте техника анализе података
  5. Шта је регресијска анализа?
  6. Главне разлике регресије и класификације
  7. Топ 6 разлике линеарне регресије и логистичке регресије

Категорија: