Увод у регресијску анализу
Регресијска анализа је алгоритам предиктивног моделирања који предвиђа исход варијабле и идентификује варијабле (независне варијабле) које доприносе или зависе од варијабле исхода (циљна или зависна варијабла). Једноставно речено, то је техника проналажења односа између независних и зависних променљивих да би се добио резултат. Лако је користити и интерпретирати резултат. Постоје многе врсте регресијских техника које се широко користе у различитим секторима. Неки од примера регресије су предвиђање плате запосленог или прихода компаније за годину дана.
Како је функционирала регресијска анализа?
Постоји много врста регресијских техника које се користе узимајући у обзир различите факторе и исходе.
- Линеарна регресија
- Логистичка регресија
- Регресија Лассо / Ридгеа
- Полиномна регресија
У наставку су дати неки од важних статистичких регресијских тестова који се користе у различитим секторима:
1. Линеарна регресија
Ово се користи када је варијабла исхода линеарно зависна од независних променљивих. Обично се користи када немамо огроман скуп података. Такође је осетљив на одметнике, па ако скуп података садржи одметнике, боље је лечити их пре примене линеарне регресије. Постоје једноструке и више варијабилне регресијске технике. Једноставна линеарна регресија је анализа када је варијабла исхода линеарно зависна од једне независне променљиве. Једноставна линеарна регресија следи једначину равне линије која је дата у наставку:
Y=mx+c
Где,
И = Циљна, зависна или критеријум променљива
к = Независна или променљива предвиђања
м = коефицијент нагиба или регресије
ц = константа
Мулти-променљива линеарна регресија дефинише однос између излазне променљиве и више од једне независне променљиве. Слиједи доња једнаџба равне линије гдје су зависне варијабле линеарна комбинација свих независних варијабли:
Y= m1x1+m2x2+m3x3+…mnan+c
Где,
И = Циљна, зависна или критеријум променљива
к1, к2, к3… кн = Независне или предикторске променљиве
м1, м2, м3… мн = Коефицијенти нагиба или регресије одговарајућих променљивих
ц = константа
Линеарна регресија следи принцип Леаст Скуаре методе. Ова метода каже да је изабрана линија најбољег прилагођавања минимизирањем суме квадратне грешке. Линија која најбоље одговара је изабрана тамо где је збир квадратне грешке између посматраних података и линије минималан.
Постоје неке претпоставке на које треба водити рачуна пре примене линеарне регресије на скуп података.
- Треба постојати линеарни однос између независних и зависних варијабли.
- Између независних варијабли не би требало постојати или мало мултицоллинеарности. Мултиколинеарност је дефинисана као феномен где постоји велика повезаност између независних променљивих. Мултиколинеарност можемо третирати тако што ћемо избацити једну променљиву која је у корелацији или две варијабле третирати као једну променљиву.
- Хомосцедастичност: Дефинише се као стање у којем се појмови грешака насумично расподељују преко линије у регресијској анализи. Не би требало бити никаквог узорка преко линије ако постоји неки идентификовани образац од онога за што се каже да су подаци хетеросцедастични.
- Све варијабле би требале бити нормално дистрибуиране, што видимо цртањем КК цртежа. Ако се подаци нормално не дистрибуирају, можемо користити било које нелинеарне методе трансформације за њихово лечење.
Дакле, увек је препоручљиво тестирати претпоставке док се примењује линеарна регресија за постизање добре тачности и тачних резултата.
2. Логистичка регресија
Ова техника регресије користи се када је варијабла циља или исхода категоричке или бинарне природе. Главна разлика између линеарне и логистичке регресије лежи у циљној варијабли, у линеарној регресији, она треба да буде континуирана док у логистичкој треба да буде категорична. Исходна варијабла треба имати само две класе, не више од тога. Неки од примера су филтри нежељене поште у е-порукама (Нежељена пошта или не), откривање преваре (Фрауд / Нот Фрауд), итд. Ради на принципу вероватноће. Може се класификовати у две категорије постављањем вредности прага.
На пример: Ако постоје две категорије А, Б и поставимо вредност прага као 0, 5, вероватноћа изнад 0, 5 ће се сматрати једном категоријом, а испод 0, 5 ће бити друга категорија. Логистичка регресија прати кривуљу у облику слова С. Пре израде модела логистичке регресије, морамо поделити скуп података на обуку и тестирање. Будући да је циљна варијабла категорична или бинарна, морамо осигурати да постоји одговарајућа равнотежа класе у сету тренинга. Ако постоји неравнотежа класе, то се може лечити коришћењем различитих метода као што је наведено у наставку:
- Горе узорковање: У овој техници, класа која има мање редака узоркује се тако да одговара броју редова већинске класе.
- Узорковање према доле: У овој техници, класа која има више редова узоркује се тако да одговара броју редова мањинске класе.
Постоје неке важне тачке које је важно схватити пре примене модела логистичке регресије на скупове података:
- Циљна варијабла би требала бити бинарне природе. Ако у циљној варијабли постоји више од 2 класе, то је познато као Мултиномиал Логистиц Регрессион .
- Између независних варијабли не би требало постојати или бити мало мултиколинеарности.
- За рад је потребна огромна величина узорка.
- Требао би постојати линеарни однос између независних варијабли и дневника квота.
Предности регресије
Много је предности регресијске анализе. Умјесто да размотримо свој осјећај цријева и предвидимо исход, можемо употријебити регресијску анализу и показати валидне бодове за могуће исходе.
Неке од њих су наведене у наставку:
- Предвидјети продају и приходе у било којем сектору за краће или дуже временске периоде.
- Да бисте предвидјели стопу раста купца у било којој индустрији и сазнали погодне мере за њихово смањивање.
- Да би разумео и предвидио нивое залиха у складишту.
- Да бисте сазнали да ли ће увођење новог производа на тржиште бити успешно или не.
- Да бисте предвидјели да ли ће неки купац платити зајам или не.
- Да бисте предвидјели да ли ће неки купац купити производ или не.
- Превара или откривање нежељене поште
Закључак
Постоје различите метрике евалуације које се узимају у обзир након примене модела. Иако постоје претпоставке потребне за тестирање пре примене модела, увек можемо да мењамо променљиве користећи различите математичке методе и повећавамо перформансе модела.
Препоручени чланци
Ово је водич за регресијску анализу. Овдје смо разговарали о Уводу у регресијску анализу, како је функционирала регресијска анализа и предности регресије. Можете и да прођете кроз друге наше предложене чланке да бисте сазнали више -
- Линеарна регресијска анализа
- Алати за анализу података
- Регресијско испитивање
- Биг Дата Аналитицс
- Регресија вс класификација | Главне кључне разлике