Увод Логистичка регресија у Р

Логистичка регресија у Р такође позната као проблеми бинарне класификације. Користе се за предвиђање исхода као (1 или 0 да / не) за независну променљиву. Да бисмо разумели логистичку регресију у Р, важно је знати основну линеарну регресију, која ради са променљивом континуираног исхода. Тачније можемо рећи да је продужетак линеарне регресије. У овом чланку ћемо разговарати о различитим методама које се користе за израчунавање модела и евалуације. Логистичка регресија користи се за решавање класификационих проблема у машинском учењу.

Како функционира логистичка регресија у Р?

Логистичка регресија је техника која се користи у пољу статистике за мерење разлике између зависне и независне променљиве са водичем логистичке функције проценом различитих појава вероватноћа. Они могу бити или биномни (има да или нема исхода) или мултиномални (фер насупрот сиромашнима, врло лоши). Вредности вероватноће леже између 0 и 1, а променљива треба да буде позитивна (<1). Циља на зависну варијаблу и има следеће кораке које треба да следи:

  1. н- нема фиксних покуса на узетом скупу података
  2. са суђењем два исхода
  3. исход вероватноће треба да буде независан једни од других
  4. Вероватноћа успеха и неуспеха мора бити иста код сваког суђења.

У овом случају, ми разматрамо пример узимањем пакета ИСЛР, који пружа различите скупове података за обуку. За постављање модела овде се користи генерализована функција линеарног модела (глм). За изградњу логистичке регресије пожељна је функција глм и добија детаље о њима користећи сажетак за задатак анализе.

Радни кораци:

Радни кораци на логистичкој регресији прате одређене терминске елементе попут

  • Моделирање вероватноће или процена вероватноће
  • предвиђање
  • Покретање прага (висока или ниска специфичност)
  • Матрица конфузије
  • Површина цртања испод кривуље (АУЦ)

Примери

Испод је неколико примера логистичке регресије у Р:

Учитавање података:

Инсталирање ИСЛР пакета.

захтевати (ИСЛР)

Учитавање потребног пакета: ИСЛР

За овај чланак, ми ћемо користити скуп података 'Веекли' у РСтудио-у. Скуп података подразумева збирне детаље недељних залиха од 1990. до 2010.

захтевати (ИСЛР)

имена (СЛ)

Излаз:

(1) "Куповина" "Веекоф Куповина" "СтореИД" "ПрицеЦХ"

(5) “ПрицеММ” “ДисцЦХ” “ДисцММ” “СпециалЦХ”

(9) „СпециалММ“ „ЛоиалЦХ“ „СалеПрицеММ“ „СалеПрицеЦХ“

(13) „ПрицеДифф“ „Сторе7“ „ПцтДисцММ“ „ПцтДисцЦХ“

(17) „ЛистаПрицеДифф“ „СТОРЕ“

стр (ОЈ)

Показује 1070 запажања 18 променљивих.

Наш скуп података садржи 1070 посматрања и 18 различитих променљивих. овде имамо специјални ММ и специјални ЦХ има зависан исход. Узмимо посебан атрибут ММ да бисмо имали тачно запажање и тачност од 84%.

сто (ОЈ $ СпециалММ)

0 1

897 173

Следећи да бисте пронашли вероватноћу

897/1070

(1) 0.8383178

У сљедећем кораку за бољи узорак Подјела скупа података у скуп података за тренинг и тестирање је гоо

библиотека (цаТоолс)

сет.сеед (88)

сплит = сампле.сплит (ОЈ $ СпециалММ, СплитРатио = 0, 84)

Узимајући у обзир да кт има сет тренинга, а кс узорке података тест теста.

кт = подскуп (ОЈ, сплит == ТРУЕ)

кс = подскуп (ОЈ, сплит == ФАЛСЕ)

нров (кт)

(1) 898

нров (кс)

(1) 172

Стога имамо 898 сета за обуку и 172 узорка за тестирање.

Следеће коришћење резимеа () даје детаље одступања и табеле ефикасности за регресијску анализу.

КуалитиЛог = глм (СпециалММ ~ СалеПрицеММ + ВеекофКуповина, подаци = кт, породица = бином)

резиме (КуалитиЛог)

Излаз:

Позив:

глм (формула = СпециалММ ~ СалеПрицеММ + ВеекофКуповина, породица = бином,

дата = кт)

Преостали одступи:

Мин. 1К средња вредност 3К макс

-1.2790 -0.4182 -0.3687 -0.2640 2.4284

Коефицијенти:

Процена Стд. Грешка з вредност Пр (> | з |)

(Пресретање) 2.910774 1.616328 1.801 0.07173.

ПродајаЦенаММ -4.538464 0.405808 -11.184 <2е-16 ***

Веекоф Пурцхасе 0.015546 0.005831 2.666 0.00767 **

-

Нулта девијација: 794, 01 на 897 степени слободе

Преостала одступања: 636, 13 на 895 степени слободе

АИЦ: 642.13

Број понављања Фисхер-а: 5

Из горње анализе се каже да табела коефицијената даје позитивне вредности за ВеекофПурцхасе и да имају најмање две звезде што имплицира да су они значајни кодови модела.

Техника предвиђања:

Овде ћемо користити функцију предвиђања возова у овом Р пакету и дати вероватноће да користимо аргумент назван типе = одговор. Погледајмо предвиђање примењено на сет за тренинг (кт). Р предвиђа исход у облику П (и = 1 | Кс) са граничном вероватноћом 0, 5.

предицтТраин = предвиди (КуалитиЛог, типе = "одговор")

Резиме резултира средњим, средњим и мин, мак вредностима.

резиме (предвиђање возова) Извршење даје

Мин. 1ст Ку.Медиан Меан 3. Ку.Мак.

0.02192 0.03342 0.07799 0.16147 0.25395 0.89038

таппли (предицтТраин, кт $ СпециалММ)

За израчунавање просјека за истинске вјеројатности користи се функција таппли ().

таппли (предвиђање возова, кт $ СпециалММ, средња вредност)

0 1

0.1224444 0.3641334

Стога у горњој тврдњи налазимо да могућност истинског СпециалММ значи вредност 0, 34, а за истинску лошу вредност 0, 12.

Израчунавање граничне вредности:

ако је П> Т - предвиђање лоше, Специјални ММ

ако је П

Матрица класификације:

табела (кт $ СпециалММ, предвиђ. траин> 0, 5)

ФАЛСЕ ТРУЕ

0 746 7

1 105 40

За рачунање осетљивости и специфичности

40/145

(1) 0.2758621

746/753

(1) 0, 9907039

Тестинг сет Предицтион

предицтТест = предвиђати (КуалитиЛог, типе = "одговор", нови подаци = кс)

табела (кс $ СпециалММ, предицтТест> = 0.3)

ФАЛСЕ ТРУЕ

0 130 14

1 10 18

табела (кс $ СпециалММ, предицтТест> = 0.5)

ФАЛСЕ ТРУЕ

0 140 4

1 18 10

Тачност израчунавања

150/172

(1) 0.872093

Постоје 172 случаја од којих је 144 добро, а 28 лоше.

Исцртавање РОЦ кривуље:

Ово је последњи корак цртањем кривуље РОЦ за мерења перформанси. Добра АУЦ вредност треба да буде ближа 1, а не 0, 5. Провера са вероватноћом 0, 5, 0, 7, 0, 2 да се предвиди како се вредност прага повећава и смањује. То се врши тако што се у кривуљи РОЦ-а симултано цртају граничне вредности. Добар избор је одабир с обзиром на већу осјетљивост.

Логистичке регресијске технике

Погледајмо имплементацију логистике помоћу Р, јер је врло лако уклопити модел. Постоје две врсте техника:

  • Мултиноминална логистичка регресија
  • Обична логистичка регресија

Бивши ради са варијаблама одговора када имају више или једнаке две класе. касније ради када је наруџба значајна.

Закључак

Дакле, научили смо основну логику која се крије иза регресије, успоредо с тим што смо имплементирали логистичку регресију на одређени скуп података Р. Биномна или бинарна регресија мери категоријске вредности бинарних одговора и променљивих предвиђања. Они играју виталну улогу у аналитикама где стручњаци из индустрије очекују да познају линеарну и логистичку регресију. Они имају своје изазове и у практичном примеру смо то учинили са корацима на чишћењу података, претходној обради. Све скупа видели смо како логистичка регресија на једноставан и лак начин решава проблем категоричког исхода.

Препоручени чланци

Ово је водич за Логистичку регресију у Р. Овде смо расправљали о радним, различитим техникама и широким објашњењима различитих метода које се користе у Логистичкој регресији у Р. Такође можете погледати следеће чланке да бисте сазнали више -

  1. Оквири машинског учења
  2. Р вс Питхон
  3. Питхон стринг функције
  4. Да ли је Питхон скриптни језик
  5. Биномна дистрибуција у Р | Синтакса
  6. Регресија вс класификација

Категорија: