Увод у ансамбл технике

Ансамблно учење је техника машинског учења која користи неколико основних модела и комбинује њихове резултате како би произвела оптимизирани модел. Ова врста алгоритма машинског учења помаже у побољшању укупних перформанси модела. Овде је основни модел који се најчешће користи је класификатор стабла одлука. Стабло одлука у основи дјелује на неколико правила и даје предиктивни исход, гдје су правила чворови и њихова одлука ће бити њихова дјеца, а чворови листова ће представљати коначну одлуку. Као што је приказано у примеру стабла одлука.

Горе наведено стабло одлука у основи говори о томе да ли се особи / купцу може дати кредит или не. Једно од правила прихватљивости кредита је да ако (приход = да и & ожењен = не), тада зајам = да, тако функционише класификатор стабла. Ове класификаторе ћемо уградити као вишеструки основни модел и комбиновати њихов излаз да бисмо изградили један оптимални предиктивни модел. Слика 1.б приказује укупну слику алгоритма учења ансамбла.

Врсте техника ансамбла

Различити типови ансамбала, али наш главни фокус биће на следећа два типа:

  • Торба
  • Појачавање

Ове методе помажу у смањењу одступања и пристраности у моделу машинског учења. Сада покушајмо да разумемо шта је пристрасност и разлика. Пристраност је грешка која настаје због погрешних претпоставки у нашем алгоритму; велика пристраност указује да је наш модел превише једноставан / недовољан. Варијанца је грешка која настаје због осетљивости модела на веома мала колебања у скупу података; велика варијанца указује на то да је наш модел веома сложен / прекомерно опремљен. Идеалан модел МЛ требао би имати правилан баланс између пристраности и варијанце.

Агрегирање / подметање за покретање

Торба је техника ансамбла која помаже у смањењу варијанци у нашем моделу и на тај начин избјегава прекомјерно уклапање. Пребацивање је пример алгоритма паралелног учења. Уметање се ради на два принципа.

  • Покретање система: Из оригиналног скупа података разматра се различита популација узорака са заменом.
  • Обједињавање: Просечење резултата свих класификатора и пружање јединственог излаза, за то користи већинско гласање у случају класификације и просечења у случају регресијског проблема. Један од познатих алгоритама машинског учења који користи концепт смећа је случајна шума.

Рандом Форест

У насумичној шуми из случајног узорка који је повучен из популације са заменом и подскуп карактеристика је изабран из скупа свих карактеристика које се гради стабло одлука. Из ових подскупина функција која год функција даје најбоље дијељење је одабрана као коријен стабла одлуке. Подскупе функција морају бити изабране насумично по сваку цијену, иначе ћемо произвести само корелиране тресе и варијанца модела се неће побољшати.

Сада смо изградили наш модел на узорцима узетим од становништва, питање је како валидирати модел? Будући да узорке разматрамо заменом, стога се сви узорци неће узети у обзир и неки од њих неће бити уврштени у врећицу, а они се називају ван узорака врећа. Можемо потврдити наш модел са овим ООБ (ван врећице) узорцима. Важни параметри које треба узети у обзир у насумичној шуми су број узорака и број стабала. Размотримо 'м' као подскуп карактеристика, а 'п' је цео скуп функција, а сада као правило палца увек је идеално одабрати

  • м ас√ и минимална величина чвора као 1 за проблем с класификацијом.
  • м као П / 3 и минимална величина чвора да буде 5 за регресијски проблем.

М и п треба третирати као параметре подешавања када се бавимо практичним проблемом. Обука се може прекинути када се грешка ООБ стабилизира. Један недостатак случајне шуме је тај што када у нашем скупу података имамо 100 карактеристика и само пар карактеристика је важно, овај алгоритам ће радити лоше.

Појачавање

Појачавање је секвенцијални алгоритам учења који помаже у смањењу пристраности нашег модела и варијанци у неким случајевима надзираног учења. Такође помаже у претварању слабих ученика у снажне ученике. Појачавање ради на принципу постављања слабих ученика узастопно и додељује тежину свакој тачки података након сваког круга; већа тежина се додељује погрешно класификованој тачки података у претходном кругу. Ова секвенцијална пондерисана метода тренинга нашег скупа података кључна је разлика у начину пакирања.

Фиг3.а приказује општи приступ у потицању

Коначна предвиђања комбинују се на основу гласања пондериране већине у случају класификације и пондериране суме у случају регресије. Најраширенији алгоритам за потискивање је адаптивно појачавање (Адабоост).

Адаптиве Боостинг

Кораци укључени у алгоритам Адабоост су следећи:

  1. За дане н податковне тачке дефинирамо циљану класу и иницијализирамо све тежине на 1 / н.
  2. Податке класификујемо у скуп података и бирамо класификацију са најмање пондерираном грешком класификације
  3. Тежини класификатора доделујемо палчевим правилом на основу тачности, ако је тачност већа од 50%, онда је тежина позитивна и обрнуто.
  4. Ажурирамо тежине класификатора на крају итерације; ажурирамо више тежине за погрешно класификовану тачку тако да ћемо је у следећој итерацији тачно класификовати.
  5. Након свих понављања, добијамо коначни резултат предвиђања на основу већинског гласачког / пондерираног просека.

Адабоостинг ефикасно делује са слабим (мање сложеним) полазницима и са високим класификаторима пристраности. Главне предности Адабоостинга су у томе што је брз, не постоје параметри подешавања слични оном у случају пакирања и не дајемо никакве претпоставке о слабим ученицима. Ова техника не даје тачан резултат када

  • У нашим подацима има више одметника.
  • Скуп података је недовољан.
  • Слаби ученици су веома сложени.

Такође су подложни буци. Стабла одлука која се добијају као резултат појачања имаће ограничену дубину и високу тачност.

Закључак

Ансамбл технике учења се широко користе у побољшању тачности модела; морамо одлучити коју ћемо технику користити на основу нашег скупа података. Али ове технике нису пожељне у неким случајевима када је интерпретација важна, јер губимо интерпретабилност по цену побољшања перформанси. Они имају огроман значај у здравственој индустрији где је мало побољшање перформанси веома драгоцено.

Препоручени чланци

Ово је водич за технику ансамбла. Овде смо разговарали о уводу и две главне врсте ансамбл техника. Можете и да прођете кроз наше друге сродне чланке да бисте сазнали више -

  1. Технике стеганографије
  2. Технике машинског учења
  3. Технике теам буилдинга
  4. Алгоритми за науку о подацима
  5. Најчешће коришћене технике ансамблиног учења

Категорија: