Увод у моделе машинског учења

Преглед различитих модела машинског учења који се користе у пракси. Према дефиницији, модел машинског учења је математичка конфигурација добијена након примене специфичних методологија машинског учења. Користећи широк спектар АПИ-ја, израда модела машинског учења данас је прилично јасна напријед са мање линија кодова. Али права вештина примењеног стручњака из науке о подацима лежи у одабиру исправног модела на основу изјаве проблема и унакрсне провере уместо бацања података случајним алгоритамима. У овом ћемо чланку говорити о различитим моделима машинског учења и како их ефикасно користити на основу врсте проблема са којима се сусрећу.

Врсте модела машинског учења

На основу врсте задатака можемо класификовати моделе машинског учења у следеће врсте:

  • Модели класификације
  • Регресијски модели
  • Кластерирање
  • Смањење димензија
  • Дубоко учење итд.

1) Класификација

Што се тиче машинског учења, класификација је задатак предвиђања врсте или класе објекта унутар ограниченог броја опција. Излазна варијабла за класификацију је увек категорична променљива. На пример, предвиђање е-поште је нежељена пошта или није стандардни задатак бинарне класификације. Сада забележимо неколико важних модела за проблеме са класификацијом.

  1. К-најближи суседски алгоритам - једноставан, али рачунски исцрпан.
  2. Наивни Баиес - заснован на Баиесовој теореми.
  3. Логистичка регресија - Линеарни модел за бинарну класификацију.
  4. СВМ - може се користити за бинарне / вишеразредне класификације.
  5. Стабло одлука - класификатор заснован на „Ел Елсе , робуснији за одласке.
  6. Ансамбли - Комбинација више модела машинског учења сложенима заједно како би се постигли бољи резултати.

2) регресија

У машини, регресија учења представља скуп проблема где излазна варијабла може узимати континуиране вредности. На пример, предвиђање цене авио-компаније може се сматрати стандардним регресијским задатком. Забиљежимо неке важне регресијске моделе који се користе у пракси.

  1. Линеарна регресија - Најједноставнији основни модел за регресијски задатак, добро функционира само када су подаци линеарно раздвојиви и врло је мало или нема мултиколинеарности.
  2. Лассо регресија - линеарна регресија са Л2 регуларизацијом.
  3. Регресија гребена - Линеарна регресија са Л1 регуларизацијом.
  4. СВМ регресија
  5. Регресија стабла одлучивања итд.

3) Кластерирање

Једноставним речима, групирање је задатак груписања сличних објеката заједно. Модели машинског учења помажу аутоматски препознавање сличних објеката без ручне интервенције. Не можемо да изградимо ефикасне надгледане моделе машинског учења (модели које треба обучити са ручно курираним или означеним подацима) без хомогених података. Кластерирање нам помаже да то постигнемо на паметнији начин. Ево неколико широко коришћених модела кластера:

  1. К значи - Једноставно, али пати од велике варијанце.
  2. К значи ++ - Модификована верзија К значи.
  3. К медоиди.
  4. Агломеративно кластерирање - хијерархијски модел кластерирања.
  5. ДБСЦАН - алгоритам кластерирања на основу густоће итд.

4) Смањивање димензија

Димензионалност је број променљивих предиктора који се користе за предвиђање независне променљиве или таргет.офтен у скупима података у стварном свету број променљивих је превисок. Превише променљивих такође доноси проклет прекомерног уклапања у моделе. У пракси међу овим великим бројем променљивих, све варијабле не доприносе равноправно циљу и у великом броју случајева заправо можемо сачувати одступања са мањим бројем променљивих. Наведимо неколико најчешће кориштених модела за смањење димензија.

  1. ПЦА - Ствара мањи број нових променљивих од великог броја предиктора. Нове променљиве су независне једна од друге, али мање интерпретабилне.
  2. ТСНЕ - Омогућује уградњу нижих димензија тачака података веће величине.
  3. СВД - Једнострана декомпозиција вредности користи се за декомпозицију матрице на мање делове како би се ефикасно израчунао.

5) Дубоко учење

Дубоко учење је подмножа машинског учења која се бави неуронским мрежама. На основу архитектуре неуронских мрежа набројимо важне моделе дубоког учења:

  1. Вишеслојни перцептрон
  2. Конволуционе неуронске мреже
  3. Понављајуће неуронске мреже
  4. Болтзманнова машина
  5. Аутоенцодери итд.

Који је модел најбољи?

Изнад смо узели идеје о многим моделима машинског учења. Сада нам пада на памет очигледно питање „Који је најбољи модел међу њима?“ То зависи од проблема који је у питању и других повезаних атрибута попут одметника, количине расположивих података, квалитета података, инжењеринга својстава итд. У пракси је увек пожељно започети с најједноставнијим моделом применљивим на проблем и повећати сложеност постепено правилном подешавањем параметара и унакрсном валидацијом. У свету науке о подацима постоји пословица - „унакрсна валидација је поузданија од познавања домена“.

Како израдити модел?

Погледајмо како да направимо једноставан модел регресије логистике помоћу Сцикит Леарн библиотеке питхона. Ради једноставности, претпостављамо да је проблем стандардни модел класификације, а 'траин.цсв' је воз, а 'тест.цсв' влак и тест података.

Закључак

У овом чланку смо разговарали о важним моделима машинског учења који се користе у практичне сврхе и како да изградимо једноставан модел машинског учења у питхон-у. Одабир одговарајућег модела за одређени случај употребе је врло важан за постизање правих резултата задатка машинског учења. Да би се упоредили перформансе између различитих модела, метрике процене или КПИ су дефинисане за одређене пословне проблеме и изабран је најбољи модел за производњу након примене статистичке провере перформанси.

Препоручени чланци

Ово је водич за моделе машинског учења. Овде смо расправљали о топ 5 врста модела машинског учења са његовом дефиницијом. Можете и да прођете кроз друге наше предложене чланке да бисте сазнали више -

  1. Методе машинског учења
  2. Врсте машинског учења
  3. Алгоритми машинског учења
  4. Шта је машинско учење?
  5. Машинско учење хиперпараметра
  6. КПИ у Повер БИ-у
  7. Хијерархијски алгоритам кластерирања
  8. Хијерархијско кластерирање | Агломеративно и подељено кластерирање

Категорија: