Увод у алгоритме машинског учења

Машинско учење је студија предиктивне аналитике која делује на принципу да рачунари уче из прошлих података, а затим дају предвиђања за нове податке. Појава алгоритама машинског учења је давно прошла када су рачунари развијени. Међутим, недавни хипе резултат је велике количине података које се генеришу и огромне рачунарске снаге коју модерни рачунари поседују. То је резултирало појавом Дееп Леарнинг-а, потпоља Машинско учење које успева на више података. Дјелује као људски мозак гдје се неурони користе за доношење бољих одлука. Слично томе, у Дееп Леарнинг-у, неуронске мреже формирају слојеве који слиједе принцип просљеђивања и унатраг за доношење бољих одлука.

Категорије алгоритама машинског учења

Подручје алгоритма машинског учења може се сврстати у -

  • Надзирано учење - У супервизираном учењу скуп података је означен, тј. За сваку значајку или независну варијаблу постоје одговарајући циљни подаци које бисмо користили за обучавање модела.
  • Учење под надзором УН-а - за разлику од супервизираног учења, скуп података у овом случају није означен. Стога се техника кластерирања користи за груписање података на основу њихове сличности међу тачкама података у истој групи.
  • Ојачавање учења - посебна врста машинског учења где се модел учи из сваке предузете радње. Модел се награђује за сваку исправну одлуку и кажњава за сваку погрешну одлуку која му омогућава да научи обрасце и доноси боље тачне одлуке о непознатим подацима.

Одељење алгоритама машинског учења

Проблеми у алгоритмима машинског учења могу се поделити на -

  • Регресија - Постоји континуирани однос између зависне и независне променљиве. Циљна варијабла је нумеричке природе док би независне варијабле могле бити нумеричке или категоричке.
  • Класификација - Најчешћа изјава проблема коју бисте нашли у стварном свету је класификација тачке података у неку бинарну, мултиномску или ординалну класу. У проблему Бинарне класификације циљна варијабла има само два исхода (Да / Не, 0/1, Тачно / Нетачно). У проблему Мултиномиал Цлассифицатион постоји више класа у циљној варијабли (Аппле / Оранге / Манго и тако даље). У проблему Ординалне класификације, циљна варијабла је наручена (нпр. - оцена ученика).

Сада, да би решили ову врсту проблема, програмери и научници развили су неке програме или алгоритме који би се могли користити на подацима да би предвидјели. Ови алгоритми се могу поделити на линеарне и нелинеарне или на дрвеће засноване алгоритме. Линеарни алгоритми попут линеарне регресије и логистичке регресије обично се користе када постоји линеарни однос између функције и циљне променљиве, док подаци који показују нелинеарне шаре, методе засноване на дрвету, као што су стабло одлучивања, случајна шума, повећавање градијента, итд., преферирају се.

До сада смо имали кратку интуицију о машинском учењу. Сада бисте научили неке од његових унапред програмираних алгоритама које бисте могли користити у вашем следећем пројекту.

Алгоритми

Постоје бројни алгоритми машинског учења који су тренутно на тржишту и само ће се повећати с обзиром на количину истраживања која се раде у овој области. Линеарна и логистичка регресија углавном су први алгоритми које научите као Дата Сциентист а затим напреднији алгоритми.

Испод су неки од алгоритама машинског учења, заједно са примерцима исјечака кода у питхон-у.

1. Линеарна регресија

Као што име сугерира, овај алгоритам може се користити у случајевима када је циљна варијабла која је у природи континуирана линеарно зависна од зависних варијабли. Представља га -

и = а * к + б + е, где је и циљна варијабла коју покушавамо предвидјети, а је пресретање и б је нагиб, к је наша зависна варијабла која се користи за израду предвиђања. Ово је једноставна линеарна регресија јер постоји само једна независна променљива. У случају вишеструке линеарне регресије, једначина би била -

y = a1*x1 + a2*x2 + …… + a(n)*x(n) + b + e

Овде је е израз грешке и а1, а2 .. а (н) су коефицијенти независних променљивих.

За процену перформанси модела користи се метрика која у овом случају може бити грешка средње квадратне грешке која је квадратни корен средње вредности суме разлике стварне и предвиђене вредности.

Циљ линеарне регресије је проналажење најбоље подесне линије која би умањила разлику између стварних и предвиђених тачака података.

Линеарна регресија може бити написана на Питхону као ниже -

2. Логистичка регресија

У погледу одржавања линеарног односа, исти је као и Линеарна регресија. Међутим, за разлику од Линеарне регресије, циљна варијабла у Логистичкој регресији је категоричке тј. Бинарне, мултиномске или ординалне природе. Избор функције активације важан је у Логистичкој регресији, а за проблеме бинарне класификације користи се дневник квота у корист, тј. Користи се сигмоидна функција.

У случају проблема с више класа, софтмак функција се преферира, јер сигмоидна функција захтијева пуно времена за рачунање.

Метрика која се користи за процену проблема класификације је углавном Тачност или РОЦ кривуља. Што је више подручја испод РОЦ-а, бољи је модел. Насумични граф би имао АУЦ од 0, 5. Вредност 1 указује на већину тачности, док 0 означава најмању тачност.

Логистичка регресија се у учењу може записати као -


3. К-Најближи суседи

Алгоритми машинског учења могу се користити и за проблеме класификације и за регресију. Идеја иза КНН методе је да она предвиди вредност нове тачке података на основу својих К Најближих суседа. К је генерално пожељан као непаран број да би се избегао било какав сукоб. Док се класификује било која нова тачка података, у обзир се узима класа са највишим начином рада у суседима. Док се за регресијски проблем сматра средња вредност.

Сазнао сам да се КНН пише као -


КНН се користи у изради механизма препорука.

4. Подршка векторских машина

Алгоритам за класификацију где хиперплана раздваја две класе. У проблему бинарне класификације два вектора из две различите класе сматрају се векторима подршке, а хиперплана се црта на максималној удаљености од носивих вектора.

Као што видите, једна линија раздваја две класе. Међутим, у већини случајева подаци не би били тако савршени и једноставна хиперплана не би могла одвојити класе. Због тога морате подесити параметре као што су Регуларизатион, Кернел, Гамма и тако даље.

Кернел може бити линеаран или полином у зависности од начина раздвајања података. У овом случају, кернел је линеарне природе. У случају регуларизације, требате одабрати оптималну вредност Ц, јер би висока вредност могла довести до прекомерног уклапања, док би мала вредност могла да подеси модел. Утицај једног примера тренинга је дефинисан од стране Гамме. Бодови близу линије сматрају се високом гама и обрнуто за слабу гама.

У склеарну је СВМ записан као -


5. Наивни Баиес

Дјелује на принципу Баиесове теореме која проналази вјероватност догађаја ако се узму у обзир истински услови. Баиесова теорема представљена је као -

Алгоритам се назива Наиван јер верује да су све променљиве независне и да присуство једне променљиве нема никакве везе са другим променљивим што никада није случај у стварном животу. Наиве Баиес може се употребити у класификацији е-поште и у класификацији текста.

Наиве Баиес код у Питхон-у -

6. Дрво одлуке

Коришћен и за проблеме класификације и регресије, алгоритам стабла одлучивања један је од најједноставнијих и најлакше интерпретираних алгоритама машинског учења. На њега не утичу одметници или недостајуће вриједности и могу захватити нелинеарне односе између зависних и независних варијабли.

Да би се изградило стабло одлука, све функције се испрва разматрају, али значајка са максималним добитком информација узима се као завршни коријенски чвор на основу којег се врши узастопно дијељење. Ово цепање наставља се на подређеном чвору на основу максималних критеријума информација и оно траје све док све инстанце нису класификоване или се подаци не могу даље делити. Стабла одлучивања често су склона прекомерном уградњи и зато је потребно подесити хиперпараметар попут максималне дубине, мин чворова листа, минималних узорака, максималних карактеристика и тако даље. Да би се смањило прекомерно уклапање, постоји похлепни приступ који поставља ограничења на сваком кораку и бира најбоље могуће критеријуме за тај подел. Постоји још један бољи приступ под називом Обрезивање, где се дрво прво гради до одређене унапред дефинисане дубине, а затим почињу од дна, чворови се уклањају ако не побољшају модел.

У склеарну се стабла одлука кодирају као -



7. Случајна шума

Да би се смањило прекомерно уклапање у стабло одлука, потребно је смањити одступање модела и на тај начин је дошло до концепта пакирања. Пребацивање је техника у којој се излаз неколико класификатора узима за коначни излаз. Рандом Форест је једна таква метода сакупљања података у којој се скуп података узоркује у више скупова података, а карактеристике се одабиру насумично за сваки скуп. Затим се на сваки узорак података примењује алгоритам стабла одлучивања како би се добио излаз из сваког режима. У случају проблема са регресијом, узима се средња вредност резултата свих модела док се у случају проблема са класификацијом класификује тачка података класа која добије максималан глас. На случајну шуму не утичу одметници, недостају вредности у подацима, а такође помаже у смањењу димензија. Међутим, није разумљиво који је недостатак за Рандом Форест. На Питхон-у бисте могли да кодујете Рандом Форест као -


8. К-значи кластерирање

До сада смо радили са проблемима учења под надзором, где за сваки улаз постоји одговарајући излаз. Сада бисмо научили о ненадзираном учењу где су подаци неозначени и потребно их је разврстати у одређене групе. На располагању је неколико техника групирања. Међутим, најчешћи од њих је кластерисање К-средстава. Инк-значи, к односи се на број кластера које је потребно подесити пре одржавања максималне варијанце у скупу података. Једном када је к постављен, центроиди се иницијализирају. Центроиди се затим више пута подешавају тако да је растојање између тачака података у центроиду максимално, а размак између две одвојене максималан. Еуклидска удаљеност, Манхаттанска удаљеност, итд., Неке су од формула које се користе у ту сврху.

Вредност к се може наћи из методе лакта.

К-значи кластерирање се користи у индустријама е-трговине где се купци груписују на основу њихових образаца понашања. Такође се може користити у Риск Аналитицс. Испод је питхон код -


Закључак: Алгоритми машинског учења

Дата Сциентист је најсексепилнији посао у 21. веку, а машинско учење је сигурно једно од његових кључних подручја експертизе. Да бисте били научник података, потребно је поближе разумети све ове алгоритме, као и још неколико нових техника, попут дубоког учења.

Препоручени чланци

Ово је водич за алгоритме машинског учења. Овде смо разговарали о концепту, категоријама, проблемима и различитим алгоритмима машинског језика. Можете и да прођете кроз друге наше Предложене чланке да бисте сазнали више -

  1. Технике машинског учења
  2. Шта је дубоко учење
  3. Дата Сциентист вс Машинско учење
  4. Надзирано учење вс Ненадзирано учење
  5. Машинско учење хиперпараметра
  6. Шта је појачано учење?
  7. Најчешће коришћене технике ансамблиног учења
  8. Комплетан водич за примере алгоритма Ц ++
  9. Водич кроз фазе животног циклуса машинског учења

Категорија: