Увод у алгоритме науке о подацима

Опис на високом нивоу основних алгоритама који се користе у Дата Сциенце-у. Као што већ знате наука о подацима је поље проучавања где се одлуке доносе на основу увида који добијамо из података уместо класичних детерминираних приступа заснованих на правилима. Обично можемо поделити задатак машинског учења у три дела

  • Прибављање података и мапирање пословног проблема,
  • Примјена техника машинског учења и посматрање метрике перформанси
  • Тестирање и примена модела

У целом овом животном циклусу користимо различите алгоритме науке података да бисмо решили задати задатак. У овом чланку ћемо поделити најчешће коришћене алгоритме на основу њихових врста учења и имаћемо дискусију о њима на високом нивоу.

Врсте алгоритама науке о подацима

На основу методологија учења можемо једноставно поделити алгоритме машинског учења или науке о подацима у следеће врсте

  1. Надзирани алгоритми
  2. Ненадгледани алгоритми

1. Надзирани алгоритми

Као што име каже, надгледани алгоритми су класа алгоритама машинског учења у којој се модел тренира са обележеним подацима. На пример, на основу историјских података желите да предвидите да ли ће купац испунити зајам или не. Након предрадње и инжењеринга обележених података, надгледани алгоритми се обучавају преко структурираних података и тестирају на новој тачки података или у овом случају предвиђају неплаћање кредита. Заронимо се у најпопуларније алгоритме надгледања машинског учења.

  • К Најближи суседи

К најближи суседи (КНН) један је од најједноставнијих, али моћних алгоритама машинског учења. То је надзирани алгоритам у којем се класификација врши на основу к најближих података. Идеја иза КНН је да се сличне тачке групирају заједно, мерењем својстава најближих тачака података можемо класификовати тестну тачку података. На примјер, рјешавамо стандардни проблем с класификацијом гдје желимо предвидјети да дата точка припада класи А или класи Б.Лет к = 3, сада ћемо тестирати 3 најближе податковне точке тестне точке података, ако двије припадају класи А точку података теста ћемо прогласити класу А, у супротном класу Б. Права вредност К пронађена је унакрсном валидацијом. Има линеарну временску сложеност, па се не може користити за апликације са малим кашњењем.

  • Линеарна регресија

Линеарна регресија је алгоритам науке о надзираним подацима.

Излаз:

Променљива је континуирана. Идеја је пронаћи хиперплану у којој је максимални број тачака у хиперпланији. На пример, предвиђање количине кише је стандардни регресијски проблем где се може користити линеарна регресија. Линеарна регресија претпоставља да је однос између независних и зависних варијабли линеарни и да постоји врло мало или нимало мултиколинеарности.

  • Логистичка регресија

Иако назив каже регресија, логистичка регресија је алгоритам класификације који се надгледа.

Излаз:

Геометријска интуиција је да можемо одвојити различите налепнице класе помоћу линеарне границе одлуке. Излазна варијабла логистичке регресије је категорична. Имајте на уму да не можемо користити средњу квадратну грешку као трошковну функцију за логистичку регресију, јер је неконвексна за логистичку регресију.

  • Суппорт Вецтор Мацхине

У логистичкој регресији, наш главни мото био је пронаћи линеарну раздвајајућу површину.

Излаз:

Можемо сматрати векторску машину за подршку као продужетак ове идеје где треба да нађемо хиперплану која максимализује маржу. Али шта је маржа? За вектор В (површину одлучивања коју требамо смислити) нацртамо две паралелне линије на обе стране. Удаљеност између ове две линије назива се маргином. СВМ претпоставља да су подаци линеарно раздвојиви. Иако можемо да користимо СВМ за нелинеарне податке такође користећи Кернел трик.

  • Дрво одлуке

Стабло одлука је угнијежђени класификатор Иф-Елсе који користи структуру графа попут стабла за доношење одлуке. Дрвећа одлука су веома популарна и један од најчешће коришћених алгоритама за стројно учење под надзором у читавој области науке о подацима. Омогућава бољу стабилност и тачност у већини случајева упоредно од осталих алгоритама који се надгледају и робусне су за одласке. Излазна варијабла стабла одлука је обично категорична, али се такође може користити за решавање регресијских проблема.

  • Ансамбли

Ансамбли су популарна категорија алгоритама науке података у којима се више модела користи заједно за постизање бољих перформанси. Ако сте упознати са Кагглеом (Гооглеова платформа за вежбање и такмичење у изазовима науке о подацима), наћи ћете да већина победничких решења користи неку врсту ансамбла.

Грубо можемо поделити у следеће категорије

  • Торба
  • Појачавање
  • Слагање
  • Каскадно

Насумично дрвеће за одлучивање у шумама и градијентима су примери неких популарних алгоритама ансамбла.

2. Ненадзоровани алгоритми

Ненадзорани алгоритми користе се за задатке у којима су подаци неозначени. Најпопуларнији случај употребе ненадзираних алгоритама је кластерирање. Кластерирање је задатак груписања сличних тачака података без ручне интервенције. Расправимо овде о неким од популарних алгоритама машинског учења без надзора

  • К значи

К Меанс је рандомизирани неодржавани алгоритам који се користи за кластерирање. К Меанс слиједи доље наведене кораке

1.Инитиализирати К тачке насумично (ц1, ц2..цк)

2. За сваку тачку (Кси) у скупу података

Изаберите најближи Ци (и = 1, 2, 3..к)

Додајте Кси у Ци

3. Прерачунајте центроид користећи одговарајуће метрике (тј. Интракластер удаљеност)

4, Поновите корак (2) (3) док се не конвергирају

  • К значи ++

Корак иницијализације у К значи чисто случајно и на основу иницијализације, групирање се драстично мења. К значи ++ решава овај проблем иницијализацијом к на вероватноће уместо чисте рандомизације. К значи ++ је стабилнија од класичне К значи.

  • К Медоидс:

К медоиди су такође алгоритам за групирање заснован на К средствима. Главна разлика између њих је центроида К значи да не постоји нужно у скупу података што није случај за К медоиде. К медоиди нуде бољу интерпретацију кластера. К значи минимизира укупну квадратну грешку, док К медоиди минимизирају различитост између тачака.

Закључак

У овом чланку смо разговарали о најпопуларнијим алгоритмима машинског учења који се користе у пољу науке о подацима. Након свега овога на памет вам може пасти питање: ' Који је алгоритам најбољи? ' Јасно да овде нема победника. То искључиво зависи од заданог задатка и пословних захтева. Као најбоља пракса увек почиње најједноставнијим алгоритмом и сложеност постепено повећава.

Препоручени чланци

Ово је водич за алгоритме науке о подацима. Овде смо расправљали о прегледима алгоритама науке о подацима и две врсте алгоритама науке о подацима. Можете и да прођете кроз наше дате чланке да бисте сазнали више -

  1. Дата Сциенце Платформ
  2. Језици науке о подацима
  3. Алгоритми класификације
  4. Алгоритми за рударјење података
  5. Најчешће коришћене технике ансамблиног учења
  6. Једноставни начини за креирање стабла одлука
  7. Комплетан водич животног циклуса науке о подацима

Категорија: