Увод у методе рударјења података

Подаци се свакодневно повећавају у огромним размјерима. Али сви подаци прикупљени или прикупљени нису корисни. Значајни подаци морају бити одвојени од бучних података (бесмислени подаци). Овај процес раздвајања врши се копањем података.

Шта је Дата Мининг?

Ископавање података је процес вађења корисних информација или знања из огромне количине података (или великих података). Јаз између података и информација смањен је употребом различитих алата за вађење података. Ископавање података може се такође назвати откривањем знања из података или КДД .

Извори: - ввв.куес10.цом

Ископавање података може се извести на различитим врстама база података и складишта информација као што су релацијске базе података, складишта података, трансакцијске базе података, протоци података и још много тога.

Различити методи вађења података:

Много је метода које се користе за Дата Мининг, али кључни корак је одабрати одговарајућу методу према њима у складу са пословањем или изјавом проблема. Ове методе вађења података помажу у предвиђању будућности, а затим у доношењу одлука у складу с тим. Они такође помажу у анализирању тржишних кретања и повећању прихода компаније.

Неки методи за вађење података су:

  • Удружење
  • Класификација
  • Анализа кластера
  • Предвиђање
  • Секвенцијални обрасци или праћење узорака
  • Дрвећа одлучивања
  • Вањска анализа или анализа аномалије
  • Неуронске мреже

Дозволите да разумемо сваку методу вађења података, једну по једну.

1. Удружење:

То је метода која се користи за проналажење повезаности између две или више ставки идентификовањем скривеног обрасца у скупу података, а тиме се назива и анализом односа . Ова метода се користи у анализи тржишних корпи да се предвиди понашање купца.

Претпоставимо да маркетинг менаџер у супермаркету жели да утврди који се производи често купују заједно.

Као пример,

Купује (к, „пиво“) -> купује (к, „чипс“) (подршка = 1%, поверење = 50%)

  • Овде к представља купца који заједно купује пиво и чипс.
  • Повјерење показује сигурност да ако купац купи пиво, постоји 50% шансе да и он купи чипс.
  • Подршка значи да је 1% свих анализираних трансакција показало да су пиво и чипс купљени заједно.

Може се узети у обзир много сличних примера попут хлеба и путера или рачунара и софтвера.

Постоје две врсте правила о придруживању:

  • Правило једнодимензионалног придруживања: Ова правила садрже један атрибут који се понавља.
  • Правило вишедимензионалног придруживања: Ова правила садрже више атрибута који се понављају.

хттпс://бит.ли/2Н61гзР

2. Класификација:

Ова метода вађења података користи се за разликовање ставки у скупинама података у класе или групе. Помаже да се прецизно предвиди понашање предмета у групи. То је процес у два корака:

  • Корак учења (фаза тренинга): У овом случају алгоритам за класификацију гради класификатор анализом скупа тренинга.
  • Корак класификације: Подаци испитивања се користе за процјену тачности или прецизности правила класификације.

На пример, банкарска компанија користи да идентификује подносиоце захтева за кредит са ниским, средњим или високим кредитним ризиком. Слично томе, медицински истраживач анализира податке о раку да би предвидио који лек треба да препусти пацијенту.

Извори: - ввв.туториалспоинт.цом

3. Анализа кластерирања:

Кластерирање је готово слично класификацији, али се у овим кластерима праве у зависности од сличности података. Различити кластери имају различите или неповезане објекте. Названа је и као сегментација података јер подељује огромне скупове података у кластере у складу са сличностима.

Постоје различите методе кластерирања које се користе:

  • Хијерархијске агломеративне методе
  • Методе засноване на мрежи
  • Методе поделе
  • Методе засноване на моделу
  • Методе засноване на густоћи

Сличан пример подносилаца захтева за кредит такође се може овде размотрити. Постоје неке разлике које су приказане на слици испод.

хттпс://бит.ли/2Н6аЗпП

4. Предвиђање:

Ова метода се користи за предвиђање будућности на основу прошлих и садашњих трендова или скупа података. Предвиђање се углавном користи комбинацијом других метода вађења података као што су класификација, подударање образаца, анализа трендова и однос.

На пример, ако би директор продаје супермаркета желео да предвиди износ прихода који би сваки артикал створио на основу података о прошлој продаји. Моделира континуирану функцију која предвиђа недостајуће нумеричке вриједности података.

Извори: - дата-мининг.пхилиппе-фоурниер

Регресијска анализа је најбољи избор за обављање предвиђања. Може се користити за постављање односа између независних и зависних варијабли.

5. Секвенцијални обрасци или праћење узорака:

Ова метода вађења података користи се за идентификацију образаца који се често јављају током одређеног временског периода.

На пример, менаџер продаје одевне компаније види да се изгледа да јакне повећавају непосредно пре зимске сезоне, или да се продаја у пекари повећава током божићних или новогодишњих ноћи.

Погледајмо пример са графиком

Извори: - дата-мининг.пхилиппе-фоурниер-вигер

6.Децисион Дрвеће:

Стабло одлуке је структура стабла (као што му и име каже), где

  • Сваки унутрашњи чвор представља тест атрибута.
  • Бранцх означава резултат теста.
  • Терминални чворови садрже ознаку класе.
  • Највиши чвор је коријенски чвор који има једноставно питање које има два или више одговора. У складу с тим, дрво расте и ствара се дијаграм тока као структура.

Извори: - ввв.туториалриде.цом

У овој одлуци влада дрвећа класификује грађане млађе од 18 година или старији од 18 година. То би им помогло да одлуче да ли треба да се изда дозвола одређеном грађанину или не.

7.Различна анализа или анализа аномалије:

Ова метода вађења података користи се за идентификацију података који нису у складу с очекиваним обрасцем или очекиваним понашањем. Ове неочекиване ставке података сматрају се одласцима или буком. Они су корисни у многим доменима попут откривања превара на кредитној картици, откривања провале, откривања кварова итд. То се још назива и Оутлиер Мининг .

На пример, претпоставимо да је графикон испод направљен помоћу неких скупова података у нашој бази података.

Тако је исцртана најбоља линија. Тачке које леже у близини линије показују очекивано понашање, док је тачка далеко од линије Оутлиер.

Ово би помогло откривању аномалија и предузимању могућих радњи у складу с тим.

хттпс://бит.ли/2ГргјДП

8. Неурална мрежа:

Ова метода или модел за вађење података заснован је на биолошким неуронским мрежама. То је збирка неурона попут процесних јединица са пондерисаним везама међу њима. Користе се за моделирање односа између улаза и излаза. Користи се за класификацију, регресијску анализу, обраду података итд. Ова техника делује на три стуба -

  • Модел
  • Алгоритам учења (надзиран или ненадзоран)
  • Функција активирања

Извори: - ввв.саедсаиад.цом

Препоручени чланци

Ово је водич за методе рударјења података. Овде смо на примеру објаснили шта је дата мининг и различите врсте метода дата Мининг. Такође можете погледати следеће чланке да бисте сазнали више -

  1. Софтвер за велике податке аналитике
  2. Питања за интервју о структури података
  3. Важне технике вађења података
  4. Дата Мининг Арцхитецтуре

Категорија: