Увод у дата мининг

Овде у овом чланку сазнаћемо о уводу у Дата мининг, јер су људи вековима рудили са земље, како би добили све врсте драгоцених материјала. Понекад се током копања ствари откривају из земље које нико није очекивао да пронађе у првом реду. На пример, 1898. године, током ископавања гробнице за проналазак мумија у Саккара, у Египту, пронађен је дрвени артефакт који подсећа на авион. Датирано је из 200. године пре нове ере, пре око 2200 година! Али какве би могуће информације добили из великог низа података? Чак и ако започнемо са минирањем, да ли постоје шансе да из скупа података добијемо неочекиване резултате? Пре тога идемо у то шта је тачно Дата Мининг.

Шта је Дата Мининг?

  • То је у основи вађење виталних информација / знања из великог низа података.
  • Мислите на податке као на велику тло / камениту површину. Не знамо шта је унутра, не знамо да ли се испод стијена налази нешто корисно.
  • У овом уводу у Дата мининг тражимо скривене информације, али без икакве идеје о томе коју врсту информација желимо да пронађемо и за шта планирамо да је једном користимо, налазимо је.
  • Баш као иу концепту традиционалног рударства, и у Дата мининг-у постоје разне технике и алати, који се разликују у зависности од врсте података које рудамо, тако да смо рашчистили шта је то копање података кроз ову тему увода у дата мининг.

Пример Дата Мининг-а

Сазнали смо о уводу у ископавање података у горњем одељку и сада настављамо са примерима вађења података, који су ниже наведени:

  • Дакле, постоји оператор мобилне мреже. Они се саветују са Дата Минер-ом да би ушли у евиденцију позива оператера. Нису одређени конкретни циљеви дата рудару података.
  • Даје се квантитативни циљ проналажења најмање 2 нова обрасца у току месеца.
  • Док рудар података почне да копа по подацима, он проналази образац да има мање међународних позива у среду у поређењу с другим данима.
  • Те информације се деле са руководством и они планирају да сриједом смање међународне тарифе позива и започну кампању.
  • Стопе позива се повећавају, купци су задовољни ниском цијеном позива, више купаца се пријављује и компанија зарађује више! Вин-вин ситуација!

Имајући у виду горњи пример, погледајмо сада различите кораке у вези са вађењем података.

Кораци укључени у Рударство података

Сазнали смо о уводу у ископавање података у горњем одељку и сада крећемо напријед са корацима укљученим у вађење података, који су наведени у наставку:

  • Пословно разумевање

У овом Уводу у ископавање података, разумећемо сваки аспект пословних циљева и потреба. Тренутна ситуација процењује се проналажењем ресурса, претпоставки и других важних фактора. У складу с тим, успостављање доброг увода у план ископавања података ради постизања циљева пословања и рударства података.

  • Разумевање података

У почетку се подаци прикупљају из свих доступних извора. Тада бирамо најбољи скуп података из кога можемо извући податке који би могли бити кориснији.

  • Припрема података

Једном када се скуп података идентификује, он се бира, чисти, конструише и форматира у жељеном облику.

  • Дата Моделинг

То је процес преправљања датих података у складу са захтевима корисника. на припремљеном скупу података може се створити један или више модела и на крају треба пажљиво проценити моделе који укључују све заинтересоване стране да би били сигурни да креирани модели испуњавају пословне иницијативе.

  • Процена

Ово је један од најпотребнијих процеса за вађење података. То укључује пролазак кроз сваки аспект поступка како би се проверила могућа грешка или цурење података у процесу. Такође, нови пословни захтеви могу се подићи због откривених нових образаца.

  • Примена

Значи једноставно представити знање на такав начин да га заинтересовани могу користити када желе. У нашем горњем примјеру, установљено је да је међународних позива сриједом било мање, па су те информације презентиране заинтересованим странама, које су заузврат користиле те информације у своју корист и повећале свој профит.

Технике које се користе у копању података

У горњем делу смо сазнали о увођењу у дата мининг сада напредујемо са техникама кориштеним у вађењу података које су доле наведене:

  • Анализа кластера

Анализа кластера омогућава идентификацију одређене корисничке групе према заједничким карактеристикама у бази података. Ове карактеристике могу укључивати старост, географски положај, ниво образовања и тако даље.

  • Детекција аномалије

Користи се за одређивање када се нешто приметно разликује од уобичајеног узорка. Користи се за уклањање било какве недоследности или аномалије базе података на извору.

  • Регресиона анализа

Ова техника се користи за прављење предвиђања на основу односа унутар скупа података. На пример, човек може да предвиди стопу залиха одређеног производа анализирајући прошлу стопу и узимајући у обзир различите факторе који одређују стопу залиха. Или као што је приказано у даљем тексту, ако имамо податке о висини и тежини различитих особа, тада би с обзиром на било коју висину или тежину могли да одредимо другу вредност.

  • Класификација

Ово се бави стварима на којима су ознаке. Напомена у детекцији кластера, ствари нису имале ознаку у њему и коришћењем дата мининг-а морали смо да их означимо и обликујемо у кластере, али у класификацији постоје постојеће информације које се лако могу класификовати помоћу алгоритма. Пример су филтри за нежељену пошту путем е-поште. Филтар нежељене поште испоручује се и са релевантним и са нежељеним порукама (подаци о обуци). Идентифициране су разлике између њих обје, чиме се омогућава правилно класифицирање будућих порука е-поште.

  • Асоцијативно учење

Користи се за анализу ствари које се обично догађају било у паровима или у већим групама. На пример, људи који имају тенденцију да купују лимун, купују и поморанџе, људи који купују хлеб, купују млеко и тако даље. На тај начин се анализирају куповине свих купаца и ствари које се догађају заједно постављају заједно да би се повећала продаја. Дакле, млеко се ставља близу хлеба, лимун се ставља поред наранџе и тако даље.

Да ли је вађење података етично?

Дакле, планирам викенд за Гоа са пријатељем, претражујем интернет добра места за посету у Гои. Следећи пут кад отворим интернет, нађем огласе за разне хотеле у Гои за боравак.

  • Добра ствар?

Да, Интернет ми је помогао да поједноставим путовање. Уосталом, ако се ипак одлучим да посетим Гоу, морао бих да спавам негде, а оглас који ми приказује хотел је много кориснији од огласа који ми приказује случајну одећу да купим.

  • Лоша ствар?

Да! Зашто би компанија за вађење података, за коју никада раније нисам чула, знала где идем на годишњи одмор. Шта ако никоме нисам рекао о овом путовању, али ево Интернет одједном зна да идем тамо. Истина је да пословни модел компаније за рударство података зависи од тога. Они прикупљају ове податке путем колачића и скрипти, а затим их продају оглашивачима, који заузврат покушавају да ми продају нешто друго (у овом случају хотелску собу).

Тако да може бити добро или лоше у зависности од начина на који посматрамо. Такође, увек можемо да искључимо колачиће или да пошаљемо анонимно у горњем случају. Иако год да је случај, једно је сигурно. Ископавање података је ту да остане.

Препоручени чланци

Ово је водич за Увод у ископавање података. Овде смо расправљали о њеном значењу, техникама и корацима који су укључени у увод у вађење података са примером да бисмо га боље разумели. Такође можете погледати следеће чланке да бисте сазнали више -

  1. Питања за интервјуисање података података
  2. Предиктивна Аналитика вс Мининг података
  3. Увод у науку о подацима
  4. Шта је регресијска анализа?

Категорија: