Шта је аналитика података?
Анализа података је процес откривања кључних увида и драгоцених закључака из огромне количине података прикупљених или прикупљених из различитих извора како би се подржала доношење одлука. Повећана рачунска снага, велика брзина обраде. Појава интерактивних интерфејса крајњег корисника и доказана ефикасност расподељене рачунарске парадигме за обраду великих делова података направљена је аналитиком података да би се унапредила у свим доменима, на првом месту у области трговине на мало, банкарства, здравства, логистике, одбране, јавне управе итд.
Врсте аналитике података
Процес аналитике података субјективно је категорисан у три врсте на основу сврхе анализе података као
- Дескриптивна аналитика
- Предиктивна аналитика
- Пресцриптиве Аналитицс
Функције горе наведених врста Аналитике описане су у наставку:
1. Дескриптивна аналитика
Дескриптивна аналитика фокусирана је на сумирање прошлих података ради добивања закључака. Најчешће коришћене мере за карактеризацију дистрибуције историјских података квантитативно укључују
- Мере централне тенденције - средња, средња, квартила, начин.
- Мере променљивости или ширења - домет, међуквартилни опсег, проценти.
У новије време, потешкоће и ограничења која се односе на прикупљање, чување и разумевање огромних количина података превазилазе се статистичким закључивањем. Генерализовани закључци о статистици података о становништву изводе се коришћењем метода узорковања заједно са применом централне теорије ограничавања.
Водећа телевизијска кућа сакупља преносе детаље о насумично изабраним бирачима на излазу у анкетну станицу на дан избора како би извукла статистичке закључке о преференцијама целог становништва.
Поновљено узорковање података о популацији резултира комадима узорака довољно велике величине узорка. Кластерирано узорковање је углавном пожељно да би се створили добро слојевити, непристрасни представници података о популацији. Статистичка мера интереса се израчунава на узорцима узоркованих података како би се добила дистрибуција статистичких вредности узорка која се назива расподјела узорковања. Карактеристике расподјеле узорка повезане су са подацима из података о популацији користећи централну теорију ограничавања.
2. Предиктивна аналитика
Предицтиве Аналитицс користи обрасце у историјским или прошлим подацима како би проценио будуће исходе, идентификовао трендове, открио потенцијалне ризике и прилике или предвидио понашање процеса. Како су случајеви употребе предвиђања вјеројатни по природи, ови приступи користе вјеројатне моделе за мјерење вјероватности свих могућих исхода.
ЦхатБот у Порталу финансијске фирме за кориснике проактивно учи намеру клијента или потребу да се заснива на његовим / њеним досадашњим активностима у њеном веб домену. Уз предвиђени контекст, цхатБот интерактивно конвертира с купцем како би брзо пружио апт услуге и постигао боље задовољство корисника.
Поред сценарија екстраполације за предвиђање онога што ће се десити у будућности на основу доступних прошлих података, мало је апликација које претпостављају пропуштене уносе података уз помоћ доступних узорака података. Ова апроксимација пропуштених вредности унутар распона датих узорака података технички се назива Интерполација.
Снажна апликација за уређивање слика подржава реконструкцију пропуштених дијелова текстуре због супер наметнутог текста интерполирањем функције функције на пропуштени блок. Функција функције може се протумачити као математички запис узорака у текстури изобличене слике.
Значајни фактори који утичу на избор модела / стратегија предвиђања су:
- Прецизност предвиђања: То преноси степен блискости између предвиђене вредности и стварне вредности. Нижа варијанца разлике између предвиђене вредности и стварне вредности подразумева већу тачност предиктивног модела.
- Брзина предвиђања: Приоритет је висок у апликацијама за праћење у стварном времену
- Стопа учења модела: То зависи од сложености модела и израчунавања који су укључени у прорачун параметара модела.
3. Пресцриптиве Аналитицс
Прескриптивна аналитика користи сазнања која су откривена као део описне и предиктивне анализе да би препоручила ток акција који су свесни контекста. Напредне статистичке технике и рачунски интензивне методе оптимизације примењују се како би се разумела дистрибуција процењених предвиђања.
Прецизно се оцењује утицај и корист сваког исхода, који се процењују током предиктивне аналитике, како би се донеле хеуристичке и временски осетљиве одлуке за одређени скуп услова.
Конзултантска фирма за тржиште акција врши СВОТ (снагу, слабост, могућности и претњу) анализу предвиђених цена за акције у портфељу инвеститора и својим клијентима препоручује најбоље опције куповине и продаје.
Процесни ток у Аналитици података
Процес аналитике података има различите фазе обраде података као што је објашњено у даљем тексту:
1. Вађење података
Унос података из више извора различитих типова, укључујући веб странице, базе података, старе верзије, резултира уношењем скупова података различитих формата. Формати података који су унесени у ток аналитике података могу се широко класификовати као
- Структурирани подаци имају јасну дефиницију типова података заједно са придруженом дужином поља или разграничиоцима поља. Ова врста података може се лако упитати као садржај смештен у релационој бази података (РДБМС)
- Полу структурираним подацима недостаје прецизна дефиниција изгледа, али елементи података могу се идентификовати, одвајати и груписати на основу стандардне шеме или других правила метаподатака. КСМЛ датотека користи означавање за задржавање података, док Јавасцрипт датотека нотација датотеке (ЈСОН) садржи податке у паровима име-вредност. НоСКЛ (не само СКЛ) базе података као што је МонгоДБ, али и база кауча такође се користе за чување полуструктурираних података.
- Неструктурирани подаци укључују разговоре на друштвеним мрежама, слике, аудио снимке итд. Традиционалне методе за анализу података не разумеју ове податке. Неструктурирани подаци се чувају у језерима података.
Имплементација рашчламбе података за структуриране и полуструктуриране податке укључена је у различите ЕТЛ алате као што су Аб Инитио, Информатица, Датастаге и отворени извори као што је Таленд.
2. Чишћење и трансформација података
Чишћење рашчлањених података врши се како би се осигурала конзистентност података и доступност релевантних података за касније фазе у току процеса. Главне операције чишћења у анализи података су:
- Детекција и елиминација одметника у количинама података
- Уклањање дупликата у скупу података
- Руковање недостајућим уносима у записима података уз разумевање функционалности или случајева коришћења
- Валидације за дозвољене вредности поља у записима података попут "31. фебруара" не могу бити валидна вредност у било којем од датумских поља.
Очишћени подаци се трансформишу у погодан формат за анализу података. Трансформације података укључују
- Филтер нежељених података.
- Придруживање података дохваћених из различитих извора.
- Агрегација или груписање података
- Снимање података
3. Извођење КПИ / увида
Мининг података, методе дубоког учења користе се за процену кључних показатеља перформанси (КПИ) или за добијање драгоцених увида из очишћених и трансформисаних података. На основу циља аналитике, анализа података се врши помоћу различитих техника препознавања узорака попут к-средстава кластера, СВМ класификације, Баиесових класификатора итд. И модела машинског учења попут Маркових модела, Гауссових модела мешавина (ГММ) итд.
Пробабилистички модели у фази тренинга уче оптималне параметре модела, а у фази валидације модел се тестира коришћењем клипног унакрсног тестирања како би се избегле грешке у преклапању и недовољној уклапању.
Програмски језик који се најчешће користи за анализу података су Р и Питхон. Обе имају богат скуп библиотека (СциПи, НумПи, Пандас) које су отворене за обављање сложених анализа података.
4. Визуализација података
Визуализација података је процес јасне и ефикасне презентације откривених образаца, изведених закључака из података помоћу графикона, цртежа, надзорних плоча и графике.
- Алати за извештавање података попут КликВиев, Таблеау итд., Приказују КПИ и друге изведене метрике на различитим нивоима прецизности.
- Алат за извештавање омогућава крајњим корисницима да креирају прилагођене извештаје помоћу окретних, детаљних опција користећи корисничке интерфејсе за пребацивање и испуштање
- Интерактивне библиотеке за визуелизацију података као што су Д3.јс (документи вођени подацима), ХТМЛ5-Аницхартс итд. Користе се за повећање могућности истраживања анализираних података
Препоручени чланци
Ово је водич за Шта је аналитика података. Овде смо расправљали о различитој врсти аналитике података у току процеса. Можете и да прођете кроз друге предложене чланке да бисте сазнали више -
- Питања и одговори за интервју аналитичара података
- Шта је визуализација података?
- Шта је аналитика великих података?
- Шта је Минитаб?