Разлика између Мали подаци и велики подаци

Мали подаци, нису ништа друго до подаци који су довољно мали и разумљиви за људе у обиму и за форматирање који га чине доступним, информативним и делотворним. Традиционална обрада података не може се бавити великим или сложеним подацима, ови подаци се називају великим подацима. Када количина података расте преко одређеног ограничења, традиционални системи и методологије нису довољни за обраду података или претварање података у користан формат. Због тога се подаци углавном категоришу на два - Мали подаци у односу на велике податке

Упоредни подаци између малих података и великих података (Инфограпхицс)

Испод је 10 најбољих разлика између малих података и великих података

Кључне разлике између малих података и великих података

  • Прикупљање података - обично мали подаци су део ОЛТП система и сакупљају се на више контролисан начин, а затим се убацују у слој кеширања или базе података. Базе података ће читати реплике за подршку непосредних аналитичких упита ако је потребно. Цевовод за прикупљање великих података имаће редове попут АВС Кинесис или Гоогле Пуб / Суб за балансирање података велике брзине. Низводно ће имати проточне канале за аналитику у реалном времену и серијске послове за хладну обраду података.
  • Обрада података - Пошто је већина Малих података генерисаних путем система трансакција, аналитика на врху ће бити оријентисана групно већину времена. У неким ретким случајевима аналитички упити врше се директно на трансакционим системима. Околина великих података имаће и серијске и проточне цевоводе за обраду. Ток се користи за аналитику у стварном времену као што је откривање превара на кредитној картици или предвиђање цене акција. Пакетна обрада која се користи за имплементацију сложене пословне логике помоћу података и напредних алгоритама.
  • Скалабилност - Системи малих података обично се вертикално скалирају. Вертикално скалирање повећава капацитет система додавањем више ресурса истој машини. Вертикално скалирање је скупо, али мање сложено за управљање. Системи великих података углавном зависе од хоризонтално скалабилне архитектуре која омогућава већу окретност уз мање трошкове. Предпопуларне виртуелне машине доступне у облаку чине хоризонтално скалабилне системе још приступачнијим.
  • Моделирање података - Мали подаци генерисани из система трансакција биће у нормализованом облику.ЕТЛ (Ектрацт Трансформ Лоад) цјевоводи података претварају га у схему звијезда или сњежне пахуље у складишту података. Овде се схема увек примењује приликом писања података што је релативно једноставно, јер су подаци структуриранији. Као што је горе поменуто, табеларни подаци су само делић великих података. Овде се подаци понављају много више из различитих разлога, као што су предаја грешке или због одређеног ограничења механизма базе података (На пример, неке базе података подржавају само један секундарни индекс по скупу података). Шема се не примењује приликом писања. Уместо тога, шема се потврђује док читате податке.
  • Спајање складиштења и рачунања - у традиционалним базама података које углавном рукује са малим подацима, складиштење и рачунање су чврсто повезани. Уношење и преузимање података у и из базе података могуће је само путем датог интерфејса. Подаци се не могу ставити директно у датотечни систем базе података или се постојећи подаци не могу упитати користећи друге ДБ моторе. Заправо, ова архитектура увелико помаже у осигуравању интегритета података. Системи великих података имају веома лабав спој између складиштења и рачунања. Обично се подаци чувају у дистрибуираном систему за похрану података као што су ХДФС, АВС С3 или Гоогле ГЦС и израчунавају мотор како би упитили податке или касније изабрали ЕТЛ. На пример, интерактивни упити се могу извршавати помоћу Престо (Линк) и ЕТЛ помоћу Апацхе Хиве на истим подацима.
  • Наука података - алгоритми машинског учења захтевају улазне податке у добро структурираном и правилно кодираном формату, а највећи део времена улазни подаци биће из оба трансакциона система као што су складиште података и велико складиштење података попут језера података. Алгоритми машинског учења који се изводе само на малим подацима биће лако јер је фаза припреме података уска. Припрема и обогаћивање података у окружењу Биг Дата захтева много више времена. Велики подаци пружају пуно могућности експериментирања науке о подацима због велике количине и разноликости података.
  • Сигурност података - сигурносне праксе за мале податке који се налазе у складишту података предузећа или системима трансакција које пружају одговарајући провајдери база података који могу укључивати корисничке привилегије, шифровање података, хеширање итд. Заштита великих података података је много сложенија и захтјевнија. Најбоље сигурносне праксе укључују шифрирање података у мировању и транзиту, изолирање кластер мреже, строга правила контроле приступа итд.

Табела упоређивања малих података у односу на велике податке

Основе поређењаМали подациВелики података
ДефиницијаПодаци који су „мали“ довољно за људско разумевање. У обиму и формату који га чине доступним, информативним и делотворнимСкупови података су толико велики или сложени да се традиционалне апликације за обраду података не могу бавити њима
Извор података● Подаци из традиционалних пословних система попут
Планнинг планирање ресурса предузећа
Манагемент Управљање односима са клијентима (ЦРМ)
● Финансијски подаци попут података о главној књизи
● Подаци о платној трансакцији са веб странице
● Подаци о куповини са места продаје
● Цлицкстреам подаци са веб локација
● Подаци ГПС тока - Подаци о мобилности који се шаљу серверу
● Друштвени медији - фацебоок, твиттер
ЗапреминаВећина случајева у распону од неколико десетина или стотина ГБ.Неки случај малих ТБ (1 ТБ = 1000 ГБ)Више од неколико терабајта (ТБ)
Велоцити (стопа којом се подаци појављују)● Контролиран и стабилан проток података
● Акумулација података је спора
● Подаци могу стићи врло великим брзинама.
● Огромни подаци могу се акумулирати у врло кратком року
РазноликостСтруктурирани подаци у табеларном формату са фиксном шемом и полуструктурирани подаци у ЈСОН или КСМЛ форматуСкупови података велике разноликости који укључују табеларне податке, текстуалне датотеке, слике, видео, аудио, КСМЛ, ЈСОН, записнике, податке сензора итд.
Веродостојност (квалитет података)Садржи мање буке као подаци прикупљени на контролирани начин.Квалитета података обично није загарантована. Прије обраде потребна је ригорозна провјера података.
ВредностПословна интелигенција, анализа и извештавањеСложени рударство података за предвиђање, препоруку, проналажење узорка итд.
Временска варијанцаИсторијски подаци подједнако важе као и подаци представљају солидне пословне интеракцијеУ неким случајевима подаци постају старији (нпр. Откривање преваре).
Локација податакаБазе података у предузећу, локални сервери итд.Углавном у дистрибуираним складиштима у Цлоуду или у екстерним системима датотека.
ИнфраструктураПредвидљива расподјела ресурса. Највише вертикално скалабилни хардверФлексибилнија инфраструктура са хоризонтално скалабилном архитектуром. Оптерећење на систему се јако разликује.

Закључак - Мали подаци у односу на велике податке

Крајњи циљ анализе података је правовремени увид у подршку одлучивању. Категоризовање података у Мали и Велики помаже у решавању изазова у анализирању података сваког света посебно помоћу одговарајућих алата. Линија између две категорије варира од настајућих напредних система за обраду података што чак и велике упите података чине много бржим и мање сложеним.

Препоручени чланци:

Ово је водич за мале податке у односу на велике податке, њихово значење, упоредбу између главе, кључне разлике, табелу упоређивања и закључак. овај чланак укључује све важне разлике између малих података и великих података. Такође можете погледати следеће чланке да бисте сазнали више -

  1. Биг Дата вс Дата Сциенце - како се разликују?
  2. Велики подаци: Важност повезаности аналитике технологије и пословања
  3. Топ 5 великих трендова података које ће компаније морати савладати
  4. 16 Занимљиви савети за претварање великих података у велики успех

Категорија: