Увод у Хадооп алтернативе

Апацхе Хадооп је монструозан оквир који користи неколико других компоненти као што су ХДФС, Хиве, Спарк, ИАРН и Зоокеепер. Користи се за обраду и анализу података преузетих из унутрашњих или екстерних извора. Може да скалира од неколико машина или сервера до хиљаде њих. Постоји много уграђених функција библиотеке које могу открити и рјешавати кварове.

Компоненте Хадоопа

1) Хадооп дистрибуирани систем датотека (ХДФС):

Ово је спремник података у Хадоопу. Дјелује на принципу дистрибуираних података, гдје се огромни сетови података дијеле на мале дијелове и похрањују на више машина у кластеру.

2) МапРедуце:

То је програмски модел за паралелно извршавање анализа на подацима који се налазе у различитим чворовима кластера.

3) кошница:

Оквир отвореног кода који се користи за испитивање структурираних података користећи језик кошнице. Функција индексирања користи се за убрзавање процеса упита.

4) Амбари:

Платформа за праћење здравља кластера и аутоматизацију рада. Има једноставно веб сучеље и може се лако инсталирати и конфигурирати.

Листа алтернатива Хадооп

Испод су различите Хадооп алтернативе које су следеће:

Батцх Процессинг

Овде се обрада врши само на архивским подацима. На пример, финансијска ревизија и цензус су анализа урађена на старим подацима како би се боље предвидјело будуће резултате. Ови подаци могу садржати милијарде редова и ступаца. Пакетна обрада је најприкладнија за велику обраду података без потребе за анализом у стварном времену.

Обрада у реалном времену

Такође је позната и као Стреам-Процессинг. Овде се подаци повремено обрађују како се генеришу како би се омогућио брзи увид у вјероватне исходе. Откривање земљотреса и берзе су најбољи примјери гдје је анализа у стварном времену нужна.

Апацхе Спарк

Спарк је оквир који се користи заједно са Хадооп-ом за обраду података серије или у стварном времену на кластерисаним машинама. Може се користити и као самостално преузимање и чување података на трећим серверима без употребе ХДФС-а. То је производ отвореног кода. Омогућава АПИ-је који се пишу користећи СЦАЛА, Р или Питхон који подржавају општу обраду. За обраду структурираних података може се користити Спарк-СКЛ. Спарк Стреаминг изводи пријеко потребну аналитику у стварном времену. Спарк пружа подршку машинском учењу помоћу МЛИБ-а. На крају, обрађени подаци могу се прегледати користећи Грапхик.

Најистакнутија карактеристика Спарк-а је обрада у меморији. Читава обрада података одвија се у меморији, а не на диску. Овом методом се штеди време читања и уписивања улаза на диск и излаз са њега. Искра је муњевита и скоро је 100 пута бржа од Хадооп обраде. Читава функција је дефинисана и поднесена у контекст искре. Тек тада, обрада почиње испочетка. Ова метода је позната као Лази-Екецутион. Кафка, Флуме се користе као улази за стриминг података. Спарк може да користи структуриране или неструктуриране податке за анализу. Струје података су гомила података за одређени временски интервал у Спарк Стреаминг-у. Претварају се у шарже и шаљу се Спарк Енгине-у на обраду. Структурирани подаци се претварају у оквире података пре употребе Спарк-СКЛ-а за даљу анализу.

Апацхе Сторм

Апацхе Сторм је такође једна од алтернатива Хадоопа која је најприкладнија за дистрибуцију у реалном времену за анализу. Једноставна је за подешавање, прилагођена корисницима и не представља губитак података. Олуја има врло велику моћ обраде и пружа ниско кашњење (обично у секунди) у поређењу с Хадооп-ом.

Детаљније ћемо погледати ток олује:

  • Топологија олује (слична ДАГ-у, али физички план извршења) се доставља Нимбусу (Главни чвор).
  • Задаци и редослед којим се треба изводити подносе се Нимбусу.
  • Нимбус равномерно распоређује расположиве задатке надзорницима (изљевима), а поступак обављају раднички чворови (вијци).
  • Здравље изљева и вијака непрекидно се прати путем откуцаја срца. Једном када умре надзорник, Нимбус задатак додељује другом чворишту.
  • Ако Нимбус умре, алати за праћење аутоматски га поново покрећу. У међувремену, супервизори настављају са извршавањем задатака који су им раније додељени.
  • Када се Нимбус поново покрене, наставља да ради од места на ком се зауставио. Дакле, нема губитка података и сваки податак пролази кроз топологију барем једном.
  • Топологија наставља да ради осим док се Нимбус не укине или насилно не искључи.
  • Сторм користи Зоокеепер за надгледање Нимбуса и осталих надзорних чворова.

Велики упит

Базе података се користе за трансакцијску обраду. Менаџери креирају извештаје и анализирају податке из различитих база података. Складишта података уведена су за прикупљање података из више база података у читавој организацији. Гоогле је развио Велики упит који је складиште података којим управља лично. За руковање веома сложених упита можда ће требати сервери високих перформанси и Ноде машине које могу скупо коштати. Постављање инфраструктуре може потрајати и до неколико седмица. Једном када се достигне максимални праг, мора се смањити. Да бисте превазишли ове проблеме, Велики упит обезбеђује складиштење у облику Гоогле облака. Радни чворови се скалирају до величине центра података ако је потребно да би извршили сложени упит у року од неколико секунди. Плаћате за оно што користите тј. Упит. Гоогле води рачуна о ресурсима и њиховом одржавању и сигурности. Покретање упита у нормалним базама података може трајати од неколико сати до сати. Велики упит обрађује податке много брже и углавном је погодан за стриминг података као што су онлине играње и Интернет ствари (ИоТ). Брзина обраде је висока као милијарде редова у секунди.

Престо

Престо упит се може користити за комбиновање података из различитих извора широм организације и њихово анализирање. Подаци могу бити смештени у кошници, РДБМС-у или Цассандри. Престо је најприкладнији за аналитичаре који цео извештај очекују за неколико минута. Архитектура је аналогна класичном систему за управљање базама података уз употребу више чворова преко кластера. Њу је развио Фацебоок за обављање анализа и проналажење увида из њихових унутрашњих података, укључујући њихово складиште података од 300 ПБ. Више од 30.000 упита извршава се на њиховим подацима за скенирање преко петабајта дневно. И друге водеће компаније попут Аирбнб и Дропбок такође користе Престо.

Препоручени чланак

Ово је водич за Хадооп алтернативе. Овде смо расправљали о компонентама Хадоопа, серијске обраде и обраде Хадооп алтернатива у реалном времену. Такође можете погледати следеће чланке да бисте сазнали више:

  1. Хадооп Администраторски послови
  2. Хадооп вс СКЛ Перформанце
  3. Каријера у Хадоопу
  4. Хадооп вс Спарк
  5. Хадооп Администратор | Вештине и каријера

Категорија: