Увод у Хадооп екосистем

Апацхе Хадооп је систем отвореног кода који поуздано чува и обрађује мноштво информација на многим рачунарским производима. Хадооп је први пут написан у раду и објављен у октобру 2013. као „Гоогле систем датотека“. Доуг Цуттинг, који је тада радио у Иахоо-у, представио је име као Хадооп Екосустав на основу имена слонова играчака његовог сина. Ако сматрамо главном језгром Апацхе Хадооп-а, тада прво може узети у обзир део за чување, који је познат и као Хадооп дистрибуирани датотечни систем (ХДФС), и други део који се обрађује, који је познат као модул за смањење програмирања мапа. Хадооп заправо дели једну огромну датотеку и смешта их у више чворова преко кластера.

Концепт Хадооп екосистема

Апацхе Хадооп оквир углавном држи испод модула:

  1. Хадооп Цоммон: садржи све библиотеке и услужне програме потребне за употребу Хадооп модула.
  2. Хадооп дистрибуирани датотечни систем (ХДФС): То је један од дистрибуираних система датотека који помаже за складиштење огромних података у више машина или робних машина. Такође, пружите велику корисност у случају пропусне ширине, обично пружа врло високу пропусност у врсти агрегата на кластеру.
  3. Хадооп пређа: Уведена је 2012. године. Уводи се углавном за управљање ресурсима на свим системима у роби, чак иу кластеру. На основу способности ресурса дистрибуирала је или заказивала корисничку апликацију према захтевима.
  4. Хадооп МапРедуце: Углавном помаже у обради података великог обима методом програмирања за смањење мапа.

Апацхе Хадооп увек помаже у смањењу ИТ трошкова у смислу обраде и паметног чувања огромних података. Како је Апацхе Хадооп отворени извор и хардвер је често доступан, он нам увек помаже у правилном смањењу ИТ трошкова.

Софтвер отвореног кода + робни хардвер = смањење трошкова за ИТ

На примјер, ако ћемо размишљати о свакодневном пријему 942787 датотека и директорија, за које је потребно 4077936 блокова, укупно 5020723 блокова. Дакле, ако смо конфигурисали најмање 1, 46 ПБ капацитета, тада ће за руковање изнад оптерећења дистрибуирани систем датотека користити 1, 09 ПБ, то значи скоро 74, 85% укупног конфигурираног капацитета, док узмемо у обзир 178 живих чворова и 24 мртва чвора.

Хадооп екосистем углавном је дизајниран за чување и обраду великих података, који обично имају неке кључне карактеристике као што су доле:

  • Запремина

Количина значи величину података који су стварно сачувани и генерисани. Зависи од величине података за коју је утврђено да је скуп података велики или не.

  • Разноликост

Разноликост значи природу, структуру и врсту података који се користе.

  • Велоцити

Велоцити је брзина података који су сачувани и генерисани у одређеном току процеса развоја.

  • Истинитост

Верацити означава квалитет података који су снимљени и такође помаже анализи података да би се достигао жељени циљ.

ХДФС је углавном дизајниран за складиштење веома велике количине информација (терабајта или петабајта) на великом броју машина у кластеру. Увек одржава неке заједничке карактеристике, попут поузданости података, ради на робном хардверу, користећи блокове за смештање датотеке или дела те датотеке, користи модел „писање једном прочитани за многе“.

ХДФС слиједи испод архитектуре с концептом Наме Ноде и Дата Ноде.

Одговорност Име чвора (главног):

- управља простором имена датотека

- одржава конфигурацију кластера

- Одговорно за управљање репликацијом

Одговорност Дата Ноде (Славе):

- Чување података у локалном датотечном систему

- Периодично се враћајте на чвор имена помоћу откуцаја срца

Операција писања ХДФС:

Хадооп слиједи у наставку кораке за писање било које велике датотеке:

  1. Креирајте датотеку и ажурирајте ФС слику након што добијете један захтев за писање датотеке од било којег ХДФС клијента.
  2. Добијте информације о локацији блока или чвору података о подацима из чвора имена.
  3. Пакет напишите на појединачне чворове података паралелно.
  4. Потврдите комплетирање или прихватање писања пакета и пошаљите информације назад клијенту Хадооп-а.

ХДФС цјевовод за репликацију блока:

  1. Клијент дохваћа списак Датанодес-а из Наменоде-а који ће угостити реплику тог блока
  2. Клијент затим усмерава блок података на прву Датаноде
  3. Први Датаноде прима блок, пише га и преноси га на следећи чвор података у цјевоводу
  4. Када су написане све реплике, клијент прелази на следећи блок у датотеци

Толеранција грешке ХДФС:

Један чвор података изненада је пао, у том случају ХДФС има могућност да аутоматски управља тим сценаријем. Прво, сви чворови имена увек примају откуцаје срца из сваког чвора података, ако је некако изгубио један откуцај срца из једног чвора података, сматрајући исти чвор података као доле, одмах подузмите акцију да аутоматски реплицирате све блокове на преосталим чворовима да бисте задовољили репликацију фактор.

Ако чвор имена открије један нови чвор података доступан у кластеру, одмах ребалансира све блокове укључујући и додани чвор података.

Сада је некако име губитак чвора или је пропало, у том случају и резервни чвор који држи једну ФС слику чвора имена одмах репродукује све ФС операције и надограђује назив чвора према захтеву. Али у том случају потребна је ручна интервенција, а цео оквир екосистема Хадооп неколико пута ће бити спуштен да поново постави нови чвор имена. Дакле, у овом случају, чвор имена може бити грешка у једној тачки, да би се избегао овај сценариј ХДФС федерација уводи више кластера постављених именских чворова, а ЗооКеепер може одмах управљати једним алтернативним чвором имена према захтеву.

Примери Хадооп екосистема

Потпуни пример екосистема Хадооп може се правилно објаснити на слици испод:

Подаци могу потјецати из било које врсте извора, као што су складиште података, управљано спремиште докумената, дијељење датотека, уобичајена база података РДМС-а или облак или вањски извори. Сви ти подаци дошли су до ХДФС-а структурно или не-структурно или полу-структуирано. ХДФС похрањује све те податке на дистрибуирани начин, значи похрањивати их у систем дистрибуиране робе врло паметно.

Закључак

Хадооп екосистем углавном је дизајниран за чување и обраду огромних података који су требали представити било који од два фактора између волумена, брзине и разноликости. Чување података у дистрибуираном систему обраде који ради на робном хардверу. С обзиром на потпуни Хадооп процес екосистема, ХДФС дистрибуира блокове података, а Мап Редуце пружа програмски оквир за читање података из датотеке похрањене у ХДФС.

Препоручени чланци:

Ово је водич за Еадосистем Хадооп. Овде смо расправљали о основном концепту Хадооп екосистема, његовој архитектури, ХДФС операцијама, примерима, толеранцији грешака ХДФС итд. Такође можете погледати следеће чланке да бисте сазнали више -

  1. Употребе Хадоопа у стварном свету
  2. Хадооп вс Сплунк
  3. Каријера у Хадоопу
  4. Хадооп вс СКЛ Перформанце

Категорија: