Увод у Хадооп компоненте

Компоненте Хадооп-а су углавном ХДФС, Смањивање мапе, предива. Данас живимо у дигиталном добу у којем је стопа производње података врло висока отприлике ми производимо 2, 5 квинтијона података дневно. Иако се капацитет складиштења дискова повећава, али потражња се није повећала за ову количину података. Да бисмо то превазишли потребно је да паралелно читамо податке, да бисмо то постигли у Хадоопу имамо ХДФС (Хадооп дистрибуирани систем датотека) где се скупови података чувају као блокови у ХДФС-у (за више детаља погледајте одељак ХДФС) да бисмо паралелно читали податке и постигли већа брзина обраде. Обрада података врши се ради проналажења или предвиђања неких значајних информација или добијања неких трендова или образаца. МапРедуце процес се користи да би се постигла жељена информација. Мапа и смањење су две различите фазе обраде података.

Главне компоненте Хадоопа

Главне компоненте Хадоопа су описане у даљем тексту:

1. Хадооп дистрибуирани датотечни систем (ХДФС)

ХДФС је складишни слој за Биг Дата, то је скуп многих машина, сачувани подаци се могу користити за обраду помоћу Хадоопа. Једном када се подаци потисну у ХДФС, можемо их обрађивати у било које време, док време које обрадимо подаци ће остати у ХДФС-у док ручно не избришемо датотеке. ХДФС похрањује податке као блок, минимална величина блока је 128МБ у Хадооп 2.к, а за 1.к је 64МБ. ХДФС реплицира блокове за доступне податке ако су подаци похрањени у једној машини, а ако уређај не успије, подаци се не губе, али да би се то избјегло, подаци се реплицирају на различитим машинама. Фактор репликације према заданим поставкама је 3 и можемо да променимо у ХДФС-сите.кмл или користећи команду Хадооп фс -стреп -в 3 / дир реплицирањем имамо блокове на различитим машинама за велику доступност.
ХДФС је архитектура мастер-славе-а то је НамеНоде као мастер и Дата Ноде као славе. НамеНоде је машина на којој су похрањени сви метаподаци свих блокова похрањених у ДатаНоде.

2. ПРЕД

ИАРН је уведен у Хадооп 2.к, а пре тога Хадооп је имао ЈобТрацкер за управљање ресурсима. Јоб Трацкер је био господар и имао је Трацкер задатака као роб. Јоб Трацкер био је тај који се бринуо за заказивање послова и расподелу ресурса. Програм за праћење задатака користио је бригу о мапама и смањењу задатака, а статус се периодично ажурирао на претраживачу посла. Са типом менаџера ресурса имао је ограничење скалабилности, а истовремено извршење задатака такође је имало ограничење. Ова питања су обрађена у ИАРН-у и она је водила рачуна о расподјели ресурса и распореду послова на кластеру. Извршавање карте Смањите ресурсе за посао у кластеру да бисте добили средства додељена за посао. ИАРН помаже. ПРЕДЊА одређује који се посао ради и на којој се машини ради. Има све информације о доступним језграма и меморији у кластеру, прати потрошњу меморије у кластеру. Интересира с НамеНоде о подацима у којима борави како би донио одлуку о додјели ресурса.

3. МапРедуце

Хадооп екосистем је исплатив, скалабилан и флексибилан начин рада са тако великим скуповима података. Хадооп је оквир који користи одређени програмски модел, назван МапРедуце, ​​за разбијање рачунарских задатака у блокове који се могу дистрибуирати око групе робних машина помоћу Хадооп Дистрибутед Филесистем-а (ХДФС).

МапРедуце је два различита задатка: Мап анд Редуце, ​​Мап претходи фази редуктора. Као што име сугерира, фаза мапа мапира податке у парове кључ-вриједност, као што сви знамо да Хадооп користи кључне вриједности за обраду. Фаза редуктора је фаза у којој морамо применити стварну логику. Поред ове две фазе, такође спроводи фазу померања и сортирања.

1. Маппер

Маппер је класа у којој се улазна датотека претвара у кључеве и пар вриједности за даљњу обраду. Док читате податке он се чита у кључним вредностима само тамо где је кључ померен на мало и вредност је цео запис.

Нпр. Имамо датотеку Диари.ткт у којој имамо написане две линије, тј. Два записа.

Ово је диван дан у којем би требало да уживамо, одступања за 'т' су 0, а за 'в' 33 (бели размаци се такође сматрају карактером), па ће маппер прочитати податке као пар кључа и вредности, ас (кључ, вредност), (0, ово је диван дан), (33, требали бисмо уживати)

2. Редуктор

Редуктор је класа која прихвата кључеве и вредности из резултата фазе мапирања. Кључеви и вредности генерисани од мапе прихватају се као улаз у редуктор за даљу обраду. Редуктор прихвата податке са више мапа. Редуктор агрегира те интермедијарне податке на смањени број кључева и вредности што је крајњи излаз, то ћемо видети у примеру.

3. Возач

Осим класе мапирања и редуктора, потребна нам је још једна класа која је класа возача. Овај је код потребан за МапРедуце јер је мост између оквира и имплементиране логике. Одређује конфигурацију, пут улазних података, пут излазног складиштења и што је најважније које класе мапирања и редуктора треба имплементирати, као и многе друге конфигурације које се постављају у ову класу. нпр. у класи возача можемо одредити сепаратор излазне датотеке као што је приказано у класи возача на примјеру испод.

Пример

Узмимо у обзир да имамо скуп података туристичке агенције, сада морамо израчунати из података колико људи се одлучи за путовање на одређену дестинацију. Да бисмо то постигли, требало би да узмемо одредиште као кључно, а за рачунање ћемо узети вредност као 1. Дакле, у фази мапирања, пресликаћемо одредиште у вредност 1. Сада у редоследу померања и сортирања по мапи, мапираће све вредности у одређени кључ. Нпр. Ако имамо одредиште као МАА, пресликали смо 1 и имамо 2 појаве након померања и сортирања, добит ћемо МАА, (1, 1) где је (1, 1) вредност. Сада у фази редуктора, већ имамо имплементирану логику у фази редуктора да додамо вредности да бисмо добили укупан број карата резервираних за одредиште. Ово је проток МапРедуце.

Испод је приказ снимка заслона реализованог програма за горњи пример.

1. Класа возача

2. Класа мапирања

3. Класа редуктора

Извођење Хадоопа

За извршавање Хадооп-а, прво морамо да направимо јар, а затим можемо да извршимо помоћу наредбе Хадооп јар еампле.јар /инпут.ткт /оутпут.ткт

Закључак

Овде смо разговарали о основним компонентама Хадооп-а као што су ХДФС, Редуцирање мапе и ИАРН. То је расподељени рачунски оквир кластера који помаже у складиштењу и обради података и извршавању потребне анализе заплићених података. Хадооп је флексибилан, поуздан у погледу података, јер се подаци умножавају и скалабирају, тј. Можемо да додамо више машина у кластер за складиштење и обраду података.

Препоручени чланци

Ово је водич за Хадооп компоненте. Овде смо разговарали о основним компонентама Хадоопа са примерима. Можете и да прођете кроз друге наше предложене чланке да бисте сазнали више -

  1. Увод у ЈДБЦ архитектуру
  2. Шта је Хадооп кластер?
  3. Шта је МапРедуце у Хадоопу?
  4. Шта је Биг дата и Хадооп
  5. Хадооп фс команде

Категорија: