Увод у Хадооп оквир

Пре него што дубоко уђемо у технички оквир компаније Хадооп, почет ћемо с једноставним примером.

Постоји фарма која бере парадајз и складишти их у једном складишту, сада је са све већом потражњом поврћа фарма почела да бере кромпир, шаргарепу - са све већом потражњом нестао је пољопривредник, па су запослили више пољопривредника. Након неког времена схватили су да постоји недостатак у складишту - па су поврће поделили у различита складишта. Када је у питању преузимање података, сви они раде паралелно са властитим простором за складиштење.

Па како је ова прича повезана са великим подацима?

Раније смо имали ограничене податке, са ограниченим процесором и једном јединицом за складиштење података. Али тада се генерација података повећала што је довело до велике количине и различитих сорти - структуриране, полуструктуриране и неструктуриране. Дакле, решење је било да се користи дистрибуирана меморија за сваки процесор, што је омогућило лак приступ складиштењу и приступу подацима.

Тако сада поврће можемо заменити различитим врстама података и местом за складиштење као дистрибуираним местима за чување података и различитим радницима који су сваки процесор.

Дакле, Велики подаци су изазов и Хадооп игра улогу решења.

ХАДООП

1. Решење за ВЕЛИКЕ ПОДАТКЕ: јер се бави сложеностима велике количине података, брзине и разноликости података.

2. Сет пројекта отвореног кода.

3. Поуздано чува огромну количину података и омогућава огромно расподељено рачунање.

4. Кључни атрибути Хадоопа су редунданција и поузданост (апсолутно без губитка података).

5. Првенствено се фокусира на серијску обраду.

6. Ради се о робном хардверу - нема потребе да купујете неки посебан скупљи хардвер.

Хадооп Фрамеворк:

1. Уобичајене комуналије

2. ХДФС

3. Смањивање мапе

4. Оквир предива

1. Уобичајене комуналије:

Назван је и Хадооп обичним. Ово су само ЈАВА библиотеке, датотеке, скрипте и услужни програми које су потребне за друге компоненте Хадооп-а за обављање.

2. ХДФС: Дистрибуирани датотечни систем Хадооп

Зашто је Хадооп одлучио да угради систем дистрибуираних датотека?

Схватимо то са примером: Треба да читамо 1ТБ података и да имамо једну машину са 4 И / О канала, сваки канал има 100МБ / с, а читали смо податке требало је 45 минута. Сада исту количину података чита 10 машина са сваки 4 И / О канала, а сваки канал има 100МБ / с. Погоди колико је времена требало да се прочитају подаци? 4.3 минута. ХДФС решава проблем складиштења великих података. Две главне компоненте ХДФС-а су НАМЕ НОДЕ и ДАТА НОДЕ. Чвор имена је главни, можда ћемо имати и секундарни чвор имена у случају да примарни чвор имена престане радити, средњи чвор имена ће дјеловати као сигурносна копија. Чвор имена у основи одржава и управља чворовима података спремањем метаподатака. Чвор података је роб, што је у основи јефтини рочни хардвер. Можемо имати више чворова података. Чвор података похрањује стварне податке. Овај чвор података подржава фактор репликације, претпоставимо да ако један податковни чвор иде доље, подацима може приступити други реплицирани чвор података, дакле, приступачност података је побољшана и спречава се губитак података.

3. Смањивање мапе:

Решава проблем обраде великих података. Да разумемо концепт редукције мапа решавањем овог проблема у стварном свету. АБЦ компанија жели да израчуна своју укупну продају, мудро по граду. Сада овде концепт хасх табеле неће радити јер су подаци у терабајтима, па ћемо користити концепт Мап-Редуце.

Постоје две фазе: а) МАП. б) СМАЊЕЊЕ

а) Карта : Прво ћемо поделити податке у мање делове који се зову пресликачи на основу пара кључ / вредност. Дакле, овде ће кључ бити име града, а вредност ће бити укупна продаја. Сваки мапирац ће добити податке сваког месеца који дају назив града и одговарајућу продају.

б) Смањивање: Добиће ове гомиле података и сваки редуктор ће бити одговоран за градове Север / Запад / Исток / Југ. Дакле, рад редуктора ће сакупљати ове мале комаде и претварати их у веће количине (додајући их) за одређени град.

4.ИАРН Оквир: Још један преговарач о ресурсима.

Почетна верзија Хадоопа имала је само две компоненте: Мапу редукције и ХДФС. Касније се схватило да смањивање мапе не може решити пуно великих проблема са подацима. Идеја је била да се одговорности за управљање ресурсима и заказивање посла одстране од старог мотора за смањење мапа и додијеле га новој компоненти. Тако је ИАРН ушао у слику. Средњи слој између ХДФС и Мап Редуце одговоран је за управљање ресурсима кластера.

Има две кључне улоге за обављање послова: а) Заказивање послова. б) Управљање ресурсима

а) Распоред послова: Када се велика количина података даје на обраду, они се требају дистрибуирати и рашчланити на различите задатке / послове. Сада ЈС одлучује коме треба дати главни приоритет, временски интервал између два посла, зависност међу пословима, проверава да ли се преклапање између извршених послова не преклапа.

б) Управљање ресурсима: за обраду података и за чување података потребни су нам ресурси, зар не? Тако менаџер ресурса пружа, управља и одржава ресурсе за чување и обраду података.
Дакле, сада нам је јасно о концепту Хадооп-а и како он решава изазове настале ВЕЛИКИМ ПОДАЦИМА !!!

Препоручени чланци

Ово је водич за Хадооп Фрамеворк. Овде смо такође расправљали о 4 најбоља Хадооп оквира. Можете и да прођете кроз друге наше предложене чланке да бисте сазнали више -

  1. Хадооп база података
  2. Хадооп екосистем
  3. Употребе Хадоопа
  4. Хадооп Администраторски послови
  5. Хадооп Администратор | Вештине и каријера

Категорија: