Шта је Хадооп?

Пре него што разумете предности Хадоопа, прво разумејте Хадооп. Хадооп је велика парадигма обраде података која пружа поуздано, скалабилно место за складиштење и обраду података. Хадооп је створио Доуг Цуттинг и он се сматра „оцем Хадоопа“. Хадооп је било име играчког слона његовог сина. Хадооп је своје коријене започео у пројекту Нутцх Сеарцх Енгине. Хадооп је оквир за обраду који је донио огромне промјене у начину на који обрађујемо податке, начину на који чувамо податке. У поређењу са традиционалним алатима за обраду као што су РДБМС, Хадооп је доказао да се можемо ефикасно борити са изазовима великих података као што су,

Разноликост података: Хадооп може да похрањује и обрађује структуриране, као и полуструктуриране и неструктуриране формате података.

Количина података : Хадооп је посебно дизајниран да обрађује огромну количину података у распону петабајта.

Брзина података : Хадооп може обрадити петабајте података великом брзином у поређењу с другим алатима за обраду попут РДБМС, тј. Време обраде у Хадооп-у је врло мање.

Истакнуте карактеристике Хадоопа

  • Хадооп је у природи отвореног кода.
  • Ради на групи машина. Величина кластера зависи од захтева.
  • Може да ради на уобичајеном робном хардверу.

Предности Хадоопа

У овом делу се говори о предностима Хадоопа. А сада, погледајмо их један по један:

1. Опен Соурце

Хадооп је у природи отвореног кода, тј. Његов изворни код је слободно доступан. Можемо изменити изворни код према нашим пословним захтевима. Доступне су и власничке верзије Хадоопових дела као што су Цлоудера и Хортон.

2. Скалабилан

Хадооп ради на групи машина. Хадооп је високо скалабилан. Ми можемо повећати величину нашег кластера додавањем нових чворова према захтеву без икаквог застоја. Овај начин додавања нових машина у кластер познат је под називом хоризонтално скалирање, док повећавање компоненти попут удвостручења тврдог диска и РАМ-а назива се и вертикално скалирање.

3. Толерантно на грешке

Толеранција грешака је видљиво обиљежје Хадоопа. По дефаулту, сваки блок у ХДФС-у има фактор репликације 3. За сваки блок података, ХДФС креира још две копије и спрема их на друго место у кластеру. Ако било који блок нестане због квара на машини, и даље имамо још две копије истог блока и оне се користе. На овај начин се постиже толеранција грешке у Хадоопу.

4. Независна шема

Хадооп може радити на различитим врстама података. Довољно је флексибилан за смештање различитих формата података и може радити и на подацима са схемом (структурирани) и без података о схеми (неструктурирани).

5. Висока пропусност и ниска кашњења

Пропусност значи количина обављеног посла по јединици времена, а мала латенција значи обраду података без икаквог одлагања. Како је Хадооп вођен принципом дистрибуираног складиштења и паралелне обраде, обрада се врши истовремено на сваком блоку података и међусобно су неовисни. Такође, уместо померања података, код се премешта у податке у кластеру. Ово двоје доприносе високој пропусности и ниској заосталости.

6. Локалност података

Хадооп ради на принципу „Померите код, а не податке“. У Хадоопу, Подаци остају непокретни и за обраду података, код се премешта у податке у облику задатака, то се назива Лоцалити података. Како се бавимо подацима у распону петабајта, померање података кроз мрежу постаје и тешко и скупо, а локалитет података осигурава кретање података у кластеру минимално.

7. Перформансе

У наслијеђеним системима као што је РДБМС, подаци се обрађују узастопно, али у Хадооп процесуирање започиње на свим блоковима одједном и на тај начин омогућава паралелну обраду. Захваљујући паралелним техникама обраде, перформансе Хадоопа су много веће од старијих система попут РДБМС. У 2008, Хадооп је чак победио и најбржи суперкомпјутер присутан у то време.

8. Поделите Нотхинг Арцхитецтуре

Сваки чвор у Хадооп групи је независан један од другог. Не деле ресурсе или складиште, ова архитектура је позната и као Схаре Нотхинг Арцхитецтуре (СН). Ако чвор у кластеру закаже, неће срушити читав кластер јер сваки чвор делује независно, елиминирајући јединствену тачку грешке.

9. Подршка за више језика

Иако је Хадооп углавном развијен у Јави, он пружа подршку и за друге језике као што су Питхон, Руби, Перл и Гроови.

10. Исплативо

Хадооп је по својој природи врло економичан. Можемо изградити Хадооп кластер користећи хардвер уобичајене робе, смањујући тако трошкове хардвера. Према Цлоуд времену, трошкови управљања подацима Хадоопа, тј. Хардвер и софтвер и други трошкови су врло минимални у поређењу са традиционалним ЕТЛ системима.

11. Апстракција

Хадооп пружа апстракцију на различитим нивоима. Програмерима олакшава посао. Велика датотека се разбија у блокове исте величине и чува на различитим локацијама кластера. Приликом стварања задатка за смањивање мапа морамо бринути о локацији блокова. Дајемо комплетну датотеку као улаз, а Хадооп оквир брине за обраду различитих блокова података који се налазе на различитим локацијама. Кошта је део екосистема Хадооп и представља апстракцију на врху Хадоопа. Како су задаци смањења мапа написани на Јави, СКЛ програмери широм света нису могли да искористе Мап Редуцт. Дакле, Хиве је уведен да реши ово питање. На Хиве можемо писати СКЛ-ове попут упита, што заузврат покреће Мап смањење послова. Дакле, захваљујући кошници, СКЛ заједница такође може радити на задацима смањења мапа.

12. Компатибилност

У Хадоопу је ХДФС складишни слој, а Мап Редуце је процесор. Али, нема чврстог правила да би смањивање мапа требало да буде задани Процессинг Енгине. Нови оквири за обраду као што су Апацхе Спарк и Апацхе Флинк користе ХДФС као систем за складиштење података. Чак и у кошници такође можемо да променимо наш Екецутион Енгине у Апацхе Тез или Апацхе Спарк према нашим захтевима. Апацхе ХБасе, која је НоСКЛ Цолумнар Датабасе, користи ХДФС за слој складиштења.

13. Подршка за различите датотечне системе

Хадооп је по природи врло флексибилан. Може да гута различите формате података као што су слике, видео снимци, датотеке, итд. Такође може да обрађује Структурне и неструктуриране податке. Хадооп подржава разне систем датотека као што су ЈСОН, КСМЛ, Авро, Паркует, итд.

Рад Хадоопа

Испод су тачке које показују како Хадооп делује:

1. Дистрибуирано складиштење и паралелна обрада

Ово је принцип покретања свих оквира Хадооп екосистема, укључујући Апацхе Спарк. Да бисмо разумели рад Хадооп-а и Спарк-а, прво бисмо требали разумети шта је „Дистрибуирано складиштење и паралелна обрада“.

2. Дистрибуирано складиштење

Хадооп не спрема податке у једну машину, уместо тога разбија те огромне податке у блокове једнаке величине који су 256МБ по дефаулту и смешта те блокове у различите чворове кластера (раднички чворови). Похрањује метаподатке тих блокова у главни чвор. Овај начин чувања датотеке на дистрибуираним локацијама у кластеру познат је под називом Хадооп дистрибуирани систем датотека - ХДФС.

3. Паралелна обрада

То је парадигма обраде, где се обрада врши истовремено на блоковима података похрањених у ХДФС. Паралелна обрада делује на појму „Помери код, а не податке“. Подаци остају непокретни у ХДФС-у, али се код премешта у податке за обраду. Једноставно речено, ако је наша датотека разбијена у 100 блокова, тада се ствара 100 копија посла и они путују преко кластера до локације на којој се блок налази и обрађује се на 100 блокова истовремено (Фаза мапе). Излазни подаци из свих блокова се прикупљају и своде на крајњи излаз (Смањивање фаза). Смањивање карте сматра се „срцем Хадоопа“.

Закључак-Предности Хадоопа

У овом добу података, Хадооп је отворио пут другачијем приступу изазовима које постављају Биг дата. Када кажемо, Хадооп не мислимо само на Хадооп, то укључује алате Хадооп Екосистема попут Апацхе Хиве који пружа СКЛ-ове операције на врху Хадооп-а, Апацхе Пиг-а, Апацхе ХБасе-а за Цолумнар-ову базу података, Апацхе Спарк за обраду у меморији и многе више. Иако Хадооп има своје недостатке, са сваким издањем је врло прилагодљив и стално се развија.

Препоручени чланци

Ово је водич за Предности Хадоопа. Овдје разговарамо о томе што је Хадооп и које су главне предности Хадоопа. Можете и да прођете кроз наше друге сродне чланке да бисте сазнали више -

  1. ХАДООП оквир
  2. Шта је Хадооп кластер?
  3. Шта је МапРедуце у Хадоопу?
  4. Хадооп база података
  5. Шта је Хадооп? | Апликације и функције

Категорија: