Како ради МапРедуце? - Рад, фазе и предности МапРедуце-а

Преглед садржаја:

Anonim

Увод у МапРедуце

МапРедуце је рачунска компонента Хадооп оквира за лако писање апликација које паралелно обрађују велике количине података и похрањују се на великим кластерима јефтиних робних машина на поуздан и толерантан у квару. У овој теми ћемо сазнати о начину на који МапРедуце делује?

МапРедуце може изводити расподељене и паралелне рачунања користећи велике скупове података у великом броју чворова. Посао МапРедуце обично раздваја скупове улазних података, а затим их појединачно обрађује задатцима Мап на потпуно паралелан начин. Излаз се затим сортира и уноси за смањење задатака. Унос и излаз посла похрањени су у датотечним системима. Задаци су заказани и надгледани у оквиру.

Како ради МапРедуце?

МапРедуце архитектура садржи две основне компоненте као услуге Даемон-а одговорне за извршавање задатака мапирања и редуктора, надгледање и поновно извршавање задатака у случају квара. У Хадооп-у 2, Ресоурце Манагер и Ноде Манагер су услуге даемон-а. Када клијент посла посла посао МапРедуце, ​​ти демони ступају на снагу. Они су такође одговорни за паралелну обраду и карактеристике толеранције грешака послова МапРедуце.

У Хадооп-у 2 управљање функцијама и планирање послова или функционалност за надгледање се раздвајају ИАРН (Још један преговарач о ресурсима) као различити демони. У поређењу са Хадооп-ом 1 са трагачем посла и алатом за праћење задатака, Хадооп 2 садржи глобални менаџер ресурса (РМ) и апликационе мајсторе (АМ) за сваку апликацију.

  • Клијент посла предаје посао менаџеру ресурса.
  • Планер програма ИАРН Ресоурце Манагер одговоран је за координацију расподјеле ресурса кластера међу текућим апликацијама.
  • ИАРН Ноде Манагер ради на сваком чвору и врши управљање ресурсима на нивоу чвора, координирајући са Управитељем ресурса. Покреће и надгледа рачунске контејнере на машини на кластеру.
  • Програм Мастер помаже ресурсима из Ресоурце Манагер-а и користи Ноде Манагер за покретање и координирање задатака МапРедуце.

  • ХДФС се обично користи за дељење датотека са задацима између других ентитета.

Фазе модела МапРедуце

МапРедуце модел има три главне и једну опциону фазу:

1. Маппер

  • То је прва фаза МапРедуце програмирања и садржи логику кодирања функције мапирања.
  • Увјетна се логика примјењује на 'н' број блокова података распоређених по различитим чворовима података.
  • Маппер функција прихваћа парове кључ-вредност као улаз као (к, в), где кључ представља офсет адресу сваког записа и вредност представља целокупни садржај записа.
  • Излаз фазе Маппер такође ће бити у формату кључ-вредност као (к ', в').

2. Промените и сортирајте

  • Излаз различитих пресликача (к ', в'), затим прелази у фазу насумичне репродукције и сортирања.
  • Све дупликате вредности су уклоњене, а различите вредности су груписане на основу сличних кључева.
  • Излаз фазе мешања и сортирања поново ће бити парови кључ-вредност као кључ и низ вредности (к, в ()).

3. Редуктор

  • Излаз фазе померања и сортирања (к, в ()) биће улаз фазе редуктора.
  • У овој фази извршава се логика функције редуктора и све вредности се агрегирају са одговарајућим кључевима.
  • Редуктор консолидује излазе различитих пресликача и израчунава коначни излаз посла.
  • Коначни излаз се затим записује у једну датотеку у излазном директорију ХДФС-а.

4. Комбинатор

  • То је необавезна фаза у моделу МапРедуце.
  • Фаза комбинатора користи се за оптимизацију перформанси задатака МапРедуце.
  • У овој фази различити се излази мапирања локално смањују на нивоу чвора.
  • На пример, ако различити излази мапирања (к, в) који долазе из једног чвора садрже дупликате, они се комбинују, тј. Локално смањују као појединачни (к, в ()) излаз.
  • Ова фаза чини рад фазе Схуффле и Сорт још бржим, омогућавајући додатни рад у МапРедуце пословима.

Све ове фазе у МапРедуце послу могу се приказати као доле:

На пример, логика МапРедуце за проналажење броја речи у низу речи може се приказати на следећи начин:

руит_арраи = (јабука, наранџа, јабука, гуава, грожђе, наранџа, јабука)

  • Фаза мапирања токенизира улазни низ речи у 'н' броју речи да би се добио излаз као (к, в). На пример, узмите у обзир „јабуку“. Излаз Маппер ће бити (јабука, 1), (јабука, 1), (јабука, 1).
  • Схуффле и Сорт прихватају пресликач (к, в) и групирају све вредности према кључевима као (к, в ()). тј. (јабука, (1, 1, 1)).
  • Фаза редуктора прихвата Схуффле и сортира излаз и даје агрегат вредности (јабука, (1 + 1 + 1)), које одговарају њиховим кључевима. тј. јабука, 3).

Шпекулативно извршење МапРедуце радова

У брзини МапРедуцеа доминира најспорији задатак. Дакле, да би убрзао брзину, нови маппер ће истовремено радити на истом скупу података. Ко год да изврши задатак, прво се сматра коначним резултатом, а други је убијен. То је техника оптимизације.

Предности МапРедуце-а

Овде о благодатима МапРедуце спомињемо у наставку

1. Толеранција на грешке

  • У средини посла смањења мапа, ако машина која има неколико блокова података поквари архитектуру, покреће неуспех.
  • Разматра реплициране копије блокова у алтернативним машинама за даљу обраду.

2. Отпорност

  • Сваки чвор периодично ажурира свој статус на главни чвор.
  • Ако подређени чвор не пошаље своје обавештење, главни чвор додељује тренутно извршени задатак тог славе чвора другим доступним чворовима у кластеру.

3. Брзо

  • Обрада података је брза јер МапРедуце користи ХДФС као систем за складиштење података.
  • МапРедуце траје неколико минута за обраду терабајта неструктуриране велике количине података.

4. Паралелна обрада

  • Задаци МапРедуце паралелно обрађују више делова истих скупова података тако што деле задатке.
  • То даје предност испуњењу задатка за мање времена.

5. Доступност

  • Вишеструке реплике истих података шаљу се бројним чворовима у мрежи.
  • Стога су у случају било каквог квара остале копије лако доступне за обраду без икаквих губитака.

6. Скалабилност

  • Хадооп је високо скалабилна платформа.
  • Традиционални РДБМС системи нису скалабилни према повећању обима података.
  • МапРедуце омогућава покретање апликација из огромног броја чворова, користећи терабајте и петабајте података.

7. Исплативо

  • Хадоопова значајка за скалирање заједно са МапРедуце програмирањем омогућава вам да похрањујете и обрађујете податке на врло ефикасан и приступачан начин.
  • Уштеда трошкова може бити огромна као стотине за терабајте података.

Закључак - Како ради МапРедуце

Модерни подаци се више крећу ка неструктурираном типу, а огромна, конвенционална опција обраде података попут РДБМС-а још је тежа, дуготрајна и скупа. Али Хадооп-ово МапРедуце програмирање је много ефикасније, сигурније и брже у обради великих скупова података, чак и терабајта или петабајта.

Препоручени чланци

Ово је водич за функцију МапРедуце. Овде смо расправљали о фазама модела МапРедуце са предностима и како то функционише. Можда ћете такође погледати следеће чланке да бисте сазнали више -

  1. Компоненте екосистема Хадооп
  2. МапРедуце Алгоритхмс
  3. Шта је МапРедуце у Хадоопу?
  4. МапРедуце Интервју Питања