Увод у МапРедуце
МапРедуце је рачунска компонента Хадооп оквира за лако писање апликација које паралелно обрађују велике количине података и похрањују се на великим кластерима јефтиних робних машина на поуздан и толерантан у квару. У овој теми ћемо сазнати о начину на који МапРедуце делује?
МапРедуце може изводити расподељене и паралелне рачунања користећи велике скупове података у великом броју чворова. Посао МапРедуце обично раздваја скупове улазних података, а затим их појединачно обрађује задатцима Мап на потпуно паралелан начин. Излаз се затим сортира и уноси за смањење задатака. Унос и излаз посла похрањени су у датотечним системима. Задаци су заказани и надгледани у оквиру.
Како ради МапРедуце?
МапРедуце архитектура садржи две основне компоненте као услуге Даемон-а одговорне за извршавање задатака мапирања и редуктора, надгледање и поновно извршавање задатака у случају квара. У Хадооп-у 2, Ресоурце Манагер и Ноде Манагер су услуге даемон-а. Када клијент посла посла посао МапРедуце, ти демони ступају на снагу. Они су такође одговорни за паралелну обраду и карактеристике толеранције грешака послова МапРедуце.
У Хадооп-у 2 управљање функцијама и планирање послова или функционалност за надгледање се раздвајају ИАРН (Још један преговарач о ресурсима) као различити демони. У поређењу са Хадооп-ом 1 са трагачем посла и алатом за праћење задатака, Хадооп 2 садржи глобални менаџер ресурса (РМ) и апликационе мајсторе (АМ) за сваку апликацију.
- Клијент посла предаје посао менаџеру ресурса.
- Планер програма ИАРН Ресоурце Манагер одговоран је за координацију расподјеле ресурса кластера међу текућим апликацијама.
- ИАРН Ноде Манагер ради на сваком чвору и врши управљање ресурсима на нивоу чвора, координирајући са Управитељем ресурса. Покреће и надгледа рачунске контејнере на машини на кластеру.
- Програм Мастер помаже ресурсима из Ресоурце Манагер-а и користи Ноде Манагер за покретање и координирање задатака МапРедуце.
- ХДФС се обично користи за дељење датотека са задацима између других ентитета.
Фазе модела МапРедуце
МапРедуце модел има три главне и једну опциону фазу:
1. Маппер
- То је прва фаза МапРедуце програмирања и садржи логику кодирања функције мапирања.
- Увјетна се логика примјењује на 'н' број блокова података распоређених по различитим чворовима података.
- Маппер функција прихваћа парове кључ-вредност као улаз као (к, в), где кључ представља офсет адресу сваког записа и вредност представља целокупни садржај записа.
- Излаз фазе Маппер такође ће бити у формату кључ-вредност као (к ', в').
2. Промените и сортирајте
- Излаз различитих пресликача (к ', в'), затим прелази у фазу насумичне репродукције и сортирања.
- Све дупликате вредности су уклоњене, а различите вредности су груписане на основу сличних кључева.
- Излаз фазе мешања и сортирања поново ће бити парови кључ-вредност као кључ и низ вредности (к, в ()).
3. Редуктор
- Излаз фазе померања и сортирања (к, в ()) биће улаз фазе редуктора.
- У овој фази извршава се логика функције редуктора и све вредности се агрегирају са одговарајућим кључевима.
- Редуктор консолидује излазе различитих пресликача и израчунава коначни излаз посла.
- Коначни излаз се затим записује у једну датотеку у излазном директорију ХДФС-а.
4. Комбинатор
- То је необавезна фаза у моделу МапРедуце.
- Фаза комбинатора користи се за оптимизацију перформанси задатака МапРедуце.
- У овој фази различити се излази мапирања локално смањују на нивоу чвора.
- На пример, ако различити излази мапирања (к, в) који долазе из једног чвора садрже дупликате, они се комбинују, тј. Локално смањују као појединачни (к, в ()) излаз.
- Ова фаза чини рад фазе Схуффле и Сорт још бржим, омогућавајући додатни рад у МапРедуце пословима.
Све ове фазе у МапРедуце послу могу се приказати као доле:
На пример, логика МапРедуце за проналажење броја речи у низу речи може се приказати на следећи начин:
руит_арраи = (јабука, наранџа, јабука, гуава, грожђе, наранџа, јабука)
- Фаза мапирања токенизира улазни низ речи у 'н' броју речи да би се добио излаз као (к, в). На пример, узмите у обзир „јабуку“. Излаз Маппер ће бити (јабука, 1), (јабука, 1), (јабука, 1).
- Схуффле и Сорт прихватају пресликач (к, в) и групирају све вредности према кључевима као (к, в ()). тј. (јабука, (1, 1, 1)).
- Фаза редуктора прихвата Схуффле и сортира излаз и даје агрегат вредности (јабука, (1 + 1 + 1)), које одговарају њиховим кључевима. тј. јабука, 3).
Шпекулативно извршење МапРедуце радова
У брзини МапРедуцеа доминира најспорији задатак. Дакле, да би убрзао брзину, нови маппер ће истовремено радити на истом скупу података. Ко год да изврши задатак, прво се сматра коначним резултатом, а други је убијен. То је техника оптимизације.
Предности МапРедуце-а
Овде о благодатима МапРедуце спомињемо у наставку
1. Толеранција на грешке
- У средини посла смањења мапа, ако машина која има неколико блокова података поквари архитектуру, покреће неуспех.
- Разматра реплициране копије блокова у алтернативним машинама за даљу обраду.
2. Отпорност
- Сваки чвор периодично ажурира свој статус на главни чвор.
- Ако подређени чвор не пошаље своје обавештење, главни чвор додељује тренутно извршени задатак тог славе чвора другим доступним чворовима у кластеру.
3. Брзо
- Обрада података је брза јер МапРедуце користи ХДФС као систем за складиштење података.
- МапРедуце траје неколико минута за обраду терабајта неструктуриране велике количине података.
4. Паралелна обрада
- Задаци МапРедуце паралелно обрађују више делова истих скупова података тако што деле задатке.
- То даје предност испуњењу задатка за мање времена.
5. Доступност
- Вишеструке реплике истих података шаљу се бројним чворовима у мрежи.
- Стога су у случају било каквог квара остале копије лако доступне за обраду без икаквих губитака.
6. Скалабилност
- Хадооп је високо скалабилна платформа.
- Традиционални РДБМС системи нису скалабилни према повећању обима података.
- МапРедуце омогућава покретање апликација из огромног броја чворова, користећи терабајте и петабајте података.
7. Исплативо
- Хадоопова значајка за скалирање заједно са МапРедуце програмирањем омогућава вам да похрањујете и обрађујете податке на врло ефикасан и приступачан начин.
- Уштеда трошкова може бити огромна као стотине за терабајте података.
Закључак - Како ради МапРедуце
Модерни подаци се више крећу ка неструктурираном типу, а огромна, конвенционална опција обраде података попут РДБМС-а још је тежа, дуготрајна и скупа. Али Хадооп-ово МапРедуце програмирање је много ефикасније, сигурније и брже у обради великих скупова података, чак и терабајта или петабајта.
Препоручени чланци
Ово је водич за функцију МапРедуце. Овде смо расправљали о фазама модела МапРедуце са предностима и како то функционише. Можда ћете такође погледати следеће чланке да бисте сазнали више -
- Компоненте екосистема Хадооп
- МапРедуце Алгоритхмс
- Шта је МапРедуце у Хадоопу?
- МапРедуце Интервју Питања