Шта је Хадооп Стреаминг?

Хадооп стреаминг је услужни програм који долази са Хадооп дистрибуцијом који се може користити за извршавање програма за анализу великих података. Постоји неколико језика који се могу користити за то као што су Јава, Сцала, Уник, Перл, Питхон и многи други. Помоћни програм нам помаже у креирању и извођењу мапе смањити задатке с било којим извршним текстом или скриптом који је пресликавач и / или редуктор.

Дефиниција

То је Хадооп дистрибуција са корисним програмима. Услужни програм нам помаже да створимо и покренемо одређене задатке МапРедуце са извршном датотеком или скрипту као маппер и / или редуктор.

Разумевање

Постоје јава услужни програми које пружа Хадооп дистрибуција и који се називају Хадооп стреаминг. Услужни програм је упакован у ЈАР датотеку. Помоћу услужног програма можемо креирати и покренути задатке МапРедуце помоћу извршне скрипте. Штавише, можемо креирати извршне скрипте за покретање функција мапирања и редуктора. Извршне скрипте се преносе у Хадооп стреаминг помоћу команде. Након што се скрипте пренесу у Хадооп стреаминг, услужни програм Хадооп стреаминг креира мапу и смањује задатке и шаље их у кластер. Ови послови се могу надгледати и помоћу овог услужног програма.

Како то функционише?

Скрипта наведена за мапирање и редуктор ради као што следи:

Након потпуне иницијализације скрипте маппер, покренуће инстанцу скрипте са различитим идентификационим процесима. Задатак мапирања док трчи узима улазне редове и прослеђује их стандардном улазу. Истовремено, маппер прикупља резултате из стандардног излаза процеса. Сваки ред претвара у пар кључ-вредност. Скуп парова кључ-вредност затим се прикупља као излаз из мапирања. Пар вредности кључа одабран је на основу знака прве картице. Део линије до почетне картице изабран је као кључан, док је остатак линије изабран као вредан део. У случају, картица није присутна у линији, тада је укупна линија одабрана као кључна, а за њу не постоји део вредности. Ово се може прилагодити потребама пословања.

Сврха употребе Хадооп Стреаминг-а

Користи се за гутање података у стварном времену који се могу користити у различитим апликацијама у реалном времену. Постоје различите апликације у реалном времену као што су гледање портфеља дионица, анализа тржишта дионица, извјештавање о временским приликама, упозорења о саобраћају која се раде помоћу Хадооп стреаминг-а.

Рад Хадооп струјања

Испод је једноставан пример рада Хадооп стреаминг-а:

$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-mapper org.apache.hadoop.mapred.lib.IdentityMapper \
-reducer /bin/wc

Наредба за унос користи се за унос директорија уноса док се излазна наредба користи за излазни директориј. Наредба маппер користи се за одређивање класе извршног пресликача, док наредба редуктор користи за одређивање класе извршног редуктора.

Предности Хадооп Стреаминга

Испод су предности Хадооп стреаминга:

1. Доступност

Ово не захтева инсталирање и управљање додатним засебним софтвером. Постоје и други алати попут свиње, кошница која се може инсталирати. Морам се посебно бавити.

2. Учење

Не захтева учење нових технологија. Хадооп струјање се може користити уз минималне Уник вештине за анализу података.

3. Смањите време развоја

Потребно је написати маппер и редуцер код док развијате стреаминг апликације у Унику, док је обављање истог посла помоћу Јава МапРедуце апликације сложеније и потребно га је прво саставити, затим тестирати, паковати, потом извести ЈАР датотеку, а затим покренути.

4. Брже претварање

Потребно је врло мало времена за претварање података из једног формата у други користећи Хадооп стреаминг. Можемо га користити за претварање података из текстуалне датотеке у датотеку секвенци, а затим из датотеке секвенце у текстуалну датотеку и многе друге. То се може постићи коришћењем улазног формата и опција излазног формата у Хадооп стримингу.

5. Тестирање

Улазни и излазни подаци могу се брзо тестирати коришћењем Хадооп струјања помоћу Уник-а или Схелл Сцрипт-а.

6. Услови за пословање

За једноставне пословне захтеве као што су једноставне операције филтрирања и једноставне операције здруживања, можемо то користити са Уник-ом.

7. Перформансе

Коришћењем Хадооп струјања можемо постићи боље перформансе током рада са стримингом података. Постоји и неколико недостатака Хадооп струјања који се решавају употребом других алата у пакету Хадооп као што су Кафка, флуме, спарк.

Зашто нам треба Хадооп Стреаминг?

Помаже у анализи података у стварном времену, што је много брже коришћење МапРедуце програма који се изводи на кластеру са више чворова. Постоје различите технологије као што су искре Кафка и друге које помажу Хадооп струјању у реалном времену.

Како ће вам ова технологија помоћи у развоју каријере?

Данас се сва велика предузећа селе у Хадооп ради њихове анализе података и многим од њих ће можда требати анализа података у стварном времену. Потражња за коришћењем података у реалном времену и обрада истих из дана у дан и ова технологија стварају пуно простора за индивидуални раст у каријери.

Закључак

Нуди огроман спектар предности за различите обраде података у стварном времену користећи стреаминг података.

Препоручени чланци

Ово је водич за Хадооп Стреаминг. Овде смо расправљали о дефиницији, концепту, предностима и недостацима Хадооп Стреаминг-а. Можете и да прођете кроз друге наше предложене чланке да бисте сазнали више -

  1. Шта је Хадооп кластер?
  2. Шта је истраживање података?
  3. Шта је визуализација података
  4. Шта је моделирање података?
  5. Комплетан водич за Кафка алате

Категорија: