Шта је свиња? - Карактеристике и разумевање - Архитектура и каријера

Преглед садржаја:

Anonim

Шта је свиња?

Свиња је мотор отвореног кода, који је део Хадооп екосистемских технологија. Свиња је сјајна за рад са подацима који су изван традиционалних база података или складишта података. Ово се може добро носити са недостајућим, непотпуним или недоследним подацима који немају шему. Свиња има свој језик за изражавање манипулација подацима, а то је латински свиња.

Разумевање свиње

Пиг је технологија која вам омогућава да пишете скрипте високог нивоа, али изузетно прецизних, што вам омогућава рад са подацима где је шема непозната или није конзистентна. Свиња је технологија отвореног кода која се креће на врху Хадоопа и део је изузетно живахног и популарног Хадооп екосистема.

Свиња добро функционира са неструктурираним и непотпуним подацима, тако да не морате имати традиционални распоред правила и ступаца за све.

Добро је дефинисан и може директно радити на датотекама у ХДФС (Хадооп Дистрибутед Филе Систем).

Свиња ће бити ваша одабрана технологија када желите да податке из извора унесете у складиште података.

На пример, визуелни опис начина на који подаци обично лете пре него што их употребите за генерисање лепих графикона које користите за доношење пословних одлука.

Сирови подаци долазе из различитих извора, као што су сензори, мобилни телефони итд. Затим ћете Свињу користити за обављање ЕТЛ операције. ЕТЛ означава екстракт, трансформисање и учитавање, након што се ове операције изврше, очишћени подаци се чувају у другој бази података. Примјер такве базе података био би ХДФС, који је дио Хадоопа. Хиве је складиште података које ће се покренути преко датотечног система попут овог. Кошница је оно што бисте користили за анализу, генерисање извештаја и извлачење увида.

ЕТЛ је веома важан корак у обради података како би се необориви подаци очистили и добили у правом облику који се чувају у бази података. Екстракт се односи на операцију извлачења неструктурираних, недоследних података са недостајућим пољем и вредностима из изворног извора. Трансформ представља низ операција које бисте применили на подацима како бисте их очистили или добили.

Прерачунавање корисних агрегатних информација, обрада поља која одговарају одређеном формату, све је то део чишћења података трансформисаних поља.

Коначно, Свиња изводи операцију оптерећења где се ти чисти подаци чувају у бази података где се могу даље анализирати. Пример стандардне операције коју Пиг изводи је чишћење датотека дневника.

Објасните архитектуру свиња

Постоје бројни делови свиње у архитектури, више воле:

  • Парсер : Парсер се бави и Свињским скриптама, као и проверава синтаксу скрипте, уноси проверу и разне различите провере. Поред тога, њихов резултат може бити ДАГ (Дирецтед Ацицлиц Грапх) који обично означава свињске латиничне тврдње заједно са логичким операторима.

Такође ће се приказати логички оператори са скрипту попут чворова као и токови података од ивица до ДАГ-а.

  • Оптимизатор: Касније је логички план (ДАГ) обично премашен према логичком оптимизатору. Изводи додатне логичке оптимизације, укључујући пројекцију и промовише низак ниво
  • Компајлер: Такође, компајлер саставља тај побољшани логички план у групи МапРедуце.
  • Извршни механизам : У коначници, сви радови МапРедуцеа биће смештени у Хадооп у оквиру сортиране секвенце. На крају, то доноси потребне резултате иако ће се ови радови на МапРедуце изводити са Хадооп-ом.
  • МапРедуце: МапРедуце је првобитно дизајниран у Гооглеу као начин за обраду веб страница како би се омогућило Гоогле претраживање. МапРедуце дистрибуира рачунање на више машина у кластеру. МапРедуце користи предности својственог паралелизма у обради података. Савремени системи, попут сензора, или чак ажурирања статуса Фацебоока генеришу милионе записа необрађених података.

Активност на овом нивоу може се припремити у две фазе:

  1. Мапа
  2. Смањите

Ви одлучујете коју логику желите да примените унутар ових фаза за обраду података.

  • ХДФС (Хадооп Дистрибутед Филе Систем): Хадооп омогућава експлозију складиштења и анализе података у скали у неограниченом капацитету. Програмери користе апликацију као што су Пиг, Хиве, ХБасе и Спарк да би преузели податке са ХДФС-а.

Карактеристике

Апацхе Пиг долази са различитим карактеристикама:

  • Једноставност програмирања: Латино свиња је упоредива са СКЛ-ом и зато је програмерима прилично једноставно да створе Пиг скрипту. У случају да разумете СКЛ језик, научити је свињски латински језик невероватно једноставно, јер је сличан СКЛ језику.
  • Богат скуп оператора: Свиња укључује разноврсни скуп оператора који могу да извршавају процедуре попут придруживања, покретања, сортирања и много више.
  • Могућности оптимизације: Перформансе са задатком у Апацхе Свињи могу се одмах побољшати самим задатком; према томе, програмери се морају концентрисати на семантику овог језика.
  • Проширеност: Користећи приступачне оператере, корисници могу једноставно развити своје функције за читање, обраду и упис података.
  • Корисничке функције (УДФ-ове): Кориштењем услуге коју је Пиг направио за израду УДФ-а, могли бисмо произвести корисничке функције на броју језика за развој, укључујући Јава, као и позвати их или их уградити у Свињске скрипте.

За шта је свиња корисна?

Користи се за испитивање и извршавање одговорности, укључујући ад-хоц руковање. Апацхе Свиња се може користити за:
Анализа са огромним збиркама необрађених података преферира обраду података да бисте добили веб локације за претраживање. Као што је Иахоо, Гоогле користи Апацхе Пиг за процену података прикупљених преко Гоогле-а као и Иахоо претраживача. Руковање великим збиркама података попут веб записа, стриминг информација на мрежи и тако даље. Чак и Фацебоок ажурирања статуса генеришу милионе записа необрађених података.

Како вам ова технологија помаже да се развијате у каријери?

Многе организације невероватно брзо проводе Апацхе Пиг. То значи да се професије у свињи и каријери свиња свакодневно повећавају. У развоју Апацхе Хадоопа остварен је огроман напредак у посљедњих неколико година. Хадооп елементи попут Хиве, Свиње, ХДФС, ХБасе, МапРедуце, ​​и тако даље.

Иако су Хадооп понуде дошле у њихову другу деценију у овом тренутку, ипак је експлодирала у препознавању током претходне три до четири године. Велики број софтверских компанија невероватно често користе Хадооп кластере. Ово је дефинитивно најбољи део великих података. Стручњаци који циљају могу се претворити у искусне у овој изврсној технологији.

Закључак

Апацхе Пиг Екпертисе је велика потреба на тржишту и може се и даље продужити. Једноставним разумевањем концепата и стицањем искуства са најбољим вештинама Апацхе Пиг у Хадооп, стручњаци се могу савршено ангажовати у својој професији Апацхе Пиг.

Препоручени чланак

Ово је водич за шта је свиња? Овде смо разговарали о појмовима, дефиницији и архитектури са карактеристикама Свиње. Можете и да прођете кроз друге наше предложене чланке да бисте сазнали више -

  1. Како инсталирати Апацхе
  2. Апацхе ПИГ питања за интервју
  3. Шта је АСП.Нет Веб Сервицес?
  4. Шта је Блоцкцхаин технологија?