Преглед компоненти искре

Замислите да имате 1000 задатака при руци и врло мало времена да их завршите. Неко вам нуди помоћ пружајући ресурсе који могу да вам одузму неке задатке и раде их паралелно са вама, тако да се сви задаци изврше на време. Да је неко Спарк за тебе у рачунарском смислу. Апацхе Спарк је рачунарски оквир отвореног и дистрибуираног кластера за велике податке и пружа оптимизовани приступ за обављање аналитике на великим скуповима података. Дјелује 100 пута брже од Хадоопа и пружа различите библиотеке у различите сврхе као што су извођење СКЛ операција, МЛ, Стреаминг, Графичка обрада итд. Испод ћемо детаљно видјети различите компоненте искра.

Главне компоненте искре

Тренутно у Спарк Екосистему имамо 6 компоненти које су Спарк Цоре, Спарк СКЛ, Спарк Стреаминг, Спарк МЛлиб, Спарк ГрапхКс и СпаркР. Да видимо шта свака од ових компоненти ради.

1. Спарк Цоре

Спарк Цоре је, као што и име каже, основна јединица Спарк процеса. Води рачуна о заказивању задатака, опоравку грешака, управљању меморијом и операцијама улаза и излаза, итд. Замислите то као нешто слично ЦПУ-у за рачунар. Подржава програмске језике као што су Јава, Сцала, Питхон и Р и пружа АПИ за одговарајуће језике помоћу којих можете градити свој ЕТЛ посао или радити аналитику. Све остале компоненте Спарк-а имају своје АПИ-је који су изграђени на врху Спарк Цоре-а. Због својих могућности паралелне обраде и израчунавања у меморији, Спарк може поднијети било коју врсту посла.

Спарк Цоре долази са посебном врстом структуре података названом РДД (Ресилиент Дистрибутед Датасет) која дистрибуира податке по свим чворовима у кластеру. РДД раде на парадигми процене Лази где се рачуна меморише и изводи само када је неопходно. Ово помаже у оптимизацији процеса рачунањем само потребних објеката.

2. Спарк СКЛ

Ако сте сарађивали са Базама података, разумете важност СКЛ-а. Зар не би било крајње неодољиво ако исти СКЛ код ради Н пута брже чак и на већем скупу података? Спарк СКЛ вам помаже да манипулирате подацима на Спарку користећи СКЛ. Подржава ЈДБЦ и ОДБЦ везе које успостављају везу између Јава објеката и постојећих база података, складишта података и алата пословне интелигенције. Спарк укључује нешто што се назива Датафрамес (Структуре података) које су структуриране за прикупљање података у облику ступаца и редова.

Спарк вам омогућава да радите на овим подацима са СКЛ-ом. Оквири података еквивалентни су релацијским таблицама и могу се конструирати из било које вањске базе података, структурираних датотека или већ постојећих РДД-ова. Оквири података имају све карактеристике РДД-а као што су непромењива, еластична, меморија, али са додатном карактеристиком су структурирани и са њима је лако радити. АПИ за Датафраме је доступан и у Сцала, Питхон, Р и Јава.

3. Стреаминг за искре

Стреаминг података је техника у којој се непрекидни ток података у стварном времену обрађује. Потребан је оквир који нуди малу латенцију за анализу. Спарк Стреаминг пружа то и такође велику пропусност, отпорност на грешке и скалабилан АПИ за обраду података у реалном времену. Абстрахиран је на Дискретизованом току (ДСтреам) који представља ток података подељен у мале серије. ДСтреам је изграђен на РДД-у, због чега Спарк Стреаминг неометано ради са осталим компонентама искре. Неки од најистакнутијих корисника Спарка.

Стреаминг су Нетфлик, Пинтерест и Убер. Искрено струјање се може интегрисати са Апацхе Кафка која је платформа за одвајање и пуфер за улазне токове. Кафка делује као централно средиште за токове у стварном времену који се обрађују помоћу алгоритама у Спарк Стреаминг-у.

4. Спарк МЛЛиб

Спарк-ова главна атракција је масовно повећавање рачунања и ова карактеристика је најважнији услов за било који пројекат машинског учења. Спарк МЛЛиб је компонента машинског учења компаније Спарк која садржи алгоритме машинског учења попут класификације, регресије, кластерирања и колаборативног филтрирања. Такође нуди место за вађење карактеристика, смањење димензија, трансформацију итд.

Такође можете да сачувате своје моделе и покренете их на већим сетовима података без бриге о проблемима у вези са величином. Такође садржи услужне програме за линеарну алгебру, статистику и руковање подацима. Због Спаркове обраде меморије, толеранције грешака, скалабилности и лакоће програмирања, уз помоћ ове библиотеке можете лако покренути итеративне МЛ алгоритме.

5. ГрапхКс

Графичка аналитика у основи одређује односе између објеката на графикону, на пример, најкраћа удаљеност између две тачке. Ово помаже у оптимизацији руте. Спарк ГрапхКс АПИ помаже у израчунавању графова и паралелних графова. Поједностављује анализу графикона и чини је бржом и поузданијом. Једна од главних и добро познатих апликација аналитике графова је Гоогле Мапс.

Открива удаљеност између две локације и даје оптималну сугестију руте. Други пример могу бити предлози пријатеља пријатеља на Фацебооку. ГрапхКс ради и са графиконима и са рачунањем. Спарк нуди низ алгоритама графикона као што су рангирање страница, повезане компоненте, ширење налепница, СВД ++, снажно повезане компоненте и број троуглова.

6. СпаркР

Р је најчешће коришћени статистички језик који садржи више од 10 000 пакета у различите сврхе. Користио је АПИ оквире података што олакшава рад са њима и пружа моћне визуализације научницима података да темељно анализирају своје податке. Међутим, Р не подржава паралелну обраду и ограничена је на количину меморије која је доступна у једној машини. Овде СпаркР улази у слику.

Спарк је развио пакет познат као СпаркР који решава питање скалабилности Р. Он се заснива на дистрибуираним оквирима података и такође пружа исту синтаксу као Р. Спарк-ов дистрибуирани процесор и Р-ова неуспоредива интерактивност, пакети и визуализација комбинују се како би добили научници података шта они желе своје анализе.

Закључак

Будући да је Спарк оквир опште намене, нашао се у широком спектру примене. Спарк се увелико користи у већини апликација за велике податке због својих перформанси и поузданости. Све ове компоненте Спарка се у сваком новом издању ажурирају са новим функцијама и чине нам живот лакшим.

Препоручени чланци

Ово је водич за Спарк Цомпонентс. Овде смо расправљали о прегледу и првих 6 компоненти искре са детаљним објашњењем. Такође можете погледати следеће чланке да бисте сазнали више -

  1. Топ 5 важнијих могућности кошнице
  2. Таленд Опен Студио компоненте / алати
  3. Топ 6 компоненти ИоТ екосистема
  4. Шта је таленд интеграција података са предностима?

Категорија: