Увод у искре команде

Апацхе Спарк је оквир изграђен на врху Хадоопа за брзе рачуне. Проширује концепт МапРедуце у сценарију заснованом на кластеру како би ефикасно извео задатак. Спарк Цомманд је написан у скали.

Хадооп Спарк може да користи на следеће начине (види доле):

Фиг. 1

хттпс://ввв.туториалспоинт.цом/

  1. Самостални: Спарк директно распоређен на врху Хадоопа. Послови искре се покрећу паралелно на Хадооп и Спарк.
  2. Хадооп ПРИЈЕВ: Спарк се покреће на пређи без потребе за прединсталацијом.
  3. Искра у МапРедуце (СИМР): Искра у МапРедуце се користи за покретање искривачког посла, поред самосталне примене. Помоћу СИМР-а, можете покренути Спарк и може користити његову љуску без икаквог административног приступа.

Цомпонентс оф Спарк:

  1. Апацхе Спарк Цоре
  2. Спарк СКЛ
  3. Спаркинг Стреаминг
  4. МЛиб
  5. ГрапхКс

Еластични дистрибуирани скупови података (РДД) сматрају се основном структуром података Спарк команди. РДД је непромењив и у природи само за читање. Све врсте израчуна у искачућим командама се раде путем трансформација и акција на РДД-у.

Слика 2

Гоогле слика

Спарк схелл пружа медиј за интеракцију корисника са његовим функцијама. Искрене команде имају пуно различитих команди које се могу користити за обраду података на интерактивној љусци.

Основне искре команде

Погледајмо неке од основних Спарк команди које су дате у наставку: -

  1. Да бисте покренули шкољку Спарк:

Слика 3

  1. Прочитајте датотеку из локалног система:

Овде је "сц" контекст искре. С обзиром да се „дата.ткт“ налази у матичном директорију, чита се овако, а потребно је одредити пуни пут.

  1. Креирајте РДД паралелизацијом

НевДата је сада РДД.

  1. Пребројите ставке у РДД-у

  1. Сакупи

Ова функција враћа сав РДД садржај управљачком програму. Ово је корисно код уклањања погрешака у различитим корацима програма писања.

  1. Прочитајте прве 3 ставке из РДД-а

  1. Спремите излазне / обрађене податке у текстуалну датотеку

Овде је "излаз" мапа тренутни пут.

Међусобне искре команде

1. Филтрирајте на РДД

Креирајмо нови РДД за ставке које садрже „да“.

Потребно је позвати филтер за трансформацију на постојећи РДД да би филтрирао реч „да“, што ће створити нови РДД са новом списком ставки.

2. Ланац рад

Овде су трансформација филтера и бројање деловали заједно. То се назива ланчана операција.

3. Прочитајте прву ставку из РДД-а

4. Пребројите РДД партиције

Као што знамо, РДД је направљен од више партиција, јавља се потреба за бројењем не. партиција. Као што помаже у подешавању и решавању проблема током рада са Спарк командама.

Подразумевано, минимални бр. пф партиција је 2.

5. придружи се

Ова функција повезује две табеле (елемент таблице је у паровима) на основу заједничког кључа. У парном РДД-у, први је елемент кључни, а други елемент вриједност.

6. Кеширајте датотеку

Кеширање је техника оптимизације. Кеширање РДД значи да ће РДД боравити у меморији, а сва будућа израчунавања бит ће извршена на тим РДД-има у меморији. Уштедава време читања диска и побољшава перформансе. Укратко, смањује се време приступа подацима.

Међутим, подаци се неће кеширати ако покренете изнад функције. Ово се може доказати посећивањем веб странице:

хттп: // лоцалхост: 4040 / стораге

РДД ће се кеширати након што се акција изврши. На пример:

Још једна функција која делује слично као цацхе () је персист (). Персист пружа корисницима флексибилност у аргументацији, што може помоћи да се подаци меморишу у меморију, диск или ван њену меморију. Упорно без икаквих аргумената дјелује исто као и цацхе ().

Напредне команде за искривање

Погледајмо неке од напредних Спарк команди које су дате у наставку: -

  1. Пренос променљиве

Броадцаст варијабла помаже програмеру да чита једину варијаблу спремљену на свакој машини у кластеру, а не испоручује копију те променљиве са задацима. Ово помаже у смањењу трошкова комуникације.

Слика 4

Гоогле Имаге

Укратко, постоје три главне карактеристике емитоване варијабле:

  1. Иммутабле
  2. Уклапа се у меморију
  3. Дистрибуира се преко кластера

  1. Акумулатери

Акумулатери су променљиве које се додају повезаним операцијама. Много је користи за акумулаторе попут бројача, сума итд.

Име акумулатора у коду могло се видети и у Спарк УИ.

  1. Мапа

Функција мапе помаже при понављању сваке линије у РДД-у. Функција која се користи у мапи примјењује се на сваки елемент у РДД-у.

На пример, у РДД (1, 2, 3, 4, 6) ако применимо „рдд.мап (к => к + 2)“ добићемо резултат као (3, 4, 5, 6, 8).

  1. Флатмап

Флатмап дјелује слично као на мапи, али карта враћа само један елемент док равна карта може вратити листу елемената. Стога ће за подјелу реченица у ријечи бити потребан равни.

  1. Цоалесце

Ова функција помаже да се избегне измештање података. Ово се примењује у постојећој партицији тако да се мање података измешта. На овај начин можемо ограничити употребу чворова у кластеру.

Савјети и трикови за кориштење искрећих наредби

Испод су различити савети и трикови команди Спарк: -

  1. Почетници Спарк-а могу користити Спарк-схелл. Како су Спарк команде изграђене на Сцали, тако је дефинитивно и коришћење љуске искре схелл одлично. Међутим, доступна је и питхон варна љуска, па чак и то што се може користити и неко ко је добро упознат са питхон-ом.
  2. Спарк схелл има пуно опција за управљање ресурсима кластера. Испод вам Команда може помоћи:

  1. У Спарку је рад са дугим скуповима података уобичајена ствар. Али ствари иду по злу када се узме лош унос. Увек је добра идеја да испустите лоше редове користећи филтрирајућу функцију Спарк. Добар сет улаза биће сјајан потез.
  2. Спарк за своје податке одабире добру партицију. Али увек је добра пракса да пазите на партиције пре него што започнете свој посао. Испробавање различитих партиција помоћи ће вам у паралелизму вашег посла.

Закључак - Искрене команде:

Спарк команда је револуционарни и свестрани механизам за велике податке, који може радити за батцх обраду, обраду у реалном времену, кеширање података итд. Спарк има богат скуп машинских учења библиотека које могу омогућити научницима података и аналитичким организацијама да граде снажне, интерактивне и брзе апликације.

Препоручени чланци

Ово је водич за Спарк команде. Овде смо разговарали о основним, као и напредним Спарк командама и неким непосредним Спарк командама. Такође можете погледати следећи чланак да бисте сазнали више -

  1. Команде Адобе Пхотосхоп
  2. Важне ВБА команде
  3. Команде Таблеау
  4. СКЛ (шифре, бесплатни савети и трикови)
  5. Врсте придруживања у Спарк СКЛ-у (примери)
  6. Спарк Цомпонентс | Преглед и првих 6 компоненти

Категорија: