Увод у Спарк ДатаФраме

Искриви оквир података може се рећи да је дистрибуирана збирка података која је организована у именоване ступце и користи се и за пружање операција као што су филтрирање, рачунање агрегација, групирање и такође се може користити са Спарк СКЛ-ом. Оквири података могу се креирати коришћењем структурираних датотека са подацима, заједно са постојећим РДД-овима, спољним базама података и Табелама кошница. У основи је назван и познат као слој апстракције који је изграђен на врху РДД-а, а затим следи АПИ скупа података који је уведен у каснијим верзијама Спарка (2.0 +). Штавише, скупови података нису уведени у Писпарк, већ само у Сцала витх Спарк, али то није био случај у случају Датафрамес. Оквири података популарно познати као ДФ-ови су логички колонски формати који рад с РДД-овима чине лакшим и практичнијим, користећи исте функције као и РДД-ови на исти начин. Ако више говорите на концептуалном нивоу, то је еквивалентно релацијским табелама, заједно са добрим могућностима и техникама оптимизације.

Како креирати ДатаФраме?

Оквир података се обично креира било којом од наведених метода. Може се креирати употребом таблица кошница, екстерних база података, структурираних датотека података или чак у случају постојећих РДД-ова. Ови сви начини могу креирати ове именоване ступце познате као Датафрамес који се користе за обраду у Апацхе Спарк. Коришћењем СКЛЦонтект или СпаркСессион апликација може се користити за креирање Датафрамес-а.

Операције ДатаФрамес-а

У Спарку, оквир података је дистрибуција и прикупљање организованог облика података у именоване ступце који је еквивалентан релацијској бази података или шеми или оквиру података на језику као што је Р или питхон, али заједно са богатијим нивоом оптимизације који ће се користити. Користи се за пружање одређене врсте домена језика која се може користити за манипулацију структуираним подацима.

У наставку су наведене неке основне операције обраде структурираних података коришћењем Датафрамес.

1. Читање документа типа: ЈСОН: Користили бисмо команду склЦонтект.реад.јсон.

Пример: Претпоставимо да је наше име датотеке студент.јсон, онда ће наш комад изгледати:
val dfs= sqlContext.read.json(“student.json”)

Излаз: У овом случају, излаз ће бити да ће се имена поља аутоматски преузети из датотеке студент.јсон.

2. Приказивање података: Да бисте видели податке у оквирима података Спарк, морат ћете користити наредбу:
дфс.схов ()

Пример: Претпоставимо да је наше име датотеке студент.јсон, онда ће наш комад изгледати:
val dfs= sqlContext.read.json(“student.json”)
dfs.show()

Излаз: Подаци о студенту биће вам представљени у табеларном формату.

3. Кориштење методе принтСцхема: Ако сте заинтересовани да видите структуру тј. Схему оквира података, тада користите сљедећу наредбу: дфс.принтСцхема ()

Пример: Претпоставимо да је наше име датотеке студент.јсон, онда ће наш комад изгледати:

val dfs= sqlContext.read.json(“student.json”)
dfs. printSchema ()

Излаз: Структура или шема ће вам бити представљени

4. Користите методу одабира: Да бисте користили методу одабира, наредна наредба ће се користити за преузимање имена и ступаца са листе оквира података.
дфс.селецт ("назив-ступца"). схов ()

Пример: Претпоставимо да је наше име датотеке студент.јсон, онда ће наш комад изгледати:
val dfs= sqlContext.read.json(“student.json”)
dfs.select(“name”).show()

Излаз: Вриједности ступца имена се могу видјети.

5. Употреба филтра старосне доби: Следећа наредба се може користити за проналазак распона ученика чија је старост већа од 23 године.
дфс.филтер (дфс ("назив ступца")> вредност). схов ()

Пример: Претпоставимо да је наше име датотеке студент.јсон, онда ће наш комад изгледати:
val dfs= sqlContext.read.json(“student.json”)
dfs.filter(dfs(“age”)>23).show()

Излаз: Филтрирана старост већа од 23 ће се појавити у резултатима.

6. Кориштење методе гроупБи: Следећи метод се може користити за бројање броја ученика који имају исту доб.
дфс.гроупБи ("назив-ступца"). цоунт (). схов ()

Пример: Претпоставимо да је наше име датотеке студент.јсон, онда ће наш комад изгледати:
val dfs= sqlContext.read.json(“student.json”)
dfs.groupBy(“age”).count().show()

7. Кориштење СКЛ функције на СпаркСессион-у који омогућава апликацији да програмски извршава упите типа СКЛ и тако враћа резултат у облику оквира података.
спарк.скл (куери)

Пример: Претпоставимо да тада морамо да региструјемо СКЛ оквир података као темп приказ:
df.createOrReplaceTempView(“student”)
sqlDF=spark.sql(“select * from student”)
sqlDF.show()

Излаз: Створиће се привремени приказ именом ученика и на њему ће се примијенити спарк.скл како би се претворио у оквир података.

8. Кориштење СКЛ функције на Спарк Сессион фор Глобал привременом приказу: Ово омогућава апликацији да програмски извршава упите типа СКЛ и тако враћа резултат у облику оквира података.
спарк.скл (куери)

Пример: Претпоставимо да тада морамо да региструјемо СКЛ оквир података као темп приказ:
df.createGlobalTempView(“student”)
park.sql(“select * from global_temp.student”).show()
spark.newSession().sql(“Select * from global_temp.student”).show()

Излаз: Створиће се привремени приказ именом ученика и на њему ће се примијенити спарк.скл како би се претворио у оквир података.

Предности Спарк ДатаФраме-а

  1. Оквир података је дистрибуирана збирка података и стога су подаци организовани на начин назван ступац.
  2. Они су мање или више слични табели у случају релацијских база података и имају богат сет за оптимизацију.
  3. Оквири података користе се за оснаживање упита написаних у СКЛ-у као и АПИ оквира података
  4. Може се користити за обраду како структурираних тако и неструктурираних врста података.
  5. Употреба алата за оптимизацију катализатора чини оптимизацију једноставном и ефикасном.
  6. Библиотеке су присутне на многим језицима као што су Питхон, Сцала, Јава и Р.
  7. Користи се за обезбеђивање снажне компатибилности са кошницом и користи се за покретање непромењених упита о кошници на већ присутном складишту кошница.
  8. Веома добро распоређује од неколико килограма на личном систему до многих петабајта на великим кластерима.
  9. Користи се за лаган ниво интеграције са другим технологијама и оквирима великих података.
  10. Апстракција коју пружају РДД-овима је ефикасна и чини бржу обраду.

Закључак - Спарк ДатаФраме

У овом посту научили сте врло критичну карактеристику Апацхе Спарк-а, а то су оквири података и његова употреба у апликацијама које данас раде, заједно са операцијама и предностима. Надам се да вам се свидео наш чланак. Пратите више оваквих.

Препоручени чланци

Ово је водич за Спарк ДатаФраме. Овдје смо разговарали о томе како креирати ДатаФраме? његове предности и различите операције ДатаФрамес-а заједно са одговарајућим узорком кода. Можете и да прођете кроз друге наше предложене чланке да бисте сазнали више -

  1. Спаркинг Стреаминг
  2. Како инсталирати варницу
  3. Цареер ин Спарк
  4. Спарк Интервју Питања
  5. Оквири података у Р
  6. 7 различитих врста спајања у Спарк СКЛ-у (примери)
  7. ПиСпарк СКЛ | Модули и методе ПиСпарк СКЛ
  8. Спарк Цомпонентс | Преглед компоненти варнице

Категорија: