Спарк ДатаФраме - Различите операције ДатаФраме-а са примером

Увод у Спарк ДатаФраме

Искриви оквир података може се рећи да је дистрибуирана збирка података која је организована у именоване ступце и користи се и за пружање операција као што су филтрирање, рачунање агрегација, групирање и такође се може користити са Спарк СКЛ-ом. Оквири података могу се креирати коришћењем структурираних датотека са подацима, заједно са постојећим РДД-овима, спољним базама података и Табелама кошница. У основи је назван и познат као слој апстракције који је изграђен на врху РДД-а, а затим следи АПИ скупа података који је уведен у каснијим верзијама Спарка (2.0 +). Штавише, скупови података нису уведени у Писпарк, већ само у Сцала витх Спарк, али то није био случај у случају Датафрамес. Оквири података популарно познати као ДФ-ови су логички колонски формати који рад с РДД-овима чине лакшим и практичнијим, користећи исте функције као и РДД-ови на исти начин. Ако више говорите на концептуалном нивоу, то је еквивалентно релацијским табелама, заједно са добрим могућностима и техникама оптимизације.

Како креирати ДатаФраме?

Оквир података се обично креира било којом од наведених метода. Може се креирати употребом таблица кошница, екстерних база података, структурираних датотека података или чак у случају постојећих РДД-ова. Ови сви начини могу креирати ове именоване ступце познате као Датафрамес који се користе за обраду у Апацхе Спарк. Коришћењем СКЛЦонтект или СпаркСессион апликација може се користити за креирање Датафрамес-а.

Операције ДатаФрамес-а

У Спарку, оквир података је дистрибуција и прикупљање организованог облика података у именоване ступце који је еквивалентан релацијској бази података или шеми или оквиру података на језику као што је Р или питхон, али заједно са богатијим нивоом оптимизације који ће се користити. Користи се за пружање одређене врсте домена језика која се може користити за манипулацију структуираним подацима.

У наставку су наведене неке основне операције обраде структурираних података коришћењем Датафрамес.

1. Читање документа типа: ЈСОН: Користили бисмо команду склЦонтект.реад.јсон.

Пример: Претпоставимо да је наше име датотеке студент.јсон, онда ће наш комад изгледати:
val dfs= sqlContext.read.json(“student.json”)

Излаз: У овом случају, излаз ће бити да ће се имена поља аутоматски преузети из датотеке студент.јсон.

2. Приказивање података: Да бисте видели податке у оквирима података Спарк, морат ћете користити наредбу:
дфс.схов ()

Пример: Претпоставимо да је наше име датотеке студент.јсон, онда ће наш комад изгледати:
val dfs= sqlContext.read.json(“student.json”) dfs.show()

Излаз: Подаци о студенту биће вам представљени у табеларном формату.

3. Кориштење методе принтСцхема: Ако сте заинтересовани да видите структуру тј. Схему оквира података, тада користите сљедећу наредбу: дфс.принтСцхема ()

Пример: Претпоставимо да је наше име датотеке студент.јсон, онда ће наш комад изгледати:

val dfs= sqlContext.read.json(“student.json”) dfs. printSchema ()

Излаз: Структура или шема ће вам бити представљени

4. Користите методу одабира: Да бисте користили методу одабира, наредна наредба ће се користити за преузимање имена и ступаца са листе оквира података.
дфс.селецт ("назив-ступца"). схов ()

Пример: Претпоставимо да је наше име датотеке студент.јсон, онда ће наш комад изгледати:
val dfs= sqlContext.read.json(“student.json”) dfs.select(“name”).show()

Излаз: Вриједности ступца имена се могу видјети.

5. Употреба филтра старосне доби: Следећа наредба се може користити за проналазак распона ученика чија је старост већа од 23 године.
дфс.филтер (дфс ("назив ступца")> вредност). схов ()

Пример: Претпоставимо да је наше име датотеке студент.јсон, онда ће наш комад изгледати:
val dfs= sqlContext.read.json(“student.json”) dfs.filter(dfs(“age”)>23).show()

Излаз: Филтрирана старост већа од 23 ће се појавити у резултатима.

6. Кориштење методе гроупБи: Следећи метод се може користити за бројање броја ученика који имају исту доб.
дфс.гроупБи ("назив-ступца"). цоунт (). схов ()

Пример: Претпоставимо да је наше име датотеке студент.јсон, онда ће наш комад изгледати:
val dfs= sqlContext.read.json(“student.json”) dfs.groupBy(“age”).count().show()

7. Кориштење СКЛ функције на СпаркСессион-у који омогућава апликацији да програмски извршава упите типа СКЛ и тако враћа резултат у облику оквира података.
спарк.скл (куери)

Пример: Претпоставимо да тада морамо да региструјемо СКЛ оквир података као темп приказ:
df.createOrReplaceTempView(“student”) sqlDF=spark.sql(“select * from student”) sqlDF.show()

Излаз: Створиће се привремени приказ именом ученика и на њему ће се примијенити спарк.скл како би се претворио у оквир података.

8. Кориштење СКЛ функције на Спарк Сессион фор Глобал привременом приказу: Ово омогућава апликацији да програмски извршава упите типа СКЛ и тако враћа резултат у облику оквира података.
спарк.скл (куери)

Пример: Претпоставимо да тада морамо да региструјемо СКЛ оквир података као темп приказ:
df.createGlobalTempView(“student”) park.sql(“select * from global_temp.student”).show() spark.newSession().sql(“Select * from global_temp.student”).show()

Предности Спарк ДатаФраме-а

Оквир података је дистрибуирана збирка података и стога су подаци организовани на начин назван ступац.
Они су мање или више слични табели у случају релацијских база података и имају богат сет за оптимизацију.
Оквири података користе се за оснаживање упита написаних у СКЛ-у као и АПИ оквира података
Може се користити за обраду како структурираних тако и неструктурираних врста података.
Употреба алата за оптимизацију катализатора чини оптимизацију једноставном и ефикасном.
Библиотеке су присутне на многим језицима као што су Питхон, Сцала, Јава и Р.
Користи се за обезбеђивање снажне компатибилности са кошницом и користи се за покретање непромењених упита о кошници на већ присутном складишту кошница.
Веома добро распоређује од неколико килограма на личном систему до многих петабајта на великим кластерима.
Користи се за лаган ниво интеграције са другим технологијама и оквирима великих података.
Апстракција коју пружају РДД-овима је ефикасна и чини бржу обраду.

Закључак - Спарк ДатаФраме

У овом посту научили сте врло критичну карактеристику Апацхе Спарк-а, а то су оквири података и његова употреба у апликацијама које данас раде, заједно са операцијама и предностима. Надам се да вам се свидео наш чланак. Пратите више оваквих.

Препоручени чланци

Ово је водич за Спарк ДатаФраме. Овдје смо разговарали о томе како креирати ДатаФраме? његове предности и различите операције ДатаФрамес-а заједно са одговарајућим узорком кода. Можете и да прођете кроз друге наше предложене чланке да бисте сазнали више -