Увод у Спарк ДатаФраме
Искриви оквир података може се рећи да је дистрибуирана збирка података која је организована у именоване ступце и користи се и за пружање операција као што су филтрирање, рачунање агрегација, групирање и такође се може користити са Спарк СКЛ-ом. Оквири података могу се креирати коришћењем структурираних датотека са подацима, заједно са постојећим РДД-овима, спољним базама података и Табелама кошница. У основи је назван и познат као слој апстракције који је изграђен на врху РДД-а, а затим следи АПИ скупа података који је уведен у каснијим верзијама Спарка (2.0 +). Штавише, скупови података нису уведени у Писпарк, већ само у Сцала витх Спарк, али то није био случај у случају Датафрамес. Оквири података популарно познати као ДФ-ови су логички колонски формати који рад с РДД-овима чине лакшим и практичнијим, користећи исте функције као и РДД-ови на исти начин. Ако више говорите на концептуалном нивоу, то је еквивалентно релацијским табелама, заједно са добрим могућностима и техникама оптимизације.
Како креирати ДатаФраме?
Оквир података се обично креира било којом од наведених метода. Може се креирати употребом таблица кошница, екстерних база података, структурираних датотека података или чак у случају постојећих РДД-ова. Ови сви начини могу креирати ове именоване ступце познате као Датафрамес који се користе за обраду у Апацхе Спарк. Коришћењем СКЛЦонтект или СпаркСессион апликација може се користити за креирање Датафрамес-а.
Операције ДатаФрамес-а
У Спарку, оквир података је дистрибуција и прикупљање организованог облика података у именоване ступце који је еквивалентан релацијској бази података или шеми или оквиру података на језику као што је Р или питхон, али заједно са богатијим нивоом оптимизације који ће се користити. Користи се за пружање одређене врсте домена језика која се може користити за манипулацију структуираним подацима.
У наставку су наведене неке основне операције обраде структурираних података коришћењем Датафрамес.
1. Читање документа типа: ЈСОН: Користили бисмо команду склЦонтект.реад.јсон.
Пример: Претпоставимо да је наше име датотеке студент.јсон, онда ће наш комад изгледати:val dfs= sqlContext.read.json(“student.json”)
Излаз: У овом случају, излаз ће бити да ће се имена поља аутоматски преузети из датотеке студент.јсон.
2. Приказивање података: Да бисте видели податке у оквирима података Спарк, морат ћете користити наредбу:
дфс.схов ()
Пример: Претпоставимо да је наше име датотеке студент.јсон, онда ће наш комад изгледати:val dfs= sqlContext.read.json(“student.json”)
dfs.show()
Излаз: Подаци о студенту биће вам представљени у табеларном формату.
3. Кориштење методе принтСцхема: Ако сте заинтересовани да видите структуру тј. Схему оквира података, тада користите сљедећу наредбу: дфс.принтСцхема ()
Пример: Претпоставимо да је наше име датотеке студент.јсон, онда ће наш комад изгледати:
val dfs= sqlContext.read.json(“student.json”)
dfs. printSchema ()
Излаз: Структура или шема ће вам бити представљени
4. Користите методу одабира: Да бисте користили методу одабира, наредна наредба ће се користити за преузимање имена и ступаца са листе оквира података.
дфс.селецт ("назив-ступца"). схов ()
Пример: Претпоставимо да је наше име датотеке студент.јсон, онда ће наш комад изгледати:val dfs= sqlContext.read.json(“student.json”)
dfs.select(“name”).show()
Излаз: Вриједности ступца имена се могу видјети.
5. Употреба филтра старосне доби: Следећа наредба се може користити за проналазак распона ученика чија је старост већа од 23 године.
дфс.филтер (дфс ("назив ступца")> вредност). схов ()
Пример: Претпоставимо да је наше име датотеке студент.јсон, онда ће наш комад изгледати:val dfs= sqlContext.read.json(“student.json”)
dfs.filter(dfs(“age”)>23).show()
Излаз: Филтрирана старост већа од 23 ће се појавити у резултатима.
6. Кориштење методе гроупБи: Следећи метод се може користити за бројање броја ученика који имају исту доб.
дфс.гроупБи ("назив-ступца"). цоунт (). схов ()
Пример: Претпоставимо да је наше име датотеке студент.јсон, онда ће наш комад изгледати:val dfs= sqlContext.read.json(“student.json”)
dfs.groupBy(“age”).count().show()
7. Кориштење СКЛ функције на СпаркСессион-у који омогућава апликацији да програмски извршава упите типа СКЛ и тако враћа резултат у облику оквира података.
спарк.скл (куери)
Пример: Претпоставимо да тада морамо да региструјемо СКЛ оквир података као темп приказ:df.createOrReplaceTempView(“student”)
sqlDF=spark.sql(“select * from student”)
sqlDF.show()
Излаз: Створиће се привремени приказ именом ученика и на њему ће се примијенити спарк.скл како би се претворио у оквир података.
8. Кориштење СКЛ функције на Спарк Сессион фор Глобал привременом приказу: Ово омогућава апликацији да програмски извршава упите типа СКЛ и тако враћа резултат у облику оквира података.
спарк.скл (куери)
Пример: Претпоставимо да тада морамо да региструјемо СКЛ оквир података као темп приказ:df.createGlobalTempView(“student”)
park.sql(“select * from global_temp.student”).show()
spark.newSession().sql(“Select * from global_temp.student”).show()
Излаз: Створиће се привремени приказ именом ученика и на њему ће се примијенити спарк.скл како би се претворио у оквир података.
Предности Спарк ДатаФраме-а
- Оквир података је дистрибуирана збирка података и стога су подаци организовани на начин назван ступац.
- Они су мање или више слични табели у случају релацијских база података и имају богат сет за оптимизацију.
- Оквири података користе се за оснаживање упита написаних у СКЛ-у као и АПИ оквира података
- Може се користити за обраду како структурираних тако и неструктурираних врста података.
- Употреба алата за оптимизацију катализатора чини оптимизацију једноставном и ефикасном.
- Библиотеке су присутне на многим језицима као што су Питхон, Сцала, Јава и Р.
- Користи се за обезбеђивање снажне компатибилности са кошницом и користи се за покретање непромењених упита о кошници на већ присутном складишту кошница.
- Веома добро распоређује од неколико килограма на личном систему до многих петабајта на великим кластерима.
- Користи се за лаган ниво интеграције са другим технологијама и оквирима великих података.
- Апстракција коју пружају РДД-овима је ефикасна и чини бржу обраду.
Закључак - Спарк ДатаФраме
У овом посту научили сте врло критичну карактеристику Апацхе Спарк-а, а то су оквири података и његова употреба у апликацијама које данас раде, заједно са операцијама и предностима. Надам се да вам се свидео наш чланак. Пратите више оваквих.
Препоручени чланци
Ово је водич за Спарк ДатаФраме. Овдје смо разговарали о томе како креирати ДатаФраме? његове предности и различите операције ДатаФрамес-а заједно са одговарајућим узорком кода. Можете и да прођете кроз друге наше предложене чланке да бисте сазнали више -
- Спаркинг Стреаминг
- Како инсталирати варницу
- Цареер ин Спарк
- Спарк Интервју Питања
- Оквири података у Р
- 7 различитих врста спајања у Спарк СКЛ-у (примери)
- ПиСпарк СКЛ | Модули и методе ПиСпарк СКЛ
- Спарк Цомпонентс | Преглед компоненти варнице