Увод у Спарк Датасет

Скуп података је структура података у Спарк СКЛ-у која пружа сигурност типа компилације, објектно оријентисано сучеље као и Спарк СКЛ-ову оптимизацију.

Концептуално је табеларна структура у меморији која има редове и ступце и која је распоређена у више чворова попут Датафраме-а.

То је проширење Датафраме-а. Главна разлика између скупа података и скупа података је да су скупови података снажно куцани.

(Скуп података) = (Датафраме + Сигурност типа компилације)

Скуп података је објављен у Спарк 1.6 као експериментални АПИ. И Датафраме и Датасет су обједињени у Спарк 2.0 верзији, а Датафраме постаје надимак за Датасет (Ров).

Датафраме = Скуп података (Ред)

Зашто нам треба Спарк Датасет?

Да бисмо имали јасно разумевање скупа података, морамо започети са мало историје искре и њене еволуције.

РДД је језгро Спарка. Инспирисан СКЛ-ом и да би олакшао ствари, Датафраме је креиран на врху РДД-а. Датафраме је еквивалентан табели у релацијској бази података или ДатаФраме на Питхон-у.

РДД пружа сигурност типа компајлирања, али у РДД-у нема аутоматске оптимизације.

Датафраме пружа аутоматску оптимизацију, али јој недостаје сигурност типа компилације.

Скуп података је додат као проширење Датафраме-а. Скуп података комбинира карактеристике и РДД-а (тј. Сигурност типа компилације) као и Датафраме (тј. Спарк СКЛ аутоматска оптимизација).

(РДД (Спарк 1.0)) -> (Оквир података (Спарк1.3)) -> (Скуп података (Спарк1.6))

Како Датасет има сигурност током компајлирања, зато је подржан само на компајлираном језику (Јава & Сцала), али не и на интерпретираном језику (Р & Питхон). Али АПИ за Дата Дата Фраме је доступан на сва четири језика (Јава, Сцала, Питхон & Р) које подржава Спарк.

Језик који подржава СпаркДатафраме АПИАПИ скупа података
Састављени језик (Јава и скала)ДАДА
Тумачени језик (Р & Питхон)ДАНЕ

Како да креирате скуп података?

Постоји више начина креирања скупа података на основу цасецасе

1. Прво направите СпаркСессион

СпаркСессион је једина тачка уласка у апликацију за искре која омогућава интеракцију са основном Спарк функционалношћу и програмирањем Спарк-а помоћу АПИ-ја ДатаФраме и Датасет.

val spark = SparkSession
.builder()
.appName("SparkDatasetExample")
.enableHiveSupport()
.getOrCreate()

  • Да бисте креирали базу података користећи основну структуру података као што су распон, редослед, списак, итд .:

Коришћење домета

Коришћење секвенце

Коришћење листе

  • Да бисте креирали базу података користећи редослед класа случаја позивањем .тоДС () методе:

  • Да бисте креирали скуп података из РДД-а помоћу .тоДС ():

  • Да бисте креирали скуп података из Датафраме-а користећи Цасе Цласс:

  • Да бисте креирали скуп података из Датафрамеа помоћу Туплес:

2. Операције на скупу података искре

  1. Пример броја речи

  1. Претворите искриви сет података у оквир података

Такође можемо претворити Спарк Датасет у Датафаме и користити АПИ-је Датафраме као што следи:

Карактеристике Спарк скупа података

  1. Тип Безбедност

Скуп података омогућава безбедност типа компилације. То значи да ће се синтакса, као и грешке у анализи апликације проверити у време превођења пре него што се покрене.

  1. Непроменљивост

Скуп података је такође непроменљив попут РДД и Датафраме. То значи да не можемо да променимо створени скуп података. Сваки пут када се створи нови скуп података када се било која трансформација примјени на скуп података.

  1. Шема

Скуп података је табеларна структура у меморији која има редове и именоване ступце.

  1. Перформансе и оптимизација

Као и Датафраме, скуп података користи и Цаталист Оптимизатион за генерисање оптимизованог плана логичких и физичких упита.

  1. Програмски језик

Апи базе података присутни су само у Јави и Сцали који су компајлирани језици, али не и на Питхон-у који је интерпретирани језик.

  1. Лази Евалуатион

Попут РДД-а и Датафраме-а, и Датасет такође врши лену процену. То значи да се израчунавање дешава само када се изврши акција. Спарк прави само планове током фазе трансформације.

  1. Серијализација и одвоз смећа

Спарк подаци не користе стандардне сериализе (Крио или Јава сериализатион). Уместо тога, користи Тунгстен-ове брзе меморијске кодре који разумеју унутрашњу структуру података и могу ефикасно трансформисати објекте у унутрашњу бинарну меморију. Користи вансеријску серијску употребу података помоћу волфрамовог енкодера и стога нема потребе за сакупљањем смећа.

Закључак

Скуп података је најбољи и за РДД и за Датафраме. РДД пружа сигурност типа компајлирања, али недостаје аутоматска оптимизација. Датафраме пружа аутоматску оптимизацију, али недостаје сигурност типа компилације. Скуп података пружа сигурност типа компајлирања и аутоматску оптимизацију. Стога је скуп података најбољи избор за програмере Спарк који користе Јава или Сцала.

Препоручени чланци

Ово је водич за Спарк Датасет. Овдје смо расправљали о томе како створити сјајни скуп података на више начина помоћу примјера и функција. Можда ћете такође погледати следеће чланке да бисте сазнали више -

  1. Команде искричавих граната
  2. Спарк Интервју Питања
  3. Цареер ин Спарк
  4. Спаркинг Стреаминг
  5. Различите операције повезане са Туповима
  6. Спарк СКЛ Датафраме
  7. Врсте придруживања у Спарк СКЛ-у (примери)
  8. Водич до листе команди Уник Схелл-а
  9. Топ 6 компоненти искре

Категорија: