Увод у Спарк Датасет
Скуп података је структура података у Спарк СКЛ-у која пружа сигурност типа компилације, објектно оријентисано сучеље као и Спарк СКЛ-ову оптимизацију.
Концептуално је табеларна структура у меморији која има редове и ступце и која је распоређена у више чворова попут Датафраме-а.
То је проширење Датафраме-а. Главна разлика између скупа података и скупа података је да су скупови података снажно куцани.
(Скуп података) = (Датафраме + Сигурност типа компилације)
Скуп података је објављен у Спарк 1.6 као експериментални АПИ. И Датафраме и Датасет су обједињени у Спарк 2.0 верзији, а Датафраме постаје надимак за Датасет (Ров).
Датафраме = Скуп података (Ред)
Зашто нам треба Спарк Датасет?
Да бисмо имали јасно разумевање скупа података, морамо започети са мало историје искре и њене еволуције.
РДД је језгро Спарка. Инспирисан СКЛ-ом и да би олакшао ствари, Датафраме је креиран на врху РДД-а. Датафраме је еквивалентан табели у релацијској бази података или ДатаФраме на Питхон-у.
РДД пружа сигурност типа компајлирања, али у РДД-у нема аутоматске оптимизације.
Датафраме пружа аутоматску оптимизацију, али јој недостаје сигурност типа компилације.
Скуп података је додат као проширење Датафраме-а. Скуп података комбинира карактеристике и РДД-а (тј. Сигурност типа компилације) као и Датафраме (тј. Спарк СКЛ аутоматска оптимизација).
(РДД (Спарк 1.0)) -> (Оквир података (Спарк1.3)) -> (Скуп података (Спарк1.6))
Како Датасет има сигурност током компајлирања, зато је подржан само на компајлираном језику (Јава & Сцала), али не и на интерпретираном језику (Р & Питхон). Али АПИ за Дата Дата Фраме је доступан на сва четири језика (Јава, Сцала, Питхон & Р) које подржава Спарк.
Језик који подржава Спарк | Датафраме АПИ | АПИ скупа података |
Састављени језик (Јава и скала) | ДА | ДА |
Тумачени језик (Р & Питхон) | ДА | НЕ |
Како да креирате скуп података?
Постоји више начина креирања скупа података на основу цасецасе
1. Прво направите СпаркСессион
СпаркСессион је једина тачка уласка у апликацију за искре која омогућава интеракцију са основном Спарк функционалношћу и програмирањем Спарк-а помоћу АПИ-ја ДатаФраме и Датасет.
val spark = SparkSession
.builder()
.appName("SparkDatasetExample")
.enableHiveSupport()
.getOrCreate()
- Да бисте креирали базу података користећи основну структуру података као што су распон, редослед, списак, итд .:
Коришћење домета
Коришћење секвенце
Коришћење листе
- Да бисте креирали базу података користећи редослед класа случаја позивањем .тоДС () методе:
- Да бисте креирали скуп података из РДД-а помоћу .тоДС ():
- Да бисте креирали скуп података из Датафраме-а користећи Цасе Цласс:
- Да бисте креирали скуп података из Датафрамеа помоћу Туплес:
2. Операције на скупу података искре
- Пример броја речи
- Претворите искриви сет података у оквир података
Такође можемо претворити Спарк Датасет у Датафаме и користити АПИ-је Датафраме као што следи:
Карактеристике Спарк скупа података
- Тип Безбедност
Скуп података омогућава безбедност типа компилације. То значи да ће се синтакса, као и грешке у анализи апликације проверити у време превођења пре него што се покрене.
- Непроменљивост
Скуп података је такође непроменљив попут РДД и Датафраме. То значи да не можемо да променимо створени скуп података. Сваки пут када се створи нови скуп података када се било која трансформација примјени на скуп података.
- Шема
Скуп података је табеларна структура у меморији која има редове и именоване ступце.
- Перформансе и оптимизација
Као и Датафраме, скуп података користи и Цаталист Оптимизатион за генерисање оптимизованог плана логичких и физичких упита.
- Програмски језик
Апи базе података присутни су само у Јави и Сцали који су компајлирани језици, али не и на Питхон-у који је интерпретирани језик.
- Лази Евалуатион
Попут РДД-а и Датафраме-а, и Датасет такође врши лену процену. То значи да се израчунавање дешава само када се изврши акција. Спарк прави само планове током фазе трансформације.
- Серијализација и одвоз смећа
Спарк подаци не користе стандардне сериализе (Крио или Јава сериализатион). Уместо тога, користи Тунгстен-ове брзе меморијске кодре који разумеју унутрашњу структуру података и могу ефикасно трансформисати објекте у унутрашњу бинарну меморију. Користи вансеријску серијску употребу података помоћу волфрамовог енкодера и стога нема потребе за сакупљањем смећа.
Закључак
Скуп података је најбољи и за РДД и за Датафраме. РДД пружа сигурност типа компајлирања, али недостаје аутоматска оптимизација. Датафраме пружа аутоматску оптимизацију, али недостаје сигурност типа компилације. Скуп података пружа сигурност типа компајлирања и аутоматску оптимизацију. Стога је скуп података најбољи избор за програмере Спарк који користе Јава или Сцала.
Препоручени чланци
Ово је водич за Спарк Датасет. Овдје смо расправљали о томе како створити сјајни скуп података на више начина помоћу примјера и функција. Можда ћете такође погледати следеће чланке да бисте сазнали више -
- Команде искричавих граната
- Спарк Интервју Питања
- Цареер ин Спарк
- Спаркинг Стреаминг
- Различите операције повезане са Туповима
- Спарк СКЛ Датафраме
- Врсте придруживања у Спарк СКЛ-у (примери)
- Водич до листе команди Уник Схелл-а
- Топ 6 компоненти искре