Увод у ЦС ЦС датотеке

ЦСВ датотеке се широко користе за чување информација у табеларном формату, при чему сваки ред представља запис података. Да бисмо читали, писали или манипулирали подацима у Р-у, морамо имати на располагању неке податке. Подаци се могу наћи на Интернету или се могу прикупити из различитих извора, као што су анкете. Помоћу Р можете читати, писати и уређивати податке који се чувају у спољном окружењу. Р може да чита и пише податке из различитих формата као што су КСМЛ, ЦСВ и екцел. У овом чланку ћемо видети како се Р може користити за читање, писање и обављање различитих операција на ЦСВ датотекама.

Креирање ЦСВ датотеке у Р

У овом одељку ћемо видети како се оквир података може креирати и извозити у ЦСВ датотеку у Р. У првом ћемо створити оквир података који се састоји од променљивих запосленика и одговарајуће плате.

> df <- data.frame(Employee = c('Jonny', 'Grey', 'Mouni'),
+ Salary = c(23000, 41000, 32344))
> print (df)

Једном када се креира оквир података, време је да користимо Р-ову функцију извоза за креирање ЦСВ датотеке у Р. Да бисмо извели оквир података у ЦСВ, можемо да користимо доњи код.

> write.csv(df, 'C:\\Users\\Pantar User\\Desktop\\Employee.csv', row.names = FALSE)

У горњој линији кода дали смо директориј стаза за нашу славу података и спремили оквир података у ЦСВ формату. У горњем случају, ЦСВ датотека је сачувана на мојој личној радној површини. Ова датотека ће се користити у нашем водичу за обављање више операција.

Читање ЦСВ датотека у Р-у

Током извођења аналитике помоћу Р-а, у многим случајевима се од нас тражи читање података из ЦСВ датотеке. Р је веома поуздан док читате ЦСВ датотеке. У горњем примеру смо направили датотеку коју ћемо користити за читање помоћу команде реад.цсв. Испод је пример да се то учини у Р.

> df <- read.csv(file="C:\\Users\\Pantar User\\Desktop\\Employee.csv", header=TRUE,
sep=", ")
> df

Горња команда чита датотеку Емплоиее.цсв која је доступна на радној површини и приказује је у Р студију. Наредба заглавља подразумијева да је заглавље доступно за скуп података, а наредба сеп подразумијева да су подаци одвојени зарезима.

Пишите ЦСВ датотеке у Р

Писање у ЦСВ датотеку једна је од најкориснијих функција доступних у Р за аналитичара података. Ово се може користити за писање уређене ЦСВ датотеке у нову ЦСВ датотеку у циљу анализе података. Наредба Врите.цсв користи се за писање датотеке у ЦСВ.

У доњем коду дф у оквиру података у којем су наши подаци доступни, додатак се користи за спецификацију да је нова датотека створена уместо додавања или преписивања у стару датотеку. Додати лажно сугерише да се ствара нова ЦСВ датотека. Сеп представља поље раздвојено зарезом.

# Writing CSV file in R
write.csv(df, 'C:\\Users\\Pantar User\\Desktop\\Employee.csv' append = FALSE, sep = “, ”)

ЦСВ операције

ЦСВ операције су потребне за увид у податке након што се учитају у систем. Р има неколико уграђених функција за верификацију и увид у податке. Ове операције пружају потпуне информације о скупу података.

Једна од најчешће коришћених команди је резиме.

> summary(df)

Команда сажетак пружа нам статистику која се односи на ступце. Нумеричка варијабла је описана на статистички начин који укључује статистичке резултате као што су средња, мин, средња и макс. У горњем примјеру двије су варијабле које су запослени и плаће одвојене, а приказане су нам статистике за нумеричку варијаблу која је плата.

Наредба Виев () користи се за отварање скупа података на другој картици и ручну провјеру.

> View(df)

Стр функција ће корисницима пружити више детаља у вези са колоном података. У примјеру у наставку можемо видјети да варијабла Емплоиее има фактор као тип података, а варијабла Плата као инт података има инт (интегер).

> str(df)

У многим ћемо случајевима морати видјети укупан број редова који су доступни у случају великог скупа података, за који можемо користити наредбу нров (). Молимо погледајте пример испод.

> # to show the total number of rows in the dataset
> nrow(df)

На сличан начин да се прикаже укупан број колона, можемо користити и нцол () команду

> ncol(df)

Р нам омогућава да прикажемо жељени број редова помоћу наредбе испод. Када је њихов н број редова доступан у скупу података, можемо одредити распон редова који ће се приказати.

> # to display first 2 rows of the data
> df(1:2, )

Операција података врши се на великом скупу података. За илустрацију, преузео сам скуп података с отвореним кодом отвореног кода НИ поштанског броја.

> NiPostCode <- read.csv("NIPostcodes.csv", na.strings="", header=FALSE)

У горе наведеном скупу података можемо видети да имена заглавља недостају и да постоје многе нулте вредности. Подаци се морају очистити да би били спремни за анализу. У следећем кораку заглавља ће бити према томе и имена.

> # adding headers/title
> names(NiPostCode)(1) <-"OrganisationName"
> names(NiPostCode)(2) <-"Sub-buildingName"
> names(NiPostCode)(3) <-"BuildingName"
> names(NiPostCode)(4) <-"Number"
> names(NiPostCode)(5) <-"Location"
> names(NiPostCode)(6) <-"Alt Thorfare"
> names(NiPostCode)(7) <-"Secondary Thorfare"
> names(NiPostCode)(8) <-"Locality"
> names(NiPostCode)(9) <-"Townland"
> names(NiPostCode)(10) <-"Town"
> names(NiPostCode)(11) <-"County"
> names(NiPostCode)(12) <-"Postcode"
> names(NiPostCode)(13) <-"x-coordinates"
> names(NiPostCode)(14) <-"y-coordinates"
> names(NiPostCode)(15) <-"Primary Key"

Сада пребројмо број недостајућих вредности у оквиру података и уклонимо их у складу с тим.

> # count of all missing values
> table(is.na (NiPostCode))

Из горње наредбе видимо да је укупан број празнина или НА у податковном оквиру близу 5445148. Уклањање свих нултих вредности резултираће губитком огромне количине података, стога је паметно уклонити ступце у којима је више од половине од 50% података недостаје.

> # delete columns with more than 50% missing values
> NiPostcodes 0.5)) > (NiPostcodes)

Закључак

У овом туториалу смо видели како се ЦСВ датотеке могу креирати, читати и додавати помоћу операција у Р. Научили смо како да креирамо нови скуп података у Р, а затим га увозимо у ЦСВ формат. Даље смо видели више операција као што је преименовање заглавља и бројање броја редова и ступаца.

Препоручени чланци

Ово је водич за Р ЦСВ датотеке. Овдје разговарамо о стварању, читању и писању ЦСВ датотеке у Р с ЦСВ операцијама. Такође можете погледати следећи чланак да бисте сазнали више -

  1. ЈСОН вс ЦСВ
  2. Процес рударјења података
  3. Каријере у анализи података
  4. Екцел вс ЦСВ

Категорија: