GitHub - pakbungdesu/data-manipulation: My practices of cleaning and summarizing data using R, Numpy, Pandas etc.

Content

Data Manipulation using R
Data Manipulation using Python (Numpy, Pandas etc.)

Data Manipulation using R

Data Cleaning

Adjust data structure to prevent data type errors

Tackle with missing values using is.na() and complete.cases()

Replace with correct data

# Example

df[is.na(df$State) & df$City == "New York", "State"] <- "NY"
df[is.na(df$State) & df$City == "San Francisco", "State"] <- "CA"

Fill with median imputation of sub-sector

# Example

med_emp_retail <- median(df[df$Industry == "Retail",]$Employees, na.rm = TRUE)
df[is.na(df$Employees) & df$Industry == "Retail", "Employees"] <- med_emp_retail

Aggregation and Summarisation
- Using apply(), lapply(), sapply() through matrix
- Store dataframe in a list and export in one time by export_list()

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
Chicago-C.csv		Chicago-C.csv
Chicago-F.csv		Chicago-F.csv
Future-500-Dataset.csv		Future-500-Dataset.csv
Houston-C.csv		Houston-C.csv
Houston-F.csv		Houston-F.csv
NewYork-C.csv		NewYork-C.csv
NewYork-F.csv		NewYork-F.csv
README.md		README.md
SanFrancisco-C.csv		SanFrancisco-C.csv
SanFrancisco-F.csv		SanFrancisco-F.csv
cleaning_data.r		cleaning_data.r
summarizing_data.r		summarizing_data.r

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Chicago-C.csv

Chicago-C.csv

Chicago-F.csv

Chicago-F.csv

Future-500-Dataset.csv

Future-500-Dataset.csv

Houston-C.csv

Houston-C.csv

Houston-F.csv

Houston-F.csv

NewYork-C.csv

NewYork-C.csv

NewYork-F.csv

NewYork-F.csv

README.md

README.md

SanFrancisco-C.csv

SanFrancisco-C.csv

SanFrancisco-F.csv

SanFrancisco-F.csv

cleaning_data.r

cleaning_data.r

summarizing_data.r

summarizing_data.r

Repository files navigation

Content

Data Manipulation using R

About

Releases

Packages

Languages

pakbungdesu/data-manipulation

Folders and files

Latest commit

History

Repository files navigation

Content

Data Manipulation using R

About

Topics

Resources

Stars

Watchers

Forks

Languages