R语言可视化平台
多个数据集,同一个代码实现可视化挖掘?
R语言有强大的可视化功能,不在进行过多阐述,明确告诉大家是可以解决这个问题的。步骤如下:
一、.数据读取
1.读取和导入常用方法
你第一步要解决的问题是将数据导进去对吧?先不提及需要搭建的平台,首要任务是得解决读取数据的功能吧!
R语言中还有一些其他较为普遍的数据集读入方法,比如程序代码包,R文件,工作空间等。如下读取**install.packages( )#安装包**
**BoLitce( ) #安装包**
**library( ) #加载包**
**source #读取R代码**
**dget #读取R文件**
**load #读取工作空间** 2.读取xlsx中所有的sheet表格
#定义List,用list()函数来主动定义,用data.list[]对文件数据进行赋值data.list<-list()
for (i in 1:2){
data.list[[i]]=read.xlsx("M1.xlsx",i)
} 3.生成多个sheet表格flie=list()
dataflie=paste(1:2,".xlsx",sep="")
for(i in 1:2){
flie[[i]]=paste("C:/Users/long/Desktop/",dataflie[i],sep="")
write.xlsx(data.list2[[i]],file)
} 4.读入文件夹下的数据文件
如何批量读取一个文件夹中的各种csv文件。
第一步设置环境变量path<- "C:/Users/long/Desktop"
data <- list.files(micepath, pattern = "*.csv$", full.names = TRUE) 第二步:文件信息放入list中读取files=list()
for (i in 1:2){
files[i]=read.csv(data[[i]],header = F,1)
} 讲到这里,需要进行说明一下。当我们为了实现作业式提交的方法,将数据逐个提交到作业文件夹中,然后对数据进行读取,就可以进行该操作了,这能实现任何数据集的读取!可以避免不同文件名读取造成的问题,不需要每读取一次数据进行read.csv
二、.数据可视化图像
1.包的介绍
tidyverse是一组处理与可视化R包的集合,其中ggplot2与dplyr最广为人知。
核心包有以下一些:
ggplot2 - 可视化数据
dplyr - 数据操作语法,可以用它解决大部分数据处理问题
tidyr - 清理数据
readr - 读入表格数据
purrr - 提供一个完整一致的工具集增强R的函数编程
tibble - 新一代数据框
stringr - 提供函数集用来处理字符数据
forcats - 提供有用工具用来处理因子问题set.seed(1234)
library(tidyverse)
library(data.table)
n <- 5
nested_data <-
letters[1:5] %>%
data.table(name=.) %>%
mutate(size=runif(n = 5,min=1,max=10) %>% round
,mean=runif(n = 5,min=1,max=10)
,sd=runif(n = 5,min=1,max=10)
) %>%
mutate(data =
pmap(
list(name,size,mean,sd)
,function(name,size,mean,sd){
data_frame(
var = rnorm(size*100,mean,sd)
) %>%
set_names(name)
}
)) %>%
select(name,data) 剩下的下次再进行说明!
|