评论

收藏

[R语言] R语言自主数据挖掘平台

编程语言 编程语言 发布于:2021-07-01 22:58 | 阅读数:506 | 评论:0

  R语言可视化平台
多个数据集,同一个代码实现可视化挖掘?
  R语言有强大的可视化功能,不在进行过多阐述,明确告诉大家是可以解决这个问题的。步骤如下:

一、.数据读取
  1.读取和导入常用方法
你第一步要解决的问题是将数据导进去对吧?先不提及需要搭建的平台,首要任务是得解决读取数据的功能吧!
R语言中还有一些其他较为普遍的数据集读入方法,比如程序代码包,R文件,工作空间等。如下读取
**install.packages( )#安装包**
  **BoLitce( ) #安装包**
  **library( ) #加载包**
  **source  #读取R代码**
 **dget  #读取R文件**
 **load  #读取工作空间**
  2.读取xlsx中所有的sheet表格
#定义List,用list()函数来主动定义,用data.list[]对文件数据进行赋值
data.list<-list()
for (i in 1:2){
 data.list[[i]]=read.xlsx("M1.xlsx",i)
 }
  3.生成多个sheet表格
flie=list()
  dataflie=paste(1:2,".xlsx",sep="")
  for(i in 1:2){
  flie[[i]]=paste("C:/Users/long/Desktop/",dataflie[i],sep="")
  write.xlsx(data.list2[[i]],file)
  }
  4.读入文件夹下的数据文件
如何批量读取一个文件夹中的各种csv文件。
第一步设置环境变量
path<- "C:/Users/long/Desktop"
  data <- list.files(micepath, pattern = "*.csv$", full.names = TRUE)
  第二步:文件信息放入list中读取
files=list()
  for (i in 1:2){
    files[i]=read.csv(data[[i]],header = F,1)   
  }
  讲到这里,需要进行说明一下。当我们为了实现作业式提交的方法,将数据逐个提交到作业文件夹中,然后对数据进行读取,就可以进行该操作了,这能实现任何数据集的读取!可以避免不同文件名读取造成的问题,不需要每读取一次数据进行read.csv

二、.数据可视化图像
  1.包的介绍
tidyverse是一组处理与可视化R包的集合,其中ggplot2与dplyr最广为人知。
核心包有以下一些:
ggplot2 - 可视化数据
dplyr - 数据操作语法,可以用它解决大部分数据处理问题
tidyr - 清理数据
readr - 读入表格数据
purrr - 提供一个完整一致的工具集增强R的函数编程
tibble - 新一代数据框
stringr - 提供函数集用来处理字符数据
forcats - 提供有用工具用来处理因子问题
set.seed(1234)
library(tidyverse)
library(data.table)
n <- 5
nested_data <- 
  letters[1:5] %>% 
  data.table(name=.) %>% 
  mutate(size=runif(n = 5,min=1,max=10) %>% round
       ,mean=runif(n = 5,min=1,max=10)
       ,sd=runif(n = 5,min=1,max=10)
       ) %>% 
  mutate(data = 
         pmap(
          list(name,size,mean,sd)
          ,function(name,size,mean,sd){
            data_frame(
              var = rnorm(size*100,mean,sd)
            ) %>% 
              set_names(name)
          }
         )) %>% 
  select(name,data)
  剩下的下次再进行说明!

  
关注下面的标签,发现更多相似文章