r语言runif函数-快速掌握R语言中的apply函数族

r语言runif函数_函数语言是高级语言吗_函数语言描述法

在R语言中有一族函数可以轻易的对行列进行不同的函数计算（平均值、求和、自定义计算等），他就是apply族函数。本章就带大家了解一下apply族函数。

apply家函数概况

apply

lapply

sapply

vapply

mapply

tapply

rapply

eapply

注释：蓝色标记部分重点学习，其他了解即可

1. apply族函数概况

apply函数族是R语言中数据处理的一组核心函数，通过使用apply函数，我们可以实现对数据的循环、分组、过滤、类型控制等操作。

apply函数本身就是解决数据循环处理的问题，为了面向不同的数据类型，不同的返回值，apply函数组成了一个函数族，包括了8个功能类似的函数。

函数语言描述法_r语言runif函数_函数语言是高级语言吗

图引用自粉丝日志

2. apply函数

apply常用的代替for循环。apply函数可以对数据（矩阵、数据框、数组)，按行或列循环计算，对子元素进行迭代，并把子元素以参数传递的形式给自定义的FUN函数中，并以返回计算结果。

函数定义：

apply(X, MARGIN, FUN, ...)

参数列表：

比如，对一个矩阵的每一行/列求均值：


> x<-matrix(1:15,ncol=3)> x     [,1] [,2] [,3][1,]    1    6   11[2,]    2    7   12[3,]    3    8   13[4,]    4    9   14[5,]    5   10   15> apply(x,1,mean) #按行输出均值结果[1]  6  7  8  9 10> apply(x,2,mean) #按列输出均值结果[1]  3  8 13

自定义示例：按行，让数据框的x1列减x2列，并计算出x1加x2列。
> # 生成data.frame> set.seed(1234)> x <- cbind(x1 = 1:10, x2 = c(runif(10,2,5)))> x      x1       x2 [1,]  1 2.341110 [2,]  2 3.866898 [3,]  3 3.827824 [4,]  4 3.870138 [5,]  5 4.582746 [6,]  6 3.920932 [7,]  7 2.028487 [8,]  8 2.697652 [9,]  9 3.998251[10,] 10 3.542753> > # 自定义函数myFUN，第一个参数x为数据> # 第二、三个参数为自定义参数，可以通过apply的'...'进行传入。> cave <- function(x, c1, c2) c(mean(x[c1]), mean(x[c2]))> apply(x, 1, cave,  c1 = "x1", c2 = c("x1","x2"))         [,1]     [,2]     [,3]     [,4]     [,5]     [,6]     [,7]     [,8]     [,9]     [,10][1,] 1.000000 2.000000 3.000000 4.000000 5.000000 6.000000 7.000000 8.000000 9.000000 10.000000[2,] 1.670555 2.933449 3.413912 3.935069 4.791373 4.960466 4.514244 5.348826 6.499126  6.771377

3. lapply函数
lapply用来对list、data.frame数据集进行循环，并返回和X长度同样的list结构作为结果集。
函数定义：
lapply(X, FUN, ...)

参数列表：
比如，计算list中的每个KEY对应该的数据的分位数。
# 构建一个list数据集x，分别包括a,b> set.seed(1234)> x <- list(a = 1:10, b = runif(10,2,5))> x$a [1]  1  2  3  4  5  6  7  8  9 10
$b [1] 2.341110 3.866898 3.827824 3.870138 4.582746 3.920932 2.028487 2.697652 3.998251 3.542753
> lapply(x, fivenum) #分别计算分位数$a[1]  1.0  3.0  5.5  8.0 10.0
$b[1] 2.028487 2.697652 3.847361 3.920932 4.582746

4. sapply函数
sapply是一个简化版的lapply，sapply增加了2个参数simplify和USE.NAMES，优化输出结果，返回值为向量，而不是list对象。
函数定义：
sapply(X, FUN, ..., simplify=TRUE, USE.NAMES = TRUE)

参数列表：
示例：
> x <- cbind(x1=3, x2=c(2:1,4:6))# 检查结果类型，sapply返回类型为向量，而lapply的返回类型为list> class(lapply(x, sum))[1] "list"> class(sapply(x, sum))[1] "numeric"

如果simplify=FALSE和USE.NAMES=FALSE，那么sapply函数就等于lapply函数。
> x <- cbind(x1=3, x2=c(2:1,4:6))> x <- data.frame(x1=3, x2=c(2:1,4:6))> x  x1 x21  3  22  3  13  3  44  3  55  3  6> lapply(x, sum)$x1[1] 15
$x2[1] 18
> sapply(x, sum, simplify=FALSE, USE.NAMES=FALSE)$x1[1] 15
$x2[1] 18

对于simplify为array时，我们可以参考下面的例子，构建一个三维数组，其中二个维度为方阵。
> a <- 1:2
# 按数组分组> sapply(a,function(x) matrix(x,2,2), simplify='array'), , 1
     [,1] [,2][1,]    1    1[2,]    1    1
, , 2
     [,1] [,2][1,]    2    2[2,]    2    2
# 默认情况，则自动合并分组> sapply(a,function(x) matrix(x,2,2))     [,1] [,2][1,]    1    2[2,]    1    2[3,]    1    2[4,]    1    2

5. vapply函数
vapply类似于sapply，提供了FUN.VALUE参数，用来控制返回值的行名，这样可以让程序更健壮。
函数定义：
vapply(X, FUN, FUN.VALUE, ..., USE.NAMES = TRUE)

参数列表：
比如，对数据框的数据进行累计求和，并对每一行设置行名row.names
# 生成数据集> x <- data.frame(cbind(x1=3, x2=c(2:1,4:5)))
# 设置行名，4行分别为a,b,c,d> vapply(x,cumsum,FUN.VALUE=c('a'=0,'b'=0,'c'=0,'d'=0))  x1 x2a  3  2b  6  3c  9  7d 12 12
# 当不设置时，为默认的索引值> a<-sapply(x,cumsum);a     x1 x2[1,]  3  2[2,]  6  3[3,]  9  7[4,] 12 12
# 手动的方式设置行名> row.names(a)<-c('a','b','c','d')> a  x1 x2a  3  2b  6  3c  9  7d 12 12

6. mapply函数
mapply也是sapply的变形函数，类似多变量的sapply，但是参数定义有些变化。第一参数为自定义的FUN函数，第二个参数’…’可以接收多个数据，作为FUN函数的参数调用。
函数定义：
mapply(FUN, ..., MoreArgs = NULL, SIMPLIFY = TRUE,USE.NAMES = TRUE)

参数列表：

比如，比较3个向量大小，按索引顺序取较大的值。

> set.seed(1)
# 定义3个向量> x<-1:10> y<-5:-4> z<-round(runif(10,-5,5))
# 按索引顺序取较大的值。> mapply(max,x,y,z) [1]  5  4  3  4  5  6  7  8  9 10

再看一个例子，生成4个符合正态分布的数据集，分别对应的均值和方差为c(1,10,100,1000)。
> set.seed(1)
# 长度为4> n<-rep(4,4)
# m为均值，v为方差> m<-v<-c(1,10,100,1000)
# 生成4组数据，按列分组> mapply(rnorm,n,m,v)          [,1]      [,2]      [,3]       [,4][1,] 0.3735462 13.295078 157.57814   378.7594[2,] 1.1836433  1.795316  69.46116 -1214.6999[3,] 0.1643714 14.874291 251.17812  2124.9309[4,] 2.5952808 17.383247 138.98432   955.0664

由于mapply是可以接收多个参数的，所以我们在做数据操作的时候，就不需要把数据先合并为data.frame了，直接一次操作就能计算出结果了。
7. tapply函数
tapply用于分组的循环计算，通过INDEX参数可以把数据集X进行分组，相当于group by的操作。
函数定义：
tapply(X, INDEX, FUN = NULL, ..., simplify = TRUE)

参数列表：
比如，计算不同品种的鸢尾花的花瓣(iris)长度的均值。
# 通过iris$Species品种进行分组> tapply(iris$Petal.Length,iris$Species,mean)    setosa versicolor  virginica     1.462      4.260      5.552

对向量x和y进行计算，并以向量t为索引进行分组，求和。
> set.seed(1)
# 定义x,y向量> x<-y<-1:10;x;y [1]  1  2  3  4  5  6  7  8  9 10 [1]  1  2  3  4  5  6  7  8  9 10
# 设置分组索引t> t<-round(runif(10,1,100)%%2);t [1] 1 2 2 1 1 2 1 0 1 1
# 对x进行分组求和> tapply(x,t,sum) 0  1  2 8 36 11

由于tapply只接收一个向量参考，通过’…’可以把再传给你FUN其他的参数，那么我们想去y向量也进行求和，把y作为tapply的第4个参数进行计算。
> tapply(x,t,sum,y) 0  1  263 91 66

得到的结果并不符合我们的预期，结果不是把x和y对应的t分组后求和，而是得到了其他的结果。第4个参数y传入sum时，并不是按照循环一个一个传进去的，而是每次传了完整的向量数据，那么再执行sum时sum(y)=55，所以对于t=0时，x=8 再加上y=55，最后计算结果为63。那么，我们在使用’…’去传入其他的参数的时候，一定要看清楚传递过程的描述，才不会出现的算法上的错误。
8. rapply函数
rapply是一个递归版本的lapply，它只处理list类型数据，对list的每个元素进行递归遍历，如果list包括子元素则继续遍历。
函数定义：
rapply(object, f, classes = "ANY", deflt = NULL, how = c("unlist", "replace", "list"), ...)

参数列表：


比如，对一个list的数据进行过滤，把所有数字型numeric的数据进行从小到大的排序。
> x=list(a=12,b=1:4,c=c('b','a'))> y=pi> z=data.frame(a=rnorm(10),b=1:10)> a <- list(x=x,y=y,z=z)
# 进行排序，并替换原list的值> rapply(a,sort, classes='numeric',how='replace')$x$x$a[1] 12$x$b[1] 4 3 2 1$x$c[1] "b" "a"
$y[1] 3.141593
$z$z$a [1] -0.8356286 -0.8204684 -0.6264538 -0.3053884  0.1836433  0.3295078 [7]  0.4874291  0.5757814  0.7383247  1.5952808$z$b [1] 10  9  8  7  6  5  4  3  2  1
> class(a$z$b)[1] "integer"

从结果发现，只有$z$a的数据进行了排序，检查$z$b的类型，发现是integer，是不等于numeric的，所以没有进行排序。
接下来，对字符串类型的数据进行操作，把所有的字符串型加一个字符串’++++’，非字符串类型数据设置为NA。
> rapply(a,function(x) paste(x,'++++'),classes="character",deflt=NA, how = "list")$x$x$a[1] NA$x$b[1] NA$x$c[1] "b ++++" "a ++++"
$y[1] NA
$z$z$a[1] NA$z$b[1] NA

只有$x$c为字符串向量，都合并了一个新字符串。那么，有了rapply就可以对list类型的数据进行方便的数据过滤了。
9. eapply函数
对一个环境空间中的所有变量进行遍历。如果我们有好的习惯，把自定义的变量都按一定的规则存储到自定义的环境空间中，那么这个函数将会让你的操作变得非常方便。当然，可能很多人都不熟悉空间的操作，那么请参考文章揭开R语言中环境空间的神秘面纱，解密R语言函数的环境空间。
函数定义：
eapply(env, FUN, ..., all.names = FALSE, USE.NAMES = TRUE)

参数列表：
下面我们定义一个环境空间，然后对环境空间的变量进行循环处理。
# 定义一个环境空间> env

# 向这个环境空间中存入3个变量> env$a <- 1:10> env$beta <- exp(-3:3)> env$logic <- c(TRUE, FALSE, FALSE, TRUE)> env

# 查看env空间中的变量> ls(env)[1] "a"     "beta"  "logic"
# 查看env空间中的变量字符串结构> ls.str(env)a :  int [1:10] 1 2 3 4 5 6 7 8 9 10beta :  num [1:7] 0.0498 0.1353 0.3679 1 2.7183 ...logic :  logi [1:4] TRUE FALSE FALSE TRUE

计算env环境空间中所有变量的均值。
> eapply(env, mean)$logic[1] 0.5$beta[1] 4.535125$a[1] 5.5

再计算中当前环境空间中的所有变量的占用内存大小。
# 查看当前环境空间中的变量> ls() [1] "a"     "df"     "env"    "x"     "y"    "z"    "X"
# 查看所有变量的占用内存大小> eapply(environment(), object.size)$a2056 bytes
$df1576 bytes
$x656 bytes
$y48 bytes
$z952 bytes
$X1088 bytes
$env56 bytes

eapply函数平时很难被用到，但对于R包开发来说，环境空间的使用是必须要掌握的。特别是当R要做为工业化的工具时，对变量的精确控制和管理是非常必要的。
本文全面地介绍了，R语言中的数据循环处理的apply函数族，基本已经可以应对所有的循环处理的情况了。同时，在apply一节中也比较了，3种数据处理方面的性能，R的内置向量计算，要优于apply循环，大幅优于for循环。那么我们在以后的R的开发和使用过程中，应该更多地把apply函数使用好。忘掉程序员的思维，换成数据的思维，也许你就一下子开朗了。
本网站每日更新互联网创业教程，一年会员只需98，全站资源免费下载点击查看会员权益
声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。
apply族函数R语言sapply循环计算数据处理

	
		
            
                            
                    小豪轻创网永久会员

发表回复取消回复

联系方式

公众号

相关文章

发表回复 取消回复

发表回复取消回复