数据科学沉思录


黄耀鹏|技术分享.思想结晶

Hadoop配置备忘录

在这个人人都谈大数据的时代,如果不了解一点大数据的操作,都不好意思说自己是学统计的了。所以,今天让我们来一起学习在自己的电脑上使用多个虚拟机模拟配置hadoop集群,自娱自乐一番。 1.预备环境配置 硬件规格 根据『Hadoop权威指南』一书的介绍,2010年年中,运行Hadoop的...

变量选择之SCAD算法

SCAD的提出 据说学术界有一种现象叫做『大牛挖坑,小牛灌水』。而我等『小菜』就只有『吹水』的份了。 不过还真不要小看本『小菜』,根据著名的『六度分割理论』,我跟大牛的距离也是近的很呢。 不信我跟你算算。将我引入统计学习领域大门的钟威老师,师承自统计学习大牛 Runze Li老师,而Ru...

广义线性模型中的Gauss Seidel 迭代算法实现

数值模拟的算法迭代公式推导 R代码实现 根据以上公式,代入迭代步骤,即可实现算法。 ##------数据模拟-------- library(MASS) ##mvrnorm() ##定义一个产生多元正态分布的随机向量协方差矩阵 Simu_Multi_Norm<-functi...

The Lasso Method Implementation

lasso算法及其实现 lasso算法及其实现 huang 2015年10月25日 缘起 这篇博客的想法来源于知乎的一个关于多元线性回归的变量选择问题。 从该问题的提问描述,以及回答中看出,很多人在做变量选择时...

Logisitc Explain

Logistic回归系列之原理 Logistic回归系列之原理 yphuang 2015年10月24日 Logisitc模型是广义线性模型中的一类。常用于分类。在业界有相关广泛的应用。常见的如信用评分模型,用于判...

Fitting Distribution With R

使用R拟合分布 使用R拟合分布 brightbird 2015年9月18日 零.几个常用的概率函数介绍 这里,参考R语言实战,以及[Fitting Distribution with R]的附录。 一.认识...

Text Mining Hua Qian Gu

Text mining hua qian gu Text mining hua qian gu brightbird 2015年8月2日 版权声明:转载请注明出处。 最近一部虐心神剧《花千骨》风靡全国,听说可爱...