数据科学沉思录


黄耀鹏|技术分享.思想结晶

R爬虫之上市公司公告批量下载

selenium的安装及使用介绍 Selenium是一个用于测试网页应用的开源软件。它提供了浏览器中的点击,滚动,滑动,及文字输入等驱动程序。这样,利用Selenium即可以通过脚本程序来替代人工进行测试一个开发软件的各种功能。 在处理爬虫任务中,经常遇到需要输入文字,进行下拉菜单选择,以...

R中的正则表达式及字符处理函数总结

我们日常生活中接触到的大部分数据都是以文本的形式存在。如何高效地处理文本数据,将看似杂乱无章的数据整理成可以进行统计分析的规则数据,是『数据玩家』必备的一项重要技能。 今天,我们要学习的『正则表达式』和『字符处理函数』将助你成为点石成金的数据魔法师。 正则表达式 在进行爬虫任务的时候,部...

深入理解SAS之数据指针和PDV流程

近期由于助研工作的需要,不可避免地要使用到SAS编程。其实我一开始是拒绝的,因为如果使用R,我的效率将大大提升。但是由于老师的强烈要求,不得不重新捡起已落下一年多的SAS。 理解DATA步的数据指针和PDV流程至关重要。它能帮助我们摸清DATA步中的所有执行语句是如何在缓存区,内存以及I...

Linux常用命令备忘录(持续更新)

vi编辑器的基本操作 在Linux系统中,熟练使用文本编辑器来编辑Linux参数配置文件是一件极其重要的事情。 vi作为Linux内的一款文本编辑器,具有以下几点不可不学的理由: 所有UNIX Like系统均内置了vi文本编辑器; 很多软件编辑接口主动...

github博客配置备忘录

配置Rstudio+git+github环境 可以参考罗老师的个人博客:Rstudio+GIT+Github配置 Fork 模板 可以参考github上的项目:beautiful-jekyll 添加评论功能 注册多说 修改相关源文件 _...

SQL及关系型数据库入门

什么是关系型数据库及数据库管理系统 数据库(Database)是一种数据的组织和存储方式,通常用于处理结构化的数据。 而关系型数据库(Relational Database)指的是创建在关系模型的基础上的数据库。它借助于集合代数等数学概念和方法来处理数据库中的数据。 数据库管理系统(DB...

RSQLite系列1——入门教程

1.什么是SQLite SQLite 是一个软件库,实现了自给自足的、无服务器的、零配置的、事务性的 SQL 数据库引擎。SQLite 是在世界上最广泛部署的 SQL 数据库引擎。SQLite 源代码不受版权限制。 2.为何选择SQLite 选择SQLite的原因很简单,...

R爬虫之京东商城手机信息批量获取

在人手一部智能手机的移动互联网时代,智能手机对很多人来说,它就像我们身上生长出来的一个器官那样重要。如果你不能对各大品牌的『卖点』和『受众』侃上一阵,很可能会被怀疑不是地球人。 今天我们来探索一下,如何从『京东商城』爬取各大品牌的手机信息。 1.预备知识 R爬虫需要掌握的技能包括: ...