数据科学沉思录


黄耀鹏|技术分享.思想结晶

Test Post Plot

Linux常用命令备忘录(持续更新) Linux常用命令备忘录(持续更新) yphuang 2016-09-27 R Markdown This is an R Markdo...

使用scikit-learn实现多类别及多标签分类算法

使用scikit-learn实现多类别及多标签分类算法 多标签分类格式 对于多标签分类问题而言,一个样本可能同时属于多个类别。如一个新闻属于多个话题。这种情况下,因变量需要使用一个矩阵表达出来。 而多类别分类指的是y的可能取值大于2,但是y所属类别是唯一的。它与多标签分类问题是有严格区别...

使用scikit-learn进行电影评论情感分类

使用scikit-learn进行电影评论情感分类 数据准备 从网站Movie Review Data下载语料。这里选择polarity dataset v2.0。该数据集包含正负情感极性(pos和neg)的电影评论各1000条。 下面,进行数据载入,并进行训练集/测试集划分。 # lo...

使用scikit-learn进行文本分类

使用scikit-learn进行文本分类 scikit-learn简介 scikit-learn是Python最为流行的一个机器学习库。它具有如下吸引人的特点: 简单、高效且异常丰富的数据挖掘/数据分析算法实现; 基于NumPy,SciPy,以及matplotlib,从数据探索...

决策树算法的Python实现

决策树算法的Python实现 决策树的基本思想 决策树是一种基本的分类与回归方法,它可以看作if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。 将决策树转换成if-then规则的过程如下: 由决策树的根节点到叶节点的每一条路径构建一条规则; 路径内...

K近邻算法的Python实现

K近邻算法的Python实现 作为『十大机器学习算法』之一的K-近邻(K-Nearest Neighbors)算法是思想简单、易于理解的一种分类和回归算法。今天,我们来一起学习KNN算法的基本原理,并用Python实现该算法,最后,通过一个案例阐述其应用价值。 KNN算法的直观理解 (添...

Python网络爬虫之『美味的汤』

Python网络爬虫之『美味的汤』 1.载入库函数 from bs4 import BeautifulSoup from collections import Counter from time import sleep import requests import re 2.测试 ...

梯度下降算法的Python实现

梯度下降算法的Python实现 1.梯度下降算法的理解 我们在求解最优化问题的时候,需要最小化或最大化某一个目标函数。如线性回归中,就需要最小化残差平方和。 某一向量的平方和函数可定义如下: def sum_of_squares(v): """computes the sum ...