Error in user YAML: (<unknown>): found character that cannot start any token while scanning for the next token at line 4 column 1

---
title: 数据预处理之One-Hot（独热编码）编码
date: 2019-03-18 17:36:48
tags:
	- python
	- MachineLearning
toc:
	true
---

数据预处理之One-Hot（独热编码）编码

为什么使用One-Hot编码

对于机器学习任务中，特征并不总是连续值，很多是分类值。这些分类值本身没有大小的意义。为了将数据集中一个分类变量替换为一个或多个新特征，我们使用One-Hot编码对数据进行预处理。

独热编码（哑变量 dummy variable）是因为大部分算法是基于向量空间中的度量来进行计算的，为了使非偏序关系的变量取值不具有偏序性，并且到圆点是等距的。使用one-hot编码，将离散特征的取值扩展到了欧式空间，离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用one-hot编码，会让特征之间的距离计算更加合理。离散特征进行one-hot编码后，编码后的特征，其实每一维度的特征都可以看做是连续的特征。就可以跟对连续型特征的归一化方法一样，对每一维特征进行归一化。比如归一化到[-1,1]或归一化到均值为0,方差为1。

为什么特征向量要映射到欧式空间？

将离散特征通过one-hot编码映射到欧式空间，是因为，在回归，分类，聚类等机器学习算法中，特征之间距离的计算或相似度的计算是非常重要的，而我们常用的距离或相似度的计算都是在欧式空间的相似度计算，计算余弦相似性，基于的就是欧式空间。

什么是One-Hot编码

独热编码即 One-Hot 编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候，其中只有一位有效(即各种属性之间相互排斥)。

简而言之，即把离散的特征的每一种取值都看成一种状态。

这样做的好处主要有：

解决了分类器不好处理属性数据的问题
在一定程度上也起到了扩充特征的作用

eg：

自然状态码为：000,001,010,011,100,101

独热编码为：000001,000010,000100,001000,010000,100000

One-Hot编码特征

经过独热编码后，就变成了m个二元特征。
这些特征互斥，每次只有一个激活。
数据会变的稀疏

One-Hot编码的优缺点

优点：独热编码解决了分类器不好处理属性数据的问题，在一定程度上也起到了扩充特征的作用。它的值只有0和1，不同的类型存储在垂直的空间。
缺点：当类别的数量很多时，特征空间会变得非常大。在这种情况下，一般可以用PCA*(principal Component Analysis，主成分分析方法)来减少维度。而且one hot encoding+*PCA这种组合在实际中也非常有用。

使用One-Hot编码的场合

首先要明确，独热编码用来解决类别型数据的离散值问题。

将离散型特征进行one-hot编码的作用，是为了让距离计算更合理，但如果特征是离散的，并且不用one-hot编码就可以很合理的计算出距离，那么就没必要进行one-hot编码。有些基于树的算法在处理变量时，并不是基于向量空间度量，数值只是个类别符号，即没有偏序关系，所以不用进行独热编码。 Tree Model不太需要one-hot编码：对于决策树来说，one-hot的本质是增加树的深度。

One-Hot 和哑变量（虚拟变量）

首先One-Hot编码主要解决数据的向量化表示，而虚拟变量则是一个统计学概念。

对于哑变量余独热编码的相异点，最直观的理解就是哑变量将任意一个One-Hot编码状态去除。即哑变量将定性特征转化为n-1个特征，而One-hot则是转化为n个特征。意思就是哑变量在编码时会去除第一个状态，而One-hot则对所有的状态都会进行编码。

这样可以使One-Hot编码减少一个冗余位，这种去除是随机的。但是对于一个没有权重的数据集而言随机取出有点过于随意。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

数据预处理之One-Hot（独热编码）编码.md

数据预处理之One-Hot（独热编码）编码.md

数据预处理之One-Hot（独热编码）编码

为什么使用One-Hot编码

什么是One-Hot编码

One-Hot编码特征

One-Hot编码的优缺点

使用One-Hot编码的场合

One-Hot 和哑变量（虚拟变量）

Files

数据预处理之One-Hot（独热编码）编码.md

Latest commit

History

数据预处理之One-Hot（独热编码）编码.md

File metadata and controls

数据预处理之One-Hot（独热编码）编码

为什么使用One-Hot编码

什么是One-Hot编码

One-Hot编码特征

One-Hot编码的优缺点

使用One-Hot编码的场合

One-Hot 和 哑变量（虚拟变量）

One-Hot 和哑变量（虚拟变量）