Python 机器学习-分词、One-hot编码

jieba分词器

“结巴”中文分词:做最好的 Python 中文分词组件,支持 3 种分词模式:精确模式、全模式、搜索引擎模式

可使用 jieba.cut 和 jieba.cut_for_search 方法进行分词,两者所返回的结构都是一个可迭代的 generator,可使用 for 循环来获得分词后得到的每一个词语(unicode),或者直接使用 jieba.lcut 以及 jieba.lcut_for_search 直接返回 list。其中:

from sklearn.feature_extraction.text import CountVectorizer
import jieba

data = jieba.cut("网易是中国领先的互联网技术公司,为用户提供免费邮箱、游戏、搜索引擎服务,开设新闻、娱乐、体育等30多个内容频道,及博客、视频、论坛等互动交流,网聚人的力量, 网易评论不错哦")
# for temp in data:
#     print(temp)
data = ' '.join(data)
print(data)
vector = CountVectorizer()
res = vector.fit_transform([data])
print(vector.get_feature_names())
print(res.toarray())

one-hot编码

One-Hot编码,又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效,One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后,每个整数值被表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1

from sklearn import preprocessing
enc = preprocessing.OneHotEncoder()
# 说所有的样本加起来必须保证所有列的特征值都要遍历到
enc.fit([['男', '中国', '足球'],
         ['女', '美国', '篮球'],
         ['男', '日本', '羽毛球'],
         ['女', '中国', '乒乓球']])  # 这里一共有4个数据,3种特征
array = enc.transform([['男', '美国', '乒乓球']]).toarray()  # 这里使用一个新的数据来测试
print(array)  # [[ 1  0  0  1  0  0  0  0  1]]
enc.inverse_transform(array)

发表评论

电子邮件地址不会被公开。 必填项已用*标注