cnn_website_text_classify

使用CNN对网站文本进行分类，基于tensorflow，具体实现说明参见使用CNN进行网站文本分类

文件结构

/--- |---- data_helper.py : 读取训练数据，包括文本清洗、进行文本句子补齐（sentence padding)等预处理。 |---- word2vec_helpers.py : 进行word2vec向量化，主要借助gensim库，并将训练好的word2vec模型保存在run/目录下。 |---- text_cnn.py : 定义了一个类用来描述网络结构：一个卷积层加一个池化层。 |---- mytrain.py : 训练模型，包括超参数定义、计算图的描述。 |---- eval_helper.py : 读取需要进行预测的真实数据，以及进行数据check。 |---- eval.py : 使用训练好的模型进行预测真实数据。

使用方法

训练模型：

> python mytrain.py

预测真实数据：

python eval.py -checkfile_dir = {your_code_path/runs/checkfile}

## 实验结果
在训练和验证集上表现良好，正确率达95%左右；在真实数据集（无标签）上表现欠佳。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

data_helper.py

data_helper.py

eval.py

eval.py

eval_helper.py

eval_helper.py

mytrain.py

mytrain.py

text_cnn.py

text_cnn.py

word2vec_helpers.py

word2vec_helpers.py

Repository files navigation

cnn_website_text_classify

文件结构

使用方法

About

Releases

Packages

Contributors 2

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
README.md		README.md
data_helper.py		data_helper.py
eval.py		eval.py
eval_helper.py		eval_helper.py
mytrain.py		mytrain.py
text_cnn.py		text_cnn.py
word2vec_helpers.py		word2vec_helpers.py

halegreen/cnn_website_text_classify

Folders and files

Latest commit

History

Repository files navigation

cnn_website_text_classify

文件结构

使用方法

About

Resources

Stars

Watchers

Forks

Languages