中文文本分类算法设计及其实现 下载本文

内容发布更新时间 : 2024/5/29 8:15:35星期一 下面是文章的全部内容请认真阅读。

毕业设计(论文)

题 目 中文文本分类算法的设计及其实现

电信 学院 计算机 系 84 班

学生姓名 丰成平

学 号 2008055089

指导教师 相明

设计所在单位 西安交通大学计算机系

2013 年 6 月

系 ( 所 ) 计算机科学与技术 系 (所) 主任 批 准 日 期

毕业设计(论文)任务书

电信学 院 计算机 系 84 班 学生 丰成平 毕业设计(论文)工作自 2013 年 2 月 21 日起至 2013 年 6 月 20 日止 毕业设计(论文)进行地点: 西安交通大学

课题的背景、意义及培养目标

随着文本文件的增多,对其自动进行分门别类尤为重要。文本分类是指采用计算机程序对文本集按照一定的分类体系进行自动分类标记。文本分类器 的设计通常包括文本的特征向量表示、文本特征向量的降维、以及文本分类器的设计与测试三个方面。本毕设论文研究文本分类器的设计与实现。通过该毕业设计,可使学生掌握文本分类器设计的基本原理及相关方法,并

通过具体文本分类算法的设计与编程实现,提高学生的实际编程能力。

设计(论文)的原始数据与资料

1、文本语料库(分为训练集与测试集语料库)。

2、关于文本分类的各种文献(包括特征表示、特征降维、以及分类器设计)以及资料。 3、中科院文本分词工具(nlpir)。 4、文本分类中需要用到的各种分类方法的资料描述。

课题的主要任务