logo
教育论文中心  教育论文中心   广告服务  广告服务   论文搜索  论文搜索   论文发表  论文发表   会员专区  会员专区   在线购卡   在线购卡   服务帮助  服务帮助   联系我们  联系我们   网站地图  网站地图   硕士论文  会员专区   博士论文
当前位置:教育论文中心首页--区域经济学毕业论文--基于机器学习的中文论文自动分类
推荐论文
关于数控车轴专用磨床电器系统故障
论不可分之债的效力
二进前向网络分类超平面理论
从挪威中文教学状况看海外中文教
针刺土工织物垂直渗透率理论研究
中国私募股权投资中估值问题研究
基于情境认知英语教学模式研究
基于身份公钥密码系统研究
基于信息技术企业战略管理平台理
关于《枕草子》中“をかし”中文
跨文化中文教育实践--IB课程
基于SVM中文文本自动分类系统
基于机器视觉室内农药自动精确喷
中学数学课堂教学中进行合作学习
基于多视角分类器设计与权值优化
名字路由协议研究与实现
 
站内搜索
 
 
科目列表
市场营销 管理理论 人力资源
电子商务 社会实践 先进教育
伦理道德 艺术理论 环境保护
农村研究 交通相关 烟草论文
电子电气 财务分析 融资决策
电影艺术 国学论文 材料工程
语文论文 数学论文 英语论文
政治论文 物理论文 化学论文
生物论文 美术论文 历史论文
地理论文 信息技术 班主任
音乐论文 体育论文 劳技论文
自然论文 德育管理 农村教育
素质教育 三个代表 旅游管理
国际贸易 哲学论文 工商管理
证券金融 社会学 审计论文
会计论文 建筑论文 电力论文
水利论文 园林景观 农林学
中医学 西医学 心理学
公安论文 法学法律 思想汇报
法律文书 总结报告 演讲稿
物业管理 经济学 论文指导
计算机 护理论文 社会调查
军事论文 化工论文 财政税收
保险论文 物流论文 语言教育
教育教学 给水排水 暖通论文
结构论文 综合类别 硕士论文
博士论文    
 
 
 
基于机器学习的中文论文自动分类

【区域经济学毕业论文】一.引言 1.选题背景和意义 随着现代科技的发展,信息量在成几何级数膨胀,每天都有大量新的论文产生,纸张这些传统的存储介质已经不能满足现有的需求,构建数字图书馆势在必行。中国知网是我国目前比较成功的论文数字图书馆,构建数字

一.引言

1.选题背景和意义
随着现代科技的发展,信息量在成几何级数膨胀,每天都有大量新的论文产生,纸张这些传统的存储介质已经不能满足现有的需求,构建数字图书馆势在必行。中国知网是我国目前比较成功的论文数字图书馆,构建数字图书馆就是将期刊论文进行电子化,电子化就必然会面临两个主要工作:期刊论文的格式必须有统一标准和期刊论文的分类管理。经过多年的努力,期刊论文现在已经形成了一套统一的著录标准,期刊论文的分类管理还基本是以人工分类为主。人工分类目前面临两个问题:一个是随着期刊论文数量的快速增长,人工分类显得心有余而力不足,人工分类每天能分类的数量是固定的,即使增加人力成本,想要赶上期刊论文增长的速度还是很困难的,这无疑给分类工作增加了很大的压力;第二个问题是人工分?存在一定的主观性,分类工作人员一般会通过期刊论文的标题和来源来确定论文的类别,比较少的阅读论文全文来对论文进行分类,因此分类的正确率受人的主观意识影响很大。鉴于这种情况的基础上,研究期刊论文的自动分类能够有效的解决以上两个问题,不仅可以减轻人工分类的压力,提高分类的效率,还能提高分类结果的正确率,减少主观因素的影响。。
二.模型的实现
1.1数据准备
首先将所有的论文通过python里的jieba模块进行分词,将出现的名词、形容词、动名词作为总词包,将在数理统计的论文里出现的词归结为数理统计词包,将在经济统计的论文里出现的词归结为经济统计词包,从数理统计包和经济统计词包各取10个高频词作为高词频包
词包结果图如下:
1.2 词包初探:从做成的词包,统计成词频数据,并做成词云图。
由词云图可以看出,数理统计的论文中,都是理论性的词语词频较高,如:数据、研究、应用、模型等词。而经济统计学论文中更偏经济学,如:经济、发展、分析等词出现频率较高。由此可以初步判定,通过词频的差别作为论文类别区分的特征是合理的。
1.3 建立模型
1.3.1 论文类别的预测
在模型识别和机器学习中的相关研究中,经常会将整个数据集合分成两个部分,分别是训练集合合测试集,假设X是集合全体,A是全集X的非空真子集,那么非空集合X、A则是集合A在全集X中的补集。于是可以在A上面做训练和分析,而几个X、A则用来做测试和验证。一开始的集合A被称作训练集,而他的补集A被称作是验证集或者测试集。这是一个重要的观点就是:只有训练集才可以使用在模型的训练之中,而测试集必须在模型训练完成后才用来评估模型的误差。
从验证结果中可以看出,正确率在大于90%,通过朴素贝叶斯模型预测论文类别,是可以行的。
【参考文献】
[1] 白如江基于粗糙集和神经网络的文本自动分类方法现代图书情报技术,:白小明,邱桃荣.
[2] 基于和算法的科技文献自动分类研究微计算机信息,:包剑,冀常鹏,李义杰.
[3] 基于矢量空间模型的文本自动分类系统研究计算机系统应用,:陈玉.
[4] 多类别科技文献动分类系统硕士学位论文湖北:华中科技大学,楚存坤,李韬.
[5] 模糊聚类技术在文献自动分类系统中的应用现代情报:刁倩,张惠惠,玉永成,何骥.

 
 
 
 您可能感兴趣的论文
论文标题页/字数分类
基于欧氏距离和精英交叉免疫算法研究129页博士论文
《循迹机器人中灰度传感器》信息化课堂教学设计3399字期刊论文
用于工业机器设计安全性分析模式及方法研究3145字期刊论文
基于支持向量机中文网页自动分类技术研究69页硕士论文
中文文本自动分类方法研究和实现64页硕士论文
并行化最小最大模块化支持向量机及其在专利分类应用76页硕士论文
中文词法句法语义联合分析模型研究130页博士论文
基于决策树统合方法最小最大模块化网络及其在专利分类运用82页硕士论文
基于图像点云模型建造及其在环境映射中绘制125页博士论文
基于属性密码技术研究123页博士论文
钢筋混凝土框架结构整体概率抗震能力分析149页硕士论文
基于身份公钥体系安全电子邮件系统研究69页硕士论文
农资电子商务智能推荐模型研究65页硕士论文
基于内容视频拷贝检测算法研究114页博士论文
基于双线性配对公钥加密和签密方案分析与设计67页硕士论文
面向涉密企业数字内容安全管理系统研究与实现78页硕士论文
基于风险检测(RBI)在海底管道完整性管理中应用112页硕士论文
基于任务和角色加密CAD模型访问控制研究63页硕士论文
通用图像检索系统和高维索引技术研究68页硕士论文
多授权中心基于属性签名及加密算法研究76页硕士论文
现代企业工资制度比较分析与合理选择52页硕士论文
基于体裁科技类论文汉英翻译研究--以中外通信专业期刊论文摘要为例73页硕士论文
普适模糊推理系统理论及应用171页博士论文
自适应多尺度几何网络理论与应用162页博士论文
基于机器学习编译优化适应性研究127页博士论文
基于特征表示终身机器学习算法研究70页硕士论文
无线通信调制体制识别技术研究161页博士论文
 
 
| 会员专区 | 在线购卡 | 广告服务 | 网站地图 |
版权所有 教育论文中心 Copyright(C) All Rights Reserved
联系方式: QQ:277865656 或写信给我