智城识别ID 52991
承接项目数 0
好评率 0%
会员 1级
总收入 ¥ 0RMB
保证金 0 RMB
拥有技能 Application Design MySQL AJAX CNet JEE Oracle Android iPhone Sina Apps Html5

案例

论文查重系统截图
11 年多前上传

开发周期 : 1 周
项目报价 : ¥100,000-¥150,000

论文查重系统现状及解决方案

论文查重系统现状及解决方案

北京航空航天大学软件学院随着其研究生办学规模的日益扩大,毕业论文撰写和发表过程中出现了个别剽窃抄袭等问题。为遏制类似现象的发生,保证论文质量,根据有关领导的指示,2010年曾自行开发过“研究生毕业论文查重系统”。
一、案例总体情况
论文查重系统采用单机应用程序结构——用户可以利用系统提供的界面制定待查的Word文档,与后台MySQL数据库中的样板库进行句子比对。单个句子相同者视为相同。通过将被测论文正文部分逐句和论文库中的每一篇论文进行比对。比对结果通过报告的形式给出,同时也可以在被测论文上进行特殊颜色高亮标记处理。
系统用户分为一般查询用户、数据库管理员用户和超级管理员用户三种。数据库管理员负责样板数据库的建立与维护。Word格式的论文进库前,须转化为文本格式,之后以句子为单位提取并保存在数据库中。一般查询用户可以通过界面设置比对条件(如在一定的专业、年级或指导教师等范围内)后进行查询。超级管理员负责用户权限管理工作。系统大体功能划分如下:
学位论文一般都带有封面、提名页、中英文摘要和参考文献等附加内容,而这些内容可能会导致论文重复率的计算不准确。因此,我们的系统能自动判断正文部分并从中提取样板句子,其他部分则舍弃。由于我们的学生毕业论文统一要求为Word格式,所以该系统目前只能处理.doc和.docx格式的文档。
系统具体情况请见附件《用户手册》。
二、可能出现的问题及其解决方案
针对本次开发的基本需求,我们在之前成功案例的基础上计划进行如下工作:
1、不同类型文档的处理
所有文档格式一律转换成无格式的纯文本文档.txt文件。将来对文档的处理统一归结为对txt文件的处理。
我们的系统已经包含了对Word文档的自动处理。同时也可以利用Word自带的文档转换向导工具来实现批量Word文档到纯文本文档的自动转换。现在网上还有不少第三方文档转换工具,可以将Word文档等批量转换成txt文档。
Excel文档可编写VBA代码实现转换。
PPT文档可以先转换为Word文档,然后再统一转换成txt文档。
总之,所有文档将转换成统一的格式(txt),之后再从其中提取句子以备后续处理。但具体情况将视各种类型文档的多少而采取不同的处理方法,如某种文档数量较少,可以采用手工转换的简单方法进行处理。
2、查重算法
我们目前的查重算法是基于句子的方法。也就是说,只有待测文档中某个句子和样本文档中的某个句子完全相同,才能统计进重复率。如果采用基于词频统计和特征提取等高级算法的话,目前的工作将必须推倒重来,工作量会骤增。因此,建议仍采用目前基于句子比较的算法。
3、查重速度
由于我们目前的系统所采用的算法比较先进,所以检查一篇论文(大约A4纸60页左右的篇幅)耗时大约在秒级时间范围之内。如果将来更改系统体系结构,如改变为B/S结构,那查询速度将有赖于网络速度,但服务器端文档实际比较速度基本不受影响。
4、系统体系结构
目前,我们的系统为单机应用程序,因此并不涉及复杂的网络编程。如果将来开发成基于局域网或互联网的C/S或B/S系统,则将在现有系统的基础上进行扩充开发。但基本开发工具和语言、数据库等基本不变。
三、报价
系统的软件开发费用取决于处理文档的类型、系统体系结构的改变情况。大致约为12~15万元人民币。
四、工期要求
根据项目的大致情况,工作量大致在18人月,按三个开发人员计算,预计需要半年左右时间。

本系统由 “北京航空航天大学” 承接