论文写作规范毕业论文格式开题报告范文|MBA论文范文本科论文范文硕士论文范文博士论文范文

  • 在线提交留言
  • 学位论文规范性评估系统的设计与实现

    发布时间:2020-09-10 来源:https://www.boshuolunwen123.com  作者:佚名

      TAGS标签:研究生论文  免费论文  论文下载  写作辅导  论文写作  论文致谢  参考文献  开题报告  职称论文  毕业论文  论文模板  论文范文

    工程硕士学位论文

    学位论文规范性评估系统的设计与实现

    申请学位:工程硕士

    学科、专业:计算机技术

    一、研究目的及意义

        学生的科学研究和工程实践成果的综合水平是通过学位论文的形式体现的。本学位论文侧重于评价学位论文形式层面的质量,目的是设计并实现学位论文规范性的智能化评估系统,能够在格式与结构上对给定学位论文进行检测与评价,提高学位论文规范性审查的效率与准确度,为保障高质量的学位论文规范水平提供定量依据,使教师把主要精力集中于审查论文的创新性和科学性内容上。本学位论文所设计的系统能够检测学位论文组成要素的完备性和论文格式的规范性,同时运用自然语言处理技术实现学位论文词性分布统计分析,进一步提高学位论文的质量的智能化评估水平。

        目前指导教师需要把大量的时间和精力投入到学位论文规范性审查工作中,由于学生在撰写学位论文时往往忽视其格式要求,因此提交的论文在格式方面不能达到规范化的标准。另一方面,教师在审查学生论文时,随着论文数量的上升和篇幅的增加导致其格式审查的准确率明显下降。若能够实现学位论文规范性的自动化检测,教师就可以把主要精力放在审阅论文学术层面上,从而提高教师的工作效率和保证论文的学术质量,同时,学位论文智能化检测问题是自然语言处理理论在学校人才培养中的有益实践。学位论文在文字表达上,要求句子精炼、通顺、语言用词准确、规范、结构层次清晰、论证逻辑严谨。在语言表达方面需要注意名词、动词、形容词、副词、代词、介词的使用和参考文献的引用等都应符合规范化的要求。一篇格式规范性差、可读性差的论文会严重影响它的学术价值。

        就目前学生撰写学位论文的规范性而言,主要存在以下几方面问题:论文结构元素缺失;论文文本格式属性如字体、字形、段落对齐方式等设置不当;论文中图、表、公式的标号与所在章节不一致;随意引用他人文献而不加以著录或著录不规范;参考文献在正文中引用序号混乱;参考文献格式不符合标准;参考文献引用年代过于陈旧;论文各章字数分布不合理;正文中冗余的语句较多等I21;学生在撰写学位论文时往往范上述错误,若通过人工的方式进行检查费时费力,错误率较高。因此,设计一款可以实现格式自动检查的软件具有十分重要的现实意义。

        考察目前已有的论文格式检侧软件发现,现有的软件功能相对单一,针对性较差,而且没有一款专门针对学位论文的格式检测、版面分析、文本分类等多种技术结合一体的智能化检测系统,同时也没有专门对学位论文自然语言特性评估的系统。因此,设计并开发一个专业的学位论文规范性评估系统,具有重要的实用价值和实践创新意义。

    二、国内外研究现状

    2.1论文格式检测系统现状

        近年来,国内几所高校针对论文格式检测问题进行了有益的研究和实践。广东工业大学的徐海洋,李庆等人设计了学位了论文排版规范性自动检测系统[4J,主要是对中英文摘要,正文,注释等部分进行格式检测,并没有对参考文献等部分进行检测,功能相对单一,不能满足高质量的学位论文规范评估的需求。潘若英,张忠能等人对模板与论文匹配检测方面做了细致的研究,他们设计并实现了一款论文格式自动排版软件[3]。由于Word文档中的文本为非结构化的文本,在操作过程中不能直接提取论文标题、作者、参考文献等要素,对学位论文难以进行要素划分,信息抽取,统计等处理,湖南大学陈建国通过对科技论文特征的研究,实现对科技论文结构化析取[a]。东北电力大学的阔运齐研究并设计了毕业论文格式检测系统,该系统功能相对单一,只有字体检侧、字号统计和字数统计功能,但是优点在于他将最终的检测结果以加批注的方式反馈给教师和学生[s]。太原大学的杨晓云通过VBA对学位论文格式模板进行了设计,提高了学位论文撰写的效率[[6] a    哈尔滨工业大学的潘启树,徐若冰等人,通过模糊数学的方法对科学论文的质量进行模糊综合评价,主要通过论文的先进性,科学性,实用性,可读性等方面对论文进行评价,但没涉及到论文格式检测的问题171;武汉理工大学的程萍,陈静通过监控研究生学位论文各个阶段进展情况,最终评价学位论文的质量,评价内容也是关于选题和先进性等方面内容,没有涉及到学位论文格式层面[[8,9)。

        国内的多数高校都依据本校的论文撰写要求,设计一个基于Word文档的论文标准格式样板,学生在撰写论文时依据该样板进行段落,图表,各级标题,参考文献,页边距等格式的设定。通过此种方式,能够减轻指导教师和学生对论文格式审查方面的工作量。但是,学生在实践过程中需要掌握论文格式排版技巧,还需要从众多不同的样式中选择正确的格式,尤其是对编辑软件不熟练的同学,格式选择操作越频繁,论文书写格式的错误率就会越高,不能完全满足最终的要求。

    2.2自然语言文本评价方法及其研究现状

        在自然语言处理领域中,文本评价方法是一个非常值得研究同时又是非常具有挑战性的课题。近几年来,科研工作者对多文档文摘技术的研究逐渐增多,在文本评价领域其重要性也日益凸显出来。很早以前该技术还处于不成熟阶段,文本评价方面的技术手段相对单一,随着多文档文摘技术的不断发展成熟,其结果对文本评价方法也起到了推动和促进作用。早期的文本评价方法大多数需要提取文本表层和隐层信息,通过这些信息来反映文本的价值。因此,如何利用多文档文摘技术实现文本评价就成为了一个需要解决的问题。传统的文本评价方法是以人工方式检查文本的语序一致性、用词简洁性,短语重复性,语序合理性等因素,根据这些因素进行评分,最终给出评价结果,但是人工评价方法存在不足,其原因在于评价的结果掺杂一定的人为感情因素,同时在对大量的文本进行评价时,需要消耗过多的人力、物力、财力,随着时间的延长工作效率也会下降,实现起来相对比较困难。因此,如何实现对文本的自动化评价引起了语言工作者极大的重视。

        美国密西根大学的Radev等人首先提出了文档质心的概念,他们首先提取文档集合的主题,并将主题以向量的形式表述形成质心,经过几年的研究,他们开发了一个可以实现多文档自动文摘提取系统MEAD,该系统较好地应用了多文档文摘技术,并利用统计学知识,统计多篇文档中出现频率最高的词和短语构成质心向量,然后利用该质心向量与文档集合中的其他句子进行相似度计算,并将计算的结果进行排序。

        在该领域,还有一个比较具有代表性的研究是哥伦比亚大学的McKeown开发的基于片断聚类的多文档文摘系统MultiGen,该系统从识别不同文章的不同特征点入手,利用文本重复信息作为文档内容的主要候选,将语义相似度高的文本集合到一起,作为文档集的一个中心思想,这个中心思想类似于MEAD系统的质心,同时利用信息抽取技术将中心思想中的关键词抽取出来,生成一篇文档,MultiGen也很好地应用了多文档文摘技术。

        在中文处理领域,日本东京大学的Minghui WANG和Hediheko Tanaka开发了以参考文献信息为主题的中文多文档文摘系统,该系统的原理是通过抽取目标文档中参考文献的内容及其和文中未引用参考文献的段落文本组成文摘集合,计算集合中不同文本的相似度,并将计算结果排序[[l3],但是,这一方法在文本应用领域显得略显狭窄,其主要原因是该方法建立在文本浅层语法分析的基础上,无法保证文摘的质量。

        综上所述,单纯地就文本评价方法而言,大致可以分为两大类:第一类是对文档内部的评价,即利用统计学方法,统计文档内部所包含的各种参数,通过这些参数分析间接地分析文档质量的好坏,同时也可以利用信息抽取技术,抽取文档的关键信息,通过计算文档所包含的关键信息量来评价文档质量的好坏。第二类是对文档外部的评价,即通过文档表层信息来评价其质量的好坏,但是这种评价手段存在一定的偶然性,大多数不做为主要评价方法。

    2.3文档格式处理相关产业发展现状

        目前,关于文档格式处理方面的内容,大多数是以Excel文档为主流进行设计并开发软件,Word方面开发的较少,主要存在的问题如下:

        1)软件企业开发较少

    由于一些数据处理部门或公司,对Excel表格的数据处理或统计工作需求较多,每天的工作也都是和Excel打交道,在数据处理方面对Word的应用较少,因此很多软件开发公司对Excel方面的开发较多[[ill,例如财务管理系统,人员管理系统等,这些系统的操作数据都是Excel表格,对Excel进行二次开发可以为软件公司带来更高的经济效益,由于Word本身自带编辑功能,因此,软件公司对Word文档的二次开发需求项目相对较少。

    2) Word软件二次开发公开文档较少

        Microsoft公司对Word软件的二次开发所需的接口文档公开较少,很早以前,软件开发公司一直专注基于VBA的Office文档开发层面,到了2005年,Microsoft公司推出了Windows?操作系统和Word2007版本的包公软件,并首次提供了完整的基于Word文档操作的SDK和二次开发工具包,并带有详细的开发文档手册,为面向Word对象的开发提供了一份完整接口函数详解和Word对象使用的参考依据。目前大部分以Word格式为主题的应用软件都是利用早期的VBA技术实现的,以VC一技术为主流进行Word二次开发的软件相对较少,由于实现文档的自动化处理需要复杂的流程,而且在处理过程中需要人为参与的部分较多,使得自动化程度不能够达到满意的标准,同时在数据操作上还不能够实现批处理操作[ 14J。目前市场上己有的论文格式检测系统其功能相对单一,只能满足部分需求,具体如表1-1所示:

                          表I-I目前己有的论文格式检测软件

                      Table 1一1 Existing paper format detection software

              软件类型设计高校功能不完善部分

    毕业论文格式检测系统 广州工业大学

    毕业论文格式检测系统 山东大学

    只针对本科生论文、不能实现参考文献格式检测和参考文献引用序号检测

    该软件功能相对比较完备,但是同样不能实现参考文献格式检测和参考文献引用序号检测

        综上所述,目前己有的学位论文检测系统功能单一,不能满足用户更多的需求,同时文本评价技术正处于起步阶段。因此将文本评价技术应用在学位论文语言使用合理性的评价中,无论是在方法和技术上都存在巨大的挑战。

    三、主要研究内容及工作

    学位论文根据高校学位论文撰写规范的要求,研究并设计一个智能化的学位论文规范性评估系统。主要研究内容和工作如下:

    1)学位论文格式规范性检测:包括学位论文模板的定义与模板参数的提取、学位论文格式规范检测和基础数据的统计,所实现的功能能够检查给定论文的各组成元素是否完备、表现形式是否符合撰写规范,最终产生检测报告,在这一部分需要研究模板的定义与读取、给定论文与模板匹配性的检测,还需要研究各种规则执行情况的检测算法。

        2)学位论文自然语言词性分布检测:采用自然语言统计处理方法评估给定学位论文中词性分布情况,以评判论文的自然语言词性分布特征是否具有典型性,并给出评估报告。

        3)系统测试与试运行:系统测试采用软件工程中黑盒测试的方式,测试内容包括系统各功能模块的运行情况和数据共享情况,在系统正式运行之前需要进行一段时期的试运行,保证系统投入正式运行后的可靠性和稳定性。

    四、本文结构

        本学位论文各章节内容结构如下:

        第1章对本文的研究目的及意义进行概括介绍,其中详细介绍了学位论文格式自动化检测方面国内外相关领域的研究现状,同时对目前已有的格式检测软件进行了分析,为本文所研究系统的功能创新性方面做铺垫,最后阐述了本文的主要研究内容及工作。

        第2章详细介绍了本系统在实现过程中所应用到的文档分析技术和自然语言处理方法,并对信息抽取技术与文档自动化操作方法做了详细的介绍,同时对文本表示与相似度度量方法如向量空间模型,Jaccard系数,内积等做了具体的阐述。为本系统的开发奠定了理论基础和实践基础。

        第3章设计与实现学位论文格式自动化评估系统。首先对系统的需求分析进行介绍,其次是总体设计和详细设计,最后部分是系统实现。在整个过程中,实现了标准格式模板与待检测论文格式的匹配检测,而在参考文献处理部分建立了文献标准化模型,设计参考文献分类器,并提出了基于规则的参考文献命名实体抽取算法和参考文献文中引用顺序检测算法,实现了参考文献命名实体的抽取。系统通过调用分词系统,实现论文全文分词,完成了词性分布情况的统计。

        第4章系统测试与运行采用某高校计算机类硕士学位论文20篇,测试了包括文本格式检测功能模块和参考文献检测模块在内的系统各功能是否正常运行,并通过试运行发现存在的问题和改进策略。

        最后,对本文所做的主要研究工作进行总结,并且分析了本系统目前存在的不足之处,同时将系统测试过程中出现的问题进行了详细记录和完善,并对将来的研究工作以及系统的可移植性、兼容性等进行了展望。

    原文地址:https://www.boshuolunwen123.com/kaitibaogao/byll_kaitibaogao/37515.html,如有转载请标明出处,谢谢。 您可能在寻找关于毕业论文开题报告模板方面的范文,您可以到开题报告频道查找。

    在线咨询】【写作辅导】【论文检测】【论文改重】【论文翻译

    会员投稿】【范文模板】【开题报告】【资料下载】【提交留言

    发表评论 共有条评论
    用户名: 密码:
    验证码: 匿名发表
    论文写作指导
    论文在线咨询

    热门论文热门下载

    京ICP备18055229号