论文写作规范毕业论文格式开题报告范文|MBA论文范文本科论文范文硕士论文范文博士论文范文

  • 在线提交留言
  • 当前位置:首页 > 理工医学论文 > 计算机论文

    数据挖掘的起源及其应用研究

    发布时间:2020-04-14 来源:https://www.boshuolunwen123.com  作者:博硕论文辅导网

      TAGS标签:研究生论文  免费论文  论文下载  写作辅导  论文写作  论文致谢  参考文献  开题报告  职称论文  毕业论文  论文模板  论文范文

    数据挖掘的起源及其应用研究

        随着大数据的深入人心,数据挖掘也得到了社会各个行业极大关注,主要原因就是面对海量数据,如果想要将这些数据加以利用,必须通过数据挖掘手段将其转换为可被识别的人性化结果,并且可以被重复套用。通过这种手段得到的结果可以用于包括市场研判、业务管理、客户信息收集、生产控制,工程设计和科学研究等各个行业。

        Data Mining是多学科、多领域的相互交融产生的结果:一是包含了统计学的抽样、假设检验等思想;二是包含了人工智能(Artificial intelligence } AI、搜索算法、模型构建等思想;三是在数据挖掘几十年的发展中不断将来自其他领域如优化处理、精确计算、可视化和信息检索等领域的思想进行了融合。

    一、数据挖掘概述

        数据挖掘(Data Mining,数据挖掘)简单讲就是面向数据,对其整理、深入分析,挖掘内部价值的过程。它是数据库知识发现(Knowledge-Discovery in DatabasesKDD)中的一个步骤。数据挖掘一般是指从海量的数据中通过科学算法,搜索隐藏于其中的未知信息,获得新颖结果的过程。数据挖掘通常与信息技术、互联网、数据库密不可分,并通过统计分析、机器学习等方法来实现初始目标。

    二、数据挖掘技术的理论基础

        数据挖掘是人们对数据存储和分析的不便利性进行长期研究和总结的产物。在数据挖掘研究初期阶段,存在于数据库中的各种数据,人们不便于可视化提取和使用,随着技术的发展对数据库进行快速开发以使其可以进行查询和访问,慢慢突破了对数据库访问时间的限制可以随时访问,而数据挖掘使数据库技术进入了目前这样一个相对发达的阶段,它不仅能对己经产生的数据进行随时搜索或全部提取,而且运用科学的挖掘算法可以轻而易举的找出数据间的关联规则,归纳更多分类,促进信息的收集。作者认为数据挖掘的理论基础有以下几点:

        数据归约(data reduction是对数据进行初步处理的组成部分,主要是将与挖掘目标相关的属性进行聚类合并,根据这一基础理论,减少对原始数据的无效引用。在中型以上数据库中,数据归约带来的效果是对相似数据查询筛选后的准确性。DataReduction技术主要包括奇异值分解(在主要组件分析背后的驱动元素),特征规约、取样和索引树构造技术。

        数据压缩(data compression)理论是将数据挖掘的数据进行压缩的过程,一般是通过关联规则,决策树,簇等进行程序编码运行实现的。

        模式发现(pattern discovery)这个理论基础是由于在数据库中发现模式,比如关联规则,分类模型,序列模式等等。它涉及机器学习,神经网络,关联挖掘,序列模式挖掘,聚类,和其它的子领域。

    概率理论主要基于统计理论。依据这一理论,这一理论的目的是发现随机变量聚类可能的分布情况,应用概率理论的主要模型是贝叶斯置信网络和层次贝叶斯模型。

    微观经济的主要观点是把数据挖掘看作发现模式的任务,来挖掘出对企业发展和决策结果有用的模式。微观经济认为如果模式能发生对企业发展和决策祈祷作用的话则认为数据挖掘的结果是有效的。

        可以看出,数据挖掘的理论基础涉及到了方方面面,但是这些理论之间不是互相排斥的,而是存在一种潜移默化的关系。比如数据归约和数据压缩的表现形式之一就是模式发现,操作人员理想中的框架设计最终的目标时要达到从一般到特殊的数据挖掘任务进行顺利建模,同时会有一个发现随机变量聚类可能的分布情况的特性,需要面对不同形式的数据,并且对数据挖掘产生的结果和流程有一个反复和交互的过程需要设计人员进行思考,如何利用这些理论设计出满足不同使用人群需要的数据挖掘框架是我们不断努力的方向。

    三、数据挖掘软件层级划分

        在数据挖掘过程中,需要依托于不同的支持软件提高我们分析能力,在数据挖掘领域有许许多多的软件,基本可以满足不同应用层次和需求的用户。通过对己经开发应用的软件进行收集,可以在数据层面或用户层面两个维度八个个层级对软件进行区分:

        第一个维度是以数据展现形式进行划分,在数据的获取直至展现过程中,数据存储层是第一层级,所有的数据都在存储层停留并被提取,我们必须能够应该掌握至少一门数据库语言,虽然我们不一定能够熟练操作,但要尽量了解存储数据的基本结构和数据类型,利用我们大学期间学习的相关数据库语言对查询语言的基本结构和读取有所理解。这一层级被大家熟知的主要是Access,  Sql Server等数据库软件,这些都是最基本的初级数据库,方便个人和基本的数据存储;第二层级是数据报表层,数据再存储层停留后,企业第一要解决的是报表问题,这并不是,而是要能够看到己经生成的各种各样的报表!现阶段国内外开发使用的相关软件如TABLEAU,它不仅是数据报表软件,还能够能够监测信息,提供完整的分析能力;第三层级是数据分析层,用户最熟悉的就是Excel,很多人只是掌握了Exce15%左右的功能,95%更为强大的功能还未能被使用者熟练或者经常使用,其功能完全不亚于一些企业级的统计分析工具;第四个层面就是数据展现层,这一层面是对数据的发布和展示过程,主要软件有大家非常熟悉的比如Power Point,很多人将他作为工作汇报或者数据展示的利器,又如。Visio等展示型软件,客户可以利用他们主打的流程图、地图等功能,实现数据挖掘结构的良好展示。

        第二个维度是以用户级别进行划分。四个层级分别是用户级、部门级、企业级和BI级,用户级别不断提高,最常见的Sql ServerExcel都是属于用户级,详细划分J清况如图所示。

     

    四、数据挖掘常用的方法

        在信息为王的时代,很多分析止步于庞大的数据量,但是数据挖掘却像是一把利剑撕开迷雾发现数据的真像,其撕开迷雾的过程是还原事实本源的过程也最终会影响数据挖掘的过程。利用了数据库技术、AI技术、机器学习、统计分析学、模糊判断、审计辅助工具、数据可视化等从混沌的数据中筛选出价值数据。通过不同的挖掘算法,归纳、推理、预测趋势,发掘有效的数据模式,提高银行、保险、企业快速应对市场风险的能力,做出正确的决策判断。目前,在金融领域为首的数据挖掘研究机构摸索了一套运用技术并熟练使用,包括市场营销策略制定、背景分析、企业管理危机等。

          (1)分类。分类是对数据提取条件、口径设定一个标准,并按照提数条件对数据的属性进行归类,不同属性的数据划分为不同类别,目的是对其进行建模并与数据库内容进行对应,建立快速匹配机制。分类可以分析客户购买倾向,对其浏览、咨询、购买的周边产品和可能需要的商品予以推荐,带动销售数量的上升。

          (2)回归预测。回归预测反映了数据库中数据的属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的研究中去。在市场营销中,回归分析可以被应用到各个方面。如通过对本季度销售的回归分析,对下一季度的销售趋势作出预测并做出针对性的营销改变。

          (3)

    原文地址:https://www.boshuolunwen123.com/lgyx_lunwen/jsj_lunwen/22962.html,如有转载请标明出处,谢谢。 您可能在寻找关于计算机论文方面的范文,您可以到理工医学论文频道查找。

    在线咨询】【写作辅导】【论文检测】【论文改重】【论文翻译

    会员投稿】【范文模板】【开题报告】【资料下载】【提交留言

    发表评论 共有条评论
    用户名: 密码:
    验证码: 匿名发表
    论文写作指导
    论文在线咨询

    热门论文热门下载

    京ICP备18055229号