论文写作规范毕业论文格式开题报告范文|MBA论文范文本科论文范文硕士论文范文博士论文范文

  • 在线提交留言
  • 当前位置:首页 > 理工医学论文 > 计算机论文

    数据挖掘技术和大数据的相关研究

    发布时间:2020-04-26 来源:https://www.boshuolunwen123.com  作者:博硕论文辅导网

      TAGS标签:研究生论文  免费论文  论文下载  写作辅导  论文写作  论文致谢  参考文献  开题报告  职称论文  毕业论文  论文模板  论文范文

    数据挖掘技术和大数据的相关研究

        数据挖掘(Data Mining)的概念最早是由Usama Fayyad在第一届知识发现C Knowledge Discovery in Database)国际学术会议提出的,其对数据挖掘概念的界定为从数量众多的、规则不完整的、含有无效信息的、模糊的、随机的数据中,分析提取隐含在其中少量规则的数据、有效的信息、新鲜的结论、潜在有用的结果、并且最终可被常人直接认识模式的挖掘输出过程。这个最早的概念包含了挖掘的数据基础和提取数据的目标,并且最终是要以可被理解的形式出现。

        Viktor Mayer-Schonberger C 2012)对数据科学的研究不下十数年,他对数据科学的未来发展趋势做出了精准预测成为定义大数据时代起步的元老之一,并且对数据膨胀最终定义为大数据提出自己的观点,对大数据的发展是人类认识数据重大思维转变提出了三个方面的观点,并且这三个方面是紧密联系相互作用不可分割的:一是过去分析数据我们多采用抽样的方式,抽样的特点是数据量较少,偏差较大。在大数据时代,需要研究的数据量是抽样方式的N多倍,如有必要我们可以处理与之相关联的所有数据作为分析基础;二是对与之相关的所有数据的分析,引起的连锁反映就是数据结果会产生一种精确的扩散,导致的结果是数据分析人员对结果的精确度的要求不会像以往那么高;三是全部数据和不完全精确的原因对结果的影响不会非常明显,直接后果是将数据分析的因果关系逐渐转变为相关关系。

        韩家炜和Micheline Kamber C 2000)两位研究者对20世纪下半叶以来数据库和相关技术的发展趋势给予了高度关注,他们认为当前对于数据挖掘工作的有效释放需要对存在于大型数据库中的数据和爆发式增长的新鲜数据进行集中收集,如果仅靠人脑理解并处理这些海量数据是很难实现的,因此认知这些数据需要通过第三方的数据挖掘软件进行处理。通常来讲政府政策研究人员或企业领导提出的重要决策往往是基于主要决策人员的直觉,而非存储在数据库中的海量数据信息,因为不管是基层政府部「1也好,企业也好,缺少系统的从大量数据信息中获取可参考决策的工具,如果我们能够拥有对这些数据进行挖掘的第三方工具进行分析式挖掘,就会提高政府和企业发现重要数据的机会,对政府和企业的决策、知识体系的更新、科研工作和医疗事业做出巨大贡献。信息的获取和数据的分析性挖掘之间有一道天然的鸿沟,需要通过数据挖掘方法和挖掘工具搭建起沟通的桥梁,开发挖掘人类的“宝藏”一大数据。

        Anand Raj araman C 2012等研究人员在对数据进行挖掘的过程中,尤其是散布数据处理中发现数据挖掘存在一个弹性范围,超出这个弹性范围则存在对数据超负荷运用的危险,并且会将数据中隐藏的异常事件进行暴露和放大。因此这需要引起研究人员的关注即在数据处理时,如果可以对某些突出特征进行了关注,而这些特征也会在随机抽样中出现,那应将这些突出的特征置于不可信的状态。对随机抽样中不认为具有特殊性的普通数据来说,强化特征数据弱化普通数据的行为会制约数据挖掘工作能力的提升。Anand Raj aramanJeffrey David Ullman在处理上述需要关注的问题时避免在处理数据时刻意突出这些特征,假设审计人员己经掌握了一些数据并希望从己经掌握的数据中发现特定类型的结果,即使这些数据没有经过挑选,发现希望的数据类型也不是不可能。如果将数据规模扩大,希望出现的数据类型出现的频率也会提高。在这些随机数据中隐含的某些特征,在你希望出现的时候会很重要,当你要忽略的时候就会变的毫无价值,这就是特征数据存在的理由。

        Michael Steinbach C 2011)等研究者提出不是所有的信息发现都看做成数据挖掘。如我们日常所做的利用google-},}y-web搜索工具定向查找信息,或者是利用数据库进行单条的信息查询,这些简单的操作只能归于信息检索领域的范畴。这些操作的后台审计会有数据库结构和复杂运行算法,并通过可视化界面呈现于前台,依赖的是对传统的计算机智能和特征字段创建了索引条件,提高了信息检索的效率,但这确实不是数据挖掘。

        胡世忠(2013 )一针见血的指出大数据中仅有少部分的结构化数据(structured data)外,绝大多数都属于半结构(semi-struvtured data)和非结构化(unstructured data)数据,结构化数据有明确关联性定义的固定数据结构,也就是经过计算机语言进行存储格式的转变后存放在存储数据库中的数据。半结构化数据则是属于非纯表格型式、也非纯文本型式的数据。非结构数据是没有固定格式,难以统一的概念或逻辑分析的数据。大数据发展到今天主要有四个方面的特性:数据级量大(volume )、数据种类丰富(variety )、数据极速膨胀(velocity)和精确程度(ceracity )等。

        涂子沛(2012)将数据挖掘按照其复杂程度划分为传统的数据挖掘和高端的数据挖掘,传统技术主要是对结构化数据处理发现隐藏的信息和规律,随着挖掘范围的不断扩展,对数据挖掘的需求更普及,竞争更为激烈,一些更高端的挖掘被不断提出来进入人们的视线。当信息获取不够集中,数据散落分布的时候,就需要通过高端挖掘手段对这些信息整合处理,挖掘有价值资料,这也是下一步数据挖掘面临的挑战。

    冯启思(2013)对数据挖掘技术进行了深入研究并对一些焦点问题做了系统的展示和分析,在被数据挖掘冲击的大环境下,不管是普通人还是研究人员或多或少会出现一些困惑和焦虑,对数据挖掘带给整个社会的利与弊的思维狂潮非常关注。他对数据挖掘的观点主要集中在数据量和数据的相关关系方面。

        丁静(2012)等研究人员对云计算和数据挖掘的应用做了考虑,提出了在云计算环境下创建数据挖掘的服务模式。在这个前提下,其主要是在云计算环境下设计并构建了数据挖掘服务的框架,创建数据挖掘的运行流程,给出了数据挖掘服务模型的体系结构,并从生命周期的角度定义了数据挖掘的服务过程,在做完上述工作后,基本将数据挖掘服务模式在云计算前提下的状态展示清楚。

        Grossman,R,Gu,Y(2008)提出了数据云和数据挖掘的处理模型模型一Sector/Sphere,这种模型是高端云处理模型,对大规模分布式数据可以实现高性能的分析处理。    王惠中,彭安群(2011)从数据挖掘的概念出发,经过不断的创新实践,陆续对数据挖掘的神经网络法、决策树法、和关联规则法等概念进行了完善,论证其优缺点,有所建树。

        化柏林(2008)以数据挖掘(数据挖掘)与知识发现的不同分类做为研究问题的入口,探讨数据挖掘与KDD的关联度,并提出数据挖掘和KDD关联度的深层次问题,即数据挖掘的存在就是为了挖掘信息、数据挖掘与KDD是被包含的关系、数据挖掘和KDD不能视为同一个概念等三种观点。

        Wang Jian zong,Wan Ji guang,Liu Zhuo C 2010)提出云计算是一种延展性较大的计算模型,具有成本可控、安全性高、信息量大的特点,认为在云计算技术较为成熟的前提下可以逐步引入到人工智能领域和数据挖掘领域。

        李雄飞(2003)等人提出所谓基于大数据的知识发现是指从海量信息中找出可用的、创新的、隐藏的、能够被计算机语言理解的过程。如果将数据挖掘和知识发现技术进行细分可以发现上述两种技术不是独立存在的,都是通过与多学科、多领域技术的互动而不断进步,这些技术就包括如数据库技术、AI理论、机器模仿、统计分析学、模糊判断、审计辅助工具数据可视化等均视为可被数据挖掘的借鉴应用的范畴之内。

     

    原文地址:https://www.boshuolunwen123.com/lgyx_lunwen/jsj_lunwen/23013.html,如有转载请标明出处,谢谢。 您可能在寻找关于计算机论文方面的范文,您可以到理工医学论文频道查找。

    在线咨询】【写作辅导】【论文检测】【论文改重】【论文翻译

    会员投稿】【范文模板】【开题报告】【资料下载】【提交留言

    发表评论 共有条评论
    用户名: 密码:
    验证码: 匿名发表
    论文写作指导
    论文在线咨询

    热门论文热门下载

    京ICP备18055229号