51范文网

2023年数据挖掘论文好写吗(汇总6篇)

时间:2023-09-26 06:31:16 作者:XY字客 2023年数据挖掘论文好写吗(汇总6篇)

在日常学习、工作或生活中,大家总少不了接触作文或者范文吧,通过文章可以把我们那些零零散散的思想,聚集在一块。范文书写有哪些要求呢?我们怎样才能写好一篇范文呢?下面是小编为大家收集的优秀范文,供大家参考借鉴,希望可以帮助到有需要的朋友。

网络经济数据挖掘在工商管理中的应用论文

摘要:对于crm数据挖掘的应用程序,本文做出了系统性的总结和研究,这包括了面向crm数据挖掘的体系和结构,立足于客户生命周期的角度,并结合本行业发展的前景,对crm中的数据挖掘进行了分析。

关键词:数据挖掘;客户关系管理(crm);知识发现

如今,经济全球化发展的速度不断加快,在市场经济的背景之下呈现出蓬勃发展的局面,外加互联网技术的日益普及化,促使当前的市场竞争不断加剧。众所周知,客户对于一家企业来说至关重要,因此为了更好的促使现代企业发展顺利,理应不断维护好企业与客户之间的关系。这种关系对于不断增强企业的综合竞争力十分重要,因此企业不断改善客户关系,便成了企业发展中一项重要的任务。客户分析是企业发展中处理好客户关系管理的基本,然而如何做好客户分析呢,这就需要对数据挖掘进行应用,数据挖掘的研究应用在现代企业客户关系管理意义非凡。

1crm体系结构

客户关系管理(customerrelationshipmanagement,crm)起源于上个世纪的八十年代初期,首次提出了接触管理,也就是不断收集客户与企业联系的所有有关信息。到了九十年代初,又增加了电话服务以及客户服务支持数据等相关的分析。经过20多年的发展,如今企业发展中的客户之间的关系其管理的手段和方式逐渐走向成熟化,并且在理论和实践方面不断成熟化。crm是一个把客户看做中心的营销理念,通过信息化的技术方式,重新设计企业业务单元,优化工作中的每一个环节的过程。它将现代信息技术也就是我们常说的互联网技术、多媒体信息技术、电子商务技术、数据仓库管理信息技术、专家数据管理系统以及人工智能呼叫中心等融合在了一起。crm具有较强的自动化特点,并且能够处理好销售与客户管理之间的关系。它的目的在于不断的缩短销售的周期以及销售中投入的成本,进而不断增加企业在盈利方面的能力,并且寻找一片新的产品市场,逐渐增加企业的业务领域,从而提高潜在客户以及忠诚客户的满意度,盈利能力以及忠诚度等。

2crm中数据挖掘的应用研究领域

2.1从客户生命周期角度分析数据挖掘技术的应用

从crm的广义来看,可以简单化的理解为管理所有的和客户之间的一系列互动。在购买实践的过程中,这就需要运用多种信息对客户之间的多维关系进行预测以及分析。在不同的阶段过程中,客户关系可以看做是客户的生命周期。一般说来,客户的生命周期可以划分为3个主要的过程:其一是寻找到客户,其二是能够提升客户的价值,其三是不断维护好效益客户,使其持续受益。如果实现了各个阶段效益的最大化,便可以在此基础上不断提高企业的利润。其一是借助数据挖掘寻找潜在的新客户:crm中首先应该做的便是识别那些潜在的客户,寻找到之后就要尽可能使其转变成企业发展中的忠实客户,数据挖掘可以帮助企业实现这一切。其二是不断提升客户的价值:通过客户盈利能力的相关具体化分析,进一步挖掘和预测客户本身所具有的盈利能力以及未来的具体变化;通过对客户购买模式的相关研究,实现客户的细分化,这样一来可以针对性的提供更加具有针对性的个性化服务,从而能够有效的实现多维化的交叉销售。其三是维护好客户,要及时的对客户忠诚度进行分析研究,以防客户流失。借助数据的深入研究和挖掘,及时分析好客户的历史交易记录,提醒消费者行为,并提出相应的对策和建议。

2.2各行业中crm的应用

(1)零售业crm中的数据挖掘零售业crm它是数据挖掘领域中最重要的应用方面,伴随着网络以及电子商务模式的不断发展而呈现出繁荣发展的态势。通过对零售数据的挖掘可以对客户的购买行为进行识别和具体化的分析,并且及时发现客户的购买嗜好以及未来的购买趋势,这样便不断提高了服务的质量,为客户满意度的提高提供了条件。例如,我们可以借助多个特性化的数据进行全面的销售,这样一来便实现了客户与产品之间的多维联系,使用多维、相关化的分析来做好促销的'有效性,借助序列模式我们可以挖掘客户忠诚度,通过相关性分析可以为购买参考提供建设性的意见和建议。(2)电信业crm中的数据挖掘当前的电信行业,已经从纯粹的市话服务领域不断转向提供一些综合性的电信服务。它能够把互联网、电信网以及其他的各种通信和计算融合在一起,这是时代发展的大潮流。借助数据挖掘等相关技术可以为一些商业化的实践提供条件,确定好电信服务的基本方式,捕捉每一个盗窃,从而更好地借助技术方面的资源,实现颇具人性的服务。电信数据一般具有多维化的分析功能,可以实现数据的识别与比较,更可以实现数据通信与系统负载等。通过量化分析,聚类分析以及异常值分析对盗用、异常模式进行识别和破解。(3)金融业crm中的数据挖掘如今,大部分的银行以及一些金融性的专业机构能够为客户提供了多种选择,例如最基本的储蓄、投资以及信贷服务等。有时也可以提供一些保险和股票服务。在金融市场中,数据生成已经相对成熟,从整体看来金融领域的数据相对较完整、可靠,它为数据分析提供了基点。下面的几个是平时常见的应用情况:通过多维化的数据分析、挖掘可以做好数据仓库的基本任务;通过特征比较研究做好数据的衡量和计算帮助客户对贷款偿还进行科学化的预测和分析;通过分类以及聚类的方式对客户群体进行识别,对目标市场进行分析;借助数据的可视化以及关联性分析对金融洗钱以及其他的一些金融犯罪进行侦破。

作者:吴磊单位:吉林省长春市吉林建筑大学计算机科学与工程学院

参考文献

[1]王一鸿.体检中心crm构建及数据挖掘的应用研究[d].华东理工大学.

[2]潘光强.基于数据挖掘的crm设计与应用研究[d].安徽工业大学.2011

[3]石彦芳,石建国,周檬.数据挖掘技术在crm中的应用[j].中国商贸.(02)

[4]王芳,杨奕.论数据挖掘技术在客户关系管理(crm)中的应用[j].现代商贸工业.(01)

[5]郑玲,陶红玉,阚守辉.数据挖掘在crm中的应用[j].中国电力教育.(s3)

网络经济数据挖掘在工商管理中的应用论文

根据波特的影响企业的利益相关者理论,企业有五个利益相关者,分别是客户、竞争对手、供应商、分销商和政府等其他利益相关者。其中,最重要的利益相关者就是客户。现代企业的竞争优势不仅体现在产品上,还体现在市场上,谁能获得更大的市场份额,谁就能在竞争中占据优势和主动。而对市场份额的争夺实质上是对客户的争夺,因此,企业必须完成从“产品”导向向“客户”导向的转变,对企业与客户发生的各种关系进行管理。进行有效的客户关系管理,就要通过有效的途径,从储存大量客户信息的数据仓库中经过深层分析,获得有利于商业运作,提高企业市场竞争力的有效信息。而实现这些有效性的关键技术支持就是数据挖掘,即从海量数据中挖掘出更有价值的潜在信息。正是有了数据挖掘技术的支持,才使得客户关系管理的理念和目标得以实现,满足现代电子商务时代的需求和挑战。

一、客户关系管理(crm)

crm是一种旨在改善企业与客户之间关系的新型管理方法。它是企业通过富有意义的交流和沟通,理解并影响客户行为,最终实现提高客户获取、客户保留、客户忠诚和客户创利的目的。它包括的主要内容有客户识别、客户关系的建立、客户保持、客户流失控制和客户挽留。通过客户关系管理能够提高企业销售收入,改善企业的服务,提高客户满意度,同时能提高员工的生产能力。

二、数据挖掘(dm)

数据挖掘(datamining,简称dm),简单的讲就是从大量数据中挖掘或抽取出知识。数据挖掘概念的定义描述有若干版本。一个通用的定义是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取人们感兴趣的知识,这些知识是隐讳的、事先未知的、潜在有用的信息。

常用的数据挖掘方法有:

(1)关联分析。即从给定的数据集中发现频繁出现的项集模式知识。例如,某商场通过关联分析,可以找出若干个客户在本商场购买商品时,哪些商品被购置率较高,进而可以发现数据库中不同商品的联系,进而反映客户的购买习惯。

(2)序列模式分析。它与关联分析相似,其目的也是为了控制挖掘出的数据间的联系。但序列模式分析的侧重点在于分析数据间的前后(因果)关系。例如,可以通过分析客户在购买a商品后,必定(或大部分情况下)随着购买b商品,来发现客户潜在的购买模式。

(3)分类分析。是找出一组能够描述数据集合典型特征的模型,以便能够分类识别未知数据的归属或类别。例如,银行可以根据客户的债务水平、收入水平和工作情况,可对给定用户进行信用风险分析。

(4)聚类分析。是从给定的数据集中搜索数据对象之间所存在的有价值联系。在商业上,聚类可以通过顾客数据将顾客信息分组,并对顾客的购买模式进行描述,找出他们的特征,制定针对性的营销方案。

(5)孤立点分析。孤立点是数据库中与数据的一般模式不一致的数据对象,它可能是收集数据的设备出现故障、人为输入时的输入错误等。孤立点分析就是专门挖掘这些特殊信息的方法。例如,银行可以利用孤立点分析发现信用卡诈骗,电信部门可以利用孤立点分析发现电话盗用等。

三、数据挖掘在客户关系管理中的应用

1、进行客户分类

客户分类是将大量的客户分成不同的类别,在每一类别里的客户具有相似的属性,而不同类别里的客户的属性不同。数据挖掘可以帮助企业进行客户分类,针对不同类别的客户,提供个性化的服务来提高客户的满意度,提高现有客户的价值。细致而可行的客户分类对企业的经营策略有很大益处。例如,保险公司在长期的保险服务中,积累了很多的数据信息,包括对客户的服务历史、对客户的销售历史和收入,以及客户的人口统计学资料和生活方式等。保险公司必须将这些众多的信息资源综合起来,以便在数据库里建立起一个完整的客户背景。在客户背景信息中,大批客户可能在保险种类、保险年份和保险金额上具有极高的相似性,因而形成了具有共性的.客户群体。经过数据挖掘的聚类分析,可以发现他们的共性,掌握他们的保险理念,提供有针对性的服务,提高保险公司的综合服务水平,并可以降低业务服务成本,取得更高的收益。

2、进行客户识别和保留

(1)在crm中,首先应识别潜在客户,然后将他们转化为客户

这时可以采用dm中的分类方法。首先是通过对数据库中各数据进行分析,从而建立一个描述已知数据集类别或概念的模型,然后对每一个测试样本,用其已知的类别与学习所获模型的预测类别做比较,如果一个学习所获模型的准确率经测试被认可,就可以用这个模型对未来对象进行分类。例如,图书发行公司利用顾客邮件地址数据库,给潜在顾客发送用于促销的新书宣传册。该数据库内容有客户情况的描述,包括年龄、收入、职业、阅读偏好、订购习惯、购书资金、计划等属性的描述,顾客被分类为“是”或“否”会成为购买书籍的顾客。当新顾客的信息被输入到数据库中时,就对该新顾客的购买倾向进行分类,以决定是否给该顾客发送相应书籍的宣传手册。

(2)在客户保留中的应用

学校的招生人数在逐渐减少,那么就要找出减少的原因,经过广泛的搜集信息,发现原因在于本学校对技能培训不够重视,学生只能学到书本知识,没有实际的技能,在就业市场上找工作很难。针对这种情况,学校应果断的抽取资金,购买先进的、有针对性的实验实训设备,同时修改教学计划,加大实验实训课时和考核力度,培训相关专业的教师。

(3)对客户忠诚度进行分析

客户的忠诚意味着客户不断地购买公司的产品或服务。数据挖掘在客户忠诚度分析中主要是对客户持久性、牢固性和稳定性进行分析。比如大型超市通过会员的消费信息,如最近一次消费、消费频率、消费金额三个指标对数据进行分析,可以预测出顾客忠诚度的变化,据此对价格、商品的种类以及销售策略加以调整和更新,以便留住老顾客,吸引新顾客。

(4)对客户盈利能力分析和预测

对于一个企业而言,如果不知道客户的价值,就很难做出合适的市场策略。不同的客户对于企业而言,其价值是不同的。研究表明,一个企业的80%的利润是由只占客户总数的20%的客户创造的,这部分客户就是有价值的优质客户。为了弄清谁才是有价值的客户,就需要按照客户的创利能力来划分客户,进而改进客户关系管理。数据挖掘技术可以用来分析和预测不同市场活动情况下客户盈利能力的变化,帮助企业制定合适的市场策略。商业银行一般会利用数据挖掘技术对客户的资料进行分析,找出对提高企业盈利能力最重要的客户,进而进行针对性的服务和营销。

(5)交叉销售和增量销售

交叉销售是促使客户购买尚未使用的产品和服务的营销手段,目的是可以拓宽企业和客户间的关系。增量销售是促使客户将现有产品和服务升级的销售活动,目的在于增强企业和客户的关系。这两种销售都是建立在双赢的基础上的,客户因得到更多更好符合其需求的服务而获益,公司也因销售增长而获益。数据挖掘可以采用关联性模型或预测性模型来预测什么时间会发生什么事件,判断哪些客户对交叉销售和增量销售很有意向,以达到交叉销售和增量销售的目的。例如,保险公司的交叉营销策略:保险公司对已经购买某险种的客户推荐其它保险产品和服务。这种策略成功的关键是要确保推销的保险险种是用户所感兴趣的,否则会造成用户的反感。

四、客户关系管理应用数据挖掘的步骤

1。需求分析

只有确定需求,才有分析和预测的目标,然后才能提取数据、选择方法,因此,需求分析是数据挖掘的基础条件。数据挖掘的实施过程也是围绕着这个目标进行的。在确定用户的需求后,应该明确所要解决的问题属于哪种应用类型,是属于关联分析、分类、聚类及预测,还是其他应用。应对现有资源如已有的历史数据进行评估,确定是否能够通过数据挖掘技术来解决用户的需求,然后将进一步确定数据挖掘的目标和制定数据挖掘的计划。

2、建立数据库

这是数据挖掘中非常重要也非常复杂的一步。首先,要进行数据收集和集成,其次,要对数据进行描述和整合。数据主要有四个方面的来源:客户信息、客户行为、生产系统和其他相关数据。这些数据通过抽取、转换和装载,形成数据仓库,并通过olap和报表,将客户的整体行为结果分析等数据传递给数据库用户。

3、选择合适的数据挖掘工具

如果从上一步的分析中发现,所要解决的问题能用数据挖掘比较好地完成,那么需要做的第三步就是选择合适的数据挖掘技术与方法。将所要解决的问题转化成一系列数据挖掘的任务。数据挖掘主要有五种任务:分类,估值预测,关联规则,聚集,描述。前三种属于直接的数据挖掘。在直接数据挖掘中,目标是应用可得到的数据建立模型,用其它可得到的数据来描述感兴趣的变量。后两种属于间接数据挖掘。在间接数据挖掘中,没有单一的目标变量,目标是在所有变量中发现某些联系。

4、建立模型

建立模型是选择合适的方法和算法对数据进行分析,得到一个数据挖掘模型的过程。一个好的模型没必要与已有数据完全相符,但模型对未来的数据应有较好的预测。需要仔细考察不同的模型以判断哪个模型对所需解决的问题最有用。如决策树模型、聚类模型都是分类模型,它们将一个事件或对象归类。回归是通过具有已知值的变量来预测其它变量的值。时间序列是用变量过去的值来预测未来的值。这一步是数据挖掘的核心环节。建立模型是一个反复进行的过程,它需要不断地改进或更换算法以寻找对目标分析作用最明显的模型,最后得到一个最合理、最适用的模型。

5、模型评估

为了验证模型的有效性、可信性和可用性,从而选择最优的模型,需要对模型进行评估。我们可以将数据中的一部分用于模型评估,来测试模型的准确性,模型是否容易被理解模型的运行速度、输入结果的速度、实现代价、复杂度等。模型的建立和检验是一个反复的过程,通过这个阶段阶段的工作,能使数据以用户能理解的方式出现,直至找到最优或较优的模型。

6、部署和应用

将数据挖掘的知识归档和报告给需要的群体,根据数据挖掘发现的知识采取必要的行动,以及消除与先前知识可能存在的冲突,并将挖掘的知识应用于应用系统。在模型的应用过程中,也需要不断地对模型进行评估和检验,并做出适当的调整,以使模型适应不断变化的环境。

数据挖掘技术在银行信贷风险的运用论文

当前,我国很多银行小型网点受到硬件设施、数据处理技术的等方面限制,无法有效的把握贷款相关信息,进而无法准确、有效地评估信贷风险,容易出现决策失误现象,因此对银行信贷风险管理期间数据挖掘技术的应用开展深入研究,对于降低信贷风险、维护金融市场稳定有着重要的指导意义。

一、数据挖掘与银行信贷风险概述

(一)数据挖掘概述

数据挖掘是指在海量数据中将一些隐藏,却又具有价值的数据进行发现、提取的方法,具体是指将一些不为人知的、具有未知性、规律性、隐蔽性的'信息进行发现,提取的整个过程。

(二)银行信贷风险概述

信贷风险可以划分为市场性风险、非市场性风险,其中市场性风险多数来自于借款企业、借款人的生产以及销售风险,主要是指借款放在生产、销售自身产品期间,由于市场条件、生产技术的变动的所引起的风险。非市场风险包括社会风险、自然风险,自然风险是指因自然因素造成借款人的经济遭受损失,无法偿还信贷本息风险;社会风险表示由组织、个人在社会上的某些行为所引起的风险。

二、数据挖掘在银行信贷风险管理中的运用

(一)应用原理

利用数据挖掘,可利用不同类别贷款特征建立贷款管理模型,一旦有新贷款申请,当即利用模型来判断贷款类别,银行可依据模型的类别,对贷款申请采取针对性措施,同时,在应用数据挖掘期间,会每隔一段时间,就对每一笔贷款开展重新分类,进而有效提高信贷风险管理力度。

(二)数据挖掘具体应用

银行信贷原始数据描述。我国一些银行网点设立于县级,乃至是县级以下的地域,这些小型银行所开展的贷款业务主要面对来自于农村地区的客户,例如某商业银行开展的小额贷款业务,分为农户、商户两种,本次研究以商户小额贷款为研究对象。商户小额度贷款可分为商户联保贷款、商户保证贷款,在对此类小型某商业银行的商业信贷风险管理开展数据挖掘期间,为了不会侵犯到贷款客户的隐私,避免客户信息的泄露,在数据提取阶段,将商户的姓名、居住地址、店铺位置、企业名称、联系方式、营业执照编号等数据信息进行过滤,经过对海量客户相关数据分析之后,将数据提取确认为如下字段:

(1)客户代码;

(2)婚姻状况;

(3)教育程度;

(4)主营业务;

(5)经营年限;

(6)年龄;

(7)贷款种类;

(8)贷款额度;

(9)贷款期限;

(10)客户流动总资产;

(11)固定总资产;

(12)客户负载;

(13)客户还款方式;

(14)客户月净收入;

(15)客户月投入;

(16)客户信用信息[1]。

2.数据预处理。数据采集的第二步,就是对错误、空值数据进行预处理,数据预处理的过程为数据收集―――数据选择―――数据清理―――数据转换,在上一部分,针对某某商业银行信贷管理业务,进行了17个属性字段的数据收集,随后,以随机的方式在数据库中对100条贷款用户信息记录进行收集、整理,整理过后经过处理,去除无参考价值的数据,对剩余的属性字段进行概化,如表1:在本次开展分类抽取整理的客户资料当中,有52个为已经分类的案例,其中关注类9例,次级类6例,可疑类5例、损失类2例、正常类30例,此外,一般损失类借款人的相关财务资料都难以获取,因此只有其他4类参与,即:正常类=30,关注类=9;次级类=6,可疑类=5,损失类=2。3.构造决策树。将上表中过滤后的数据,转换成cscdatafiles格式时weka可以读取,随后使用weka建造模型,选择建立决策树方法建立决策树,采用准确率最高的j48分类器。4.评估模型。以分类模型和样本数据作为依据,利用测试样本的百分比来表示模型预测的准确率,假设正确率可接受,那么就可以用于指导对客户群的分流,j48分类器通过默认粉分层10折较差验证,准确率高达82%,为可以接受范围,此刻,当银行收到新的贷款申请,就可以利用模型得出估计的类别,进而对不同的类别采取针对性的措施,如果贷款类型为正常范围,直接审批通过,弱势关注范围,就需要对其加强审查、加强贷后检查或是对其进行拒绝,进一步提高信贷资产安全性,有效控制银行信贷风险[2]。

三、结语

本次研究,针对银行信贷风险管理中数据挖掘的应用进行了深入研究,在分析数据挖掘、银行信贷风险的基础上,分别对数据挖掘中的原始数据描述,、数据预处理、决策树构造、评估模型开展深入的研究,通过本次研究,可以明确数据挖掘的每个步骤经过,相关行业可以借鉴本次研究,将数据挖掘应用到银行的信贷风险管理中,以确保信贷资产的安全性,降低信贷风险。

参考文献

数据挖掘技术在银行信贷风险的运用论文

1数据挖掘技术在水利工程管理中面临的主要问题

1.1与gis系统相孤立

gis是水利工程信息系统的主体,它可以生成大部分空间数据。但是查询、计算与分析空间数据,使其可视化显示是一项较为复杂的技术,需要充分利用gis系统。因此,充分利用其原有数据,让数据挖掘与gis有效的结合,二者共同处理复杂的空间数据是一项重要问题。

1.2数据挖掘系统模型尚未建立

数据挖掘系统模型能帮助水利工程进行数据挖掘。在系统工程中,模型对于研究与设计以及实现工程目标具有重要作用,建构模型是系统工程完美实现的重要基础。

2如何在水利工程中高效利用数据挖掘技术

2.1充分利用gis系统

水利工程的建设与管理受到地形、地质、河流、水文以及社会经济等多方因素的影响,需要运用处理和分析空间信息能力较强的gis系统加以帮助。利用gis系统中的大量空间和属性数据提供数据指导。将数据挖掘技术与gis系统向结合能有效提高gis的查询与分析能力,促进智能化系统的建立。

2.2加强嵌入式耦合模式的运用

将数据挖掘系统与gis进行耦合,形成双系统。让gis系统为数据挖掘提供基础,同时利用其丰富的空间数据与较强的分析能力减少数据挖掘的开发量,是开发效率达到一个新的突破。

2.3重视松散式耦合

数据挖掘系统与gis系统既相互联系又彼此独立,数据挖掘仅调用gis系统中的空间数据与属性数据进行数据分析,让其他数据仍在原系统中进行,二者保持相对的独立性。这样可以促进各自系统的'不断发展,得到更好、更快的开发与利用。

2.4保持紧密式耦合

水利工程管理数据挖掘系统的首选便是紧密式耦合,它将嵌入式与松散式耦合向结合,在相互独立的情况下加强彼此的联系。让数据挖掘系统发挥独立功能,使开发难度有所降低,增强系统的灵活性。

3结语

在水利工程管理中利用数据挖掘技术,对水利工程数据进行全面综合的分析,找出并充分利用有价值的潜在信息,提供更加有效的管理决策,使建设资金得到更加高效的利用,降低工程管理的总成本,让水利工程发挥重大的经济效益与社会效益。该文主要探讨数据挖掘技术的实施方法以及如何在水利工程管理中高效的数据挖掘技术,初步认为在水利工程管理中需要数据挖掘技术与gis系统的合作,二者的相互协调合作能够充分利用工程数据,促进数据挖掘技术的高效运作,提高水利工程管理水平。希望数据挖掘技术得到更多的开发与利用,为水利工程管理提供更多的帮助,促进国民经济的快速发展。

数据挖掘技术在银行信贷风险的运用论文

1引言

我国长期以来兴建了一大批水利工程,初步形成了具有防洪、排涝、灌溉、供水、发电、养殖、种植、旅游等功能要素的水利工程体系,为国民经济的高速发展发挥了巨大的基础作用和支撑作用。在水利工程建设取得辉煌成就的同时,人们逐渐意识到我们在水利工程的管理上还存在着手段比较落后,重建轻管、水利资源利用率低等突出问题,致使一大批水利工程不能发挥其价值,或者工程寿命大大缩短。穆范椭等分别从制度管理、机制管理、人力资源管理等几个方面对水利工程管理中存在的问题进行了论述,并提出了不少可行性的解决措施。不可否认,水利工程管理中出现的问题,不少是制度上的问题,但水利工程管理有其特殊性、复杂性,需要广博的知识和高超的技术,单纯靠“软管理”是不能从根本上解决问题的,必须借助一些现代化的信息手段来辅助进行决策和管理,才能够更好、更科学地解决问题。

近年来,在水利工程信息化的过程中,我国建设了一大批水利工程管理信息系统,对于水利工程的建设和运行管理起到了很好的帮助作用。但是,这些系统所提供的功能大多是业务型的,很少面向管理决策。随着水利工程管理向现代化纵深发展,这些系统远远满足不了人们的需要。另一方面,水利工程管理信息系统在发展过程中积累了海量的数据,不少是空间类型的数据,而且这些数据还在不断地增长,而相比于数据的生产、运输和累积能力,人类对空间数据的分析能力还很落后。人们虽然深知这些海量数据中蕴含了很多有价值的知识,但是不知道如何利用它们,而依靠传统的信息系统是解决不了这些问题的。数据挖掘技术的出现为这些问题的解决带来了可能。所谓数据挖掘,就是从海量数据中发现潜在的、有价值的知识的过程。传统的数据挖掘技术和方法一般作用于非空间数据,而水利工程管理方面的数据不但有非空间数据,还有大量的空间数据。和非空间数据相比,空间数据除了具备非空间数据的特征外,还有拓扑、方位和距离等非空间特征,因此其挖掘技术的实现有其特殊性。在武汉大学李德仁院士首次提出空间数据挖掘这一概念后,国内外不少学者为此开展了广泛的研究。

2空间数据挖掘在水利工程管理中应用需要解决的主要问题

水利工程管理信息系统中存在着大量的空间数据,因此需要采用空间数据挖掘技术。和一般的空间数据挖掘系统相比,对水利工程数据的挖掘需要考虑其历史发展因素和特殊性。首先,水利工程是一个系统工程,其有效管理往往需要多领域、多部门的专家相互协作,一项重要决策的做出往往需要对历史数据从各种维度进行分析,反复考虑各种因素,综合各个专家的意见才能形成,而不同的专家和决策者会从不同的角度来分析数据,因此对水利工程数据的挖掘需要交互探查或查询驱动的方法,在技术实现上需要采用数据仓库和数据立方体支持这种探查式的、快速的联机查询和分析。其次,在用的水利工程信息系统的主体是gi,大部分的空间数据是由gis系统生成的,空间数据的查询、计算、分析和可视化显示是一种复杂的技术,因此如何利用原有的gis系统中的数据,数据挖掘如何和gis集成以进行复杂的空间数据处理成为一个需要解决的重要问题。最后,要实现水利工程的数据挖掘,需要建立一个数据挖掘系统模型,模型在系统工程的研究、设计和实现中是一个非常重要的问题,一个好的模型对了解系统本质特征、揭示系统的规律起到非常重要的作用,建模也是实现一个工程系统的重要一步。因此,要想实现空间数据挖掘技术在水利工程管理中的应用,这3个问题是我们不可回避的、必须研究的核心问题。

3空间数据仓库

水利工程信息化的过程中产生了海量的数据,而数据仓库是处理海量数据的关键技术,它可以将不同来源的数据统一到语义上一致的环境下。在水利工程信息系统中除了有丰富的非空间数据外,还有大量的空间数据,如地图、预处理过的遥感图像、视频等。空间数据与非空间数据相比,除了具备传统数据库数据的特征外,还携带了空间特征,如拓扑、方位、距离等。“空间数据仓库是面向主题的、集成的、时变的和非易失性的.非空间数据和空间数据的集合”,用于支持空间数据挖掘和与空间数据相关的决策过程。建立空间数据仓库是一个具有挑战性的工作,需要解决两个方面的问题:集成来自异构数据源和系统的空间数据;如何在空间数据仓库中实现快速而灵活的联机分析处理。

影响水利工程建设和管理决策的数据来源是丰富多样的,如气象数据库、蓄滞洪区空间分布式社会经济数据库、雨情和水情数据库、水旱灾情数据库等,它们往往存在于异构的环境中,可能来自于不同的系统,数据格式多种多样。数据格式不仅与特定的结构有关,如光栅格式和矢量格式,而且与特定的厂家有关。为了能够进行空间数据的分析和处理,需要首先对这些异构的数据进行清洗、变换和集成,以清晰一致的格式存放在数据仓库中,然后可以调用相应的数据挖掘算法获取有用的知识。空间数据仓库已成为联机数据分析处理和数据挖掘必不可缺的平台。利用空间数据仓库技术,可以对异构的各类信息进行过滤、集中和综合,完成水情信息采集、工情信息采集、防汛抗旱信息等水利工程信息的自动接收、处理等功能,在此基础上可以进行汛情分析、暴雨洪水预报、调度、灾情评估以及旱情预测等知识发现功能。

空间数据仓库、olap(on-lineanalyticprocess,联机分析处理)和olam(on-lineanalyticmining,联机分析挖掘)的实现基于多维数据模型,这种模型围绕中心主题组织数据,将数据看作数据立方体的形式。数据立方体允许从多维对数据建模和观察,它由维和事实来定义。数据仓库有星型模式、雪花型模式或事实星座型模式。在这3种结构中,星型模式提供了简洁而有组织的仓库结构,便于进行olap和olam操作,所以是空间数据仓库建模的好选择。相比于传统的数据立方体,空间数据立方体中存在3种类型的维:非空间维、空间到非空间维和空间到空间维;有两种不同的度量:数值度量和空间度量。

4水利工程

gis系统与数据挖掘系统结合的方式水利工程的建设和管理与其所在地的地形、地质、社会、经济以及河流的水文等空间要素有关,而gis善于处理和分析空间信息,因此大多水利工程在信息系统中采用了gis技术。gis是空间数据库发展的主体。gis中含有大量的空间和属性数据,有着比一般关系数据库和事务数据库更加丰富和复杂的语义信息,隐藏着丰富的知识。

空间数据挖掘和知识发现技术,一方面可使gis查询和分析技术提高到发现知识的新阶段,另一方面从中发现的知识可构成知识库用于建立智能化的gis系统,同时也将促进3的智能化集成,因此很有必要探讨gis系统与数据挖掘系统的结合方式。当数据挖掘系统工作在一个需要与其他信息系统成分通信的环境下,可以采用不耦合、松散耦合、半紧密耦合和紧密耦合4种方案。不耦合方案虽然简单,但缺点不少,是一种非常糟糕的设计。雷宝龙和李春梅提出了gis与空间数据挖掘集成的3种模式:松散耦合式、嵌入式和混合型空间模型法。在此基础上对上述3种模式进行了改进,以适合于水利工程gis系统和空间数据挖掘系统的集成。

4.1嵌入式

嵌入式是将数据挖掘系统融入到gis中,也就是说系统既是一个gis系统,又是一个数据挖掘系统。嵌入式的优点是可以充分利用gis系统所提供的空间数据处理和分析功能来开发数据挖掘系统,减少了开发的工作量,降低了开发的难度;其缺点是数据挖掘功能被限制在特定的gis系统中,难以移植到其他的gis系统上,而且这种方式会因为考虑到一种用户的需求,而限制另一部分用户的需求,从而使系统功能的开发受到限制。

4.2松散耦合式

在松散耦合式下,数据挖掘系统和gis系统实际上是两个独立的系统,数据挖掘系统从gis中获取空间数据和属性数据,经过清洗、过滤和变换后存入自身的数据库或数据仓库中,数据挖掘所进行的其他工作与gis系统没有任何联系。这种模式的优点是数据挖掘系统不依赖于特殊的gis系统,可以开发出独立的、相对通用的空间数据挖掘系统;缺点是在数据挖掘系统中要融入复杂的空间数据的处理,系统开发的难度很高。4.3紧密耦合式紧密耦合式克服了嵌入式和松散耦合式的缺点,既充分利用了原有gis的处理空间数据的强大功能,降低了开发的难度,又不受制于原有gis系统的用户需求的制约,具有较大的灵活性,提供了相对独立的数据挖掘功能。其缺点是和原来系统联系密切,开发的数据挖掘系统往往依赖于gis系统。

在这3种结合方式中,紧密耦合式有着明显的优点,是建立水利工程数据挖掘系统优先考虑的方式。

5水利工程数据挖掘系统模型

文献介绍了国外几个相对比较成熟的空间数据挖掘系统:geominer、multimediaminer、skicat等,然后提出了作者领导的空间数据挖掘团队研究和开发的两种空间数据挖掘原形系统gisdbminer和rsimageminer,并提出了gis空间数据挖掘系统的体系结构。文献介绍了现有的数据挖掘模型:olam模型和影响域模型,以及geominer原型系统的体系结构,最后提出了一个基于空间立方体的数据挖掘模型。文献提到了han提出的通用数据采掘原型dblearn/dbminer、holsheimer等人提出的并行体系结构,以及matheus等人提出的多组件体系结构,并重点介绍了matheus等人的多组件体系结构。水利工程管理决策大多是复杂的非结构化决策,需要进行探查性或查询驱动型的数据挖掘,以方便不同的决策者和专家从不同的领域或角度进行数据探查和分析。一般情况下,在挖掘过程中需要进行人机的多次对话,然后结合人类专家的隐性知识,才能够发现有价值的知识。因此自动化的挖掘方法不适合于水利工程数据挖掘。

模型分为4层,分别为数据存储层、多维数据库与数据仓库层、olap/olam层、用户界面层。第一层数据存储层的数据主要来源于水利工程数据库和相关的异构数据库,元数据用于指导数据的清理、过滤和集成,是构建水利工程数据仓库重要的技术手段。第一层的数据经过变换和集成后,存储到数据仓库和多维数据库中,它们是实现第三层olap/olam分析所需要的重要的数据源。该模型的核心是olap/olam,它们是支持探查性知识发现的核心技术。第四层是用户界面层,用来帮助用户实现基于约束的挖掘查询,并将挖掘结果显示给用户。

6空间挖掘可以采用的方法与发现的知识类型

数据挖掘在水利工程管理上的应用,不仅可以建设智能型的gis系统,促进遥感技术和gis技术的深入应用,还可以从数据中发现潜在的、有价值的知识或规则,用于指导水利工程的建设和管理。一般来说,传统的数据挖掘方法如统计、分类、聚类等都可用于空间数据挖掘,但我们不能简单地把这些方法直接应用在空间数据的挖掘上。一方面,因为空间数据除了具备一般非空间数据的特征外,还具备拓扑、方位、距离等空间特征;另一方面,传统的数据挖掘算法一般假定数据对象统计不相关、相邻的数据对象是独立产生的,而空间数据的相邻对象间存在着关联和相互影响,因此需要对原有的方法进行改进,使得数据挖掘方法适合于地理空间数据的挖掘。在空间数据挖掘与知识发现中可采用的方法主要有:统计方法、归纳方法、聚类方法、空间分析方法、探测性的数据分析、rough集方法、云理论、图像分析和模式识别等。能发现的知识类型有:(1)普遍的几何知识,如计算和统计出空间目标几何特征量的最小值、最大值、均值、方差、众数等;(2)空间分布规律,如机井、水库的分布规律。能发现的规则有:(1)空间关联规则,如地下水与降雨量的关系,河水质量与污染企业分布的关系;(2)空间的聚类规则;(3)空间演变规则,如水库泥沙淤积的演变规律,河道周围生态的演变规律。需要注意的是,为了便于理解空间数据、发现空间联系、发现空间数据与非空间数据之间的关系,应重视可视化的方法在水利工程数据挖掘过程和挖掘结果的使用。

7结语

利用空间数据挖掘技术,对具有空间特征的水利工程数据进行分析,能够发现潜在有价值的知识,利用这些知识,能够降低工程管理的成本,有效利用建设和维护资金,更好地发挥水利工程的效益,为水利工程的管理决策提供依据。要实现数据挖掘技术在水利工程中的应用,必须研究和解决数据仓库和数据立方体的应用、数据挖掘与gis集成和水利工程数据挖掘系统模型3个核心问题。本文对这3个问题进行了探讨,认为数据仓库是水利工程数据挖掘的基础,宜采用紧密耦合式结构与gis系统进行集成,在挖掘模型上可以采用基于olap和olam的4层框架。

网络经济数据挖掘在工商管理中的应用论文

网络经济数据挖掘在工商管理中的应用论文【1】

摘要:数据挖掘是当前数据库和信息决策领域的最前沿研究方向之一。

该文从知识发现和数据挖掘的概念出发,总结了数据挖掘常采用的技术方法,同时对数据挖掘的应用及发展进行了阐述。

该文以一个淘宝网行业的数据挖掘案例探讨了数据挖掘在网络经济下工商的应用;从技术和商业需求两个方面分别研究了数据挖掘商务应用的可行性,并指出因竞争战略的细化导致了对数据挖掘的商业需求。

关键词:数据挖掘;网络经济;序列模式

随着数据库和网络等技术的迅速发展,我们产生和收集数据的能力已经迅速提高,大量的数据储存在数据库和数据仓库中,我们已被淹没在数据和信息的汪洋大海中。

这项以数据库技术、网络技术、统计分析、人工智能等为依托的综合性运用技术的出现有其必然性和可行性。

人们需要有新的、更有效的手段地各种大量数据进行挖掘以发挥其潜能,数据挖掘正是在这样的应用需求环境下产生并迅速发展起来的,它的出现为自动和智能地把海量的数据转化为有用的信息和知识提供了手段。

1网络经济

网络经济,一种建立在计算机网络基础之上,以现代信息技术为核心的新的经济形态。

它以信息为基础,以计算机网络为依托,以生产、分配、交换和消费网络产品为主要内容,以高科技为支持,以知识和技术创新为灵魂。

它不仅是指以计算机为核心的信息技术产业的兴起和快速增长,也包括以现代计算机技术为基础的整个高新技术产业的崛起和迅猛发展,更包括由于高新技术的推广和运用所引起的传统产业、传统经济部门的深刻的革命性变化和飞跃性发展。

它实际上是一种在传统经济基础上产生的、经过以计算机为核心的现代信息技术提升的高级经济发展形态。

2数据挖掘商网络经济的案例

2.1电子商务行业概况

随着电子商务行业不断发展,新的供应商仍在进人市场与传统企业竞争。

电子商务行业促使杂货、药品、玩具零售商提供更低的价格和更全的商品。

电子商务正以低成本、高效率、覆盖广、协调性强、透明度高等一系列明显的交易优势席卷经济的各个层面。

中国移动互联网市场规模达393.1亿元,同比增长97.5%,移动电子商务的飞速发展正是中国移动互联网市场快速增长的主要推动力。

20,移动电商在移动互联网市场中的占比已接近三成,预计在末可以达到57%以上。

传统互联网电商企业在发展到一定规模后,有足够的经验和资本向移动终端转移,是移动电商快速增长的主要原因。

2.2数据挖掘分析过程

上面面用一个针对淘宝网滁州店铺采集的样本数据,进行挖掘的例子来说明数据挖掘的具体应用。

表1给出了数据源的部分字段格式。

表2、表3给出了经过整理和转换后的适用于挖掘工具的数据样本。

在本案例中,我们自行编写挖掘工具。

限于篇幅,具体数据挖掘过程省略。

2.3数据挖掘应用分析结论

从上面电子商务行业数据挖掘后分析可以得出:

电子商务销售的主体:我们找到进行网络销售的主体人(店铺)及相关个人店铺信息;

监管范围的扩展:传统工商监管只对实体店铺进行监管,通过对网络的市场监管,可以扩大工商管理监管范围,更加规范的市场。

3网络数据挖掘的分析方法

针对网络经济形态下的数据挖掘,我们主要采用以下三种方式进行数据挖掘:

3.1关联分析

利用关联规则进行数据挖掘。

在数据挖掘研究领域,对于关联分析的研究开展得比较深入,人们提出了多种关联规则的挖掘算法,如apriori、stem、ais、dhp等算法。

关联分析的目的是挖掘隐藏在数据间的相互关系,它能发现数据库中形如“90%的顾客在一次购买活动中购买商品a的同时购买商品b”之类的知识。

关联分析就是生成所有具有用户指定的最小置信度和最小支持度的关联规则。

3.2分类分析

设有一个数据库和一组具有不同特征的类别(标记),该数据库中的每一个记录都赋予一个类别的标记,这样的数据库称为示例数据库或训练集。

分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其它数据库中的记录进行分类。

3.3序列模式分析

序列模式分析和关联分析法相似,其目的也是为了采掘出数据之间的联系,但序列模式分析的侧重点在于分析数据间的前后(因果)关系。

运用序列模式分析销售记录,零售商则可以发现客户潜在的购物模式,例如客户在购买微波炉前常购买何种商品。

3.4数据挖掘与信息过滤技术的结合

网络的迅速发展导致了“信息过载”、“信息超载”现象,利用网络数据挖掘中得到的数据进行信息过滤机制就是为了克服上述现象,减少用户在获得信息过程中的负担,同时向用户提供数量适宜、质量优良的信息应运而生的。

比如在网络内容挖掘之前对网络文档中包含的信息进行过滤、筛选、分类和归档等操作,使网络内容挖掘所要处理的数据量得以减少,使输入数据的质量、网络内容挖掘的信息挖掘速度及精确度和用户所得信息的时效性得以提高。

4网络数据挖掘步骤

1)确定应用领域:包括此领域的基本知识和目标。

2)建立目标数据集:选择一个数据集或在多数据集的子集上聚焦。

3)数据预处理:在大数据集中,根据需求,利用数据净化和整合技术,选择与任务相关数据,在不降低其准确度的状况下减少处理数据量。

4)数据转换:找到数据的特征进行编码,减少有效变量的数目。

5)数据挖掘:根据数据和所要发现知识的种类来确定相应的挖掘算法。

6)数据评价:将挖掘出的知识和数据以各种可视化方式显示,并将其以图形、文本等方式存储在库中,以便对它们进一步挖掘,直至满意为止。

7)实施和应用:利用数据挖掘技术所建立模型在实际项目中的应用,包括数据库的构建,个性化用户服务、基于知识的企业信息管理(mis)、企业目标管理、决策支持等等。

5网络数据挖掘的未来展望

以上数据时网络经济形态下,在工商管理部分的应用,实际的工商管理目标是为工商管理与决策提供服务,未来的数据挖掘将会形成标准的数据挖掘语言或其他方面的标准化工作的数据挖掘系统。

数据挖掘能发现网络中隐含的有价值的信息和知识,从而提高标引、自动摘要、自动分类和自动聚类等的准确率;能促进用户兴趣模型的构建,从而为用户提供更好的个性化信息,难以满足网络信息用户的动态需求。

在网络信息检索的实际应用中,往往不是单一地运用数据挖掘技术,数据挖掘需和其他相关技术结合,才能发挥出更大的效用。

参考文献:

[5]苗杰,倪波.面向集成竞争情报系统的数据挖掘应用研究[j].情报学报,2001(8):443—450.