一、引言
有经济活动即有资金运动,有资金运动即需要支付系统的支撑。自2002年10月大额实时支付系统在北京、武汉成功投产试运行以来,经过人民银行十年的建设推广,目前,我国已建成以大额实时支付系统和小额批量支付系统为核心,全国支票影像交换系统、境内外币支付清算系统、电子商业汇票系统和网上支付跨行清算系统组成的支付清算系统,为经济金融和社会发展提供了快速高效、安全可靠的支付、清算和结算渠道,对加快社会资金周转,提高支付清算效率,促进国民经济又好又快发展发挥着越来越重要的作用。随着我国社会经济的不断发展和金融体制改革的不断深入,特别是有关信息科学技术的不断进步,我国支付清算网络的覆盖不断扩展,功能和效率日益改进,参与者规模不断扩大,业务量呈快速增长之势,系统中沉淀了大量资金汇划的金融数据,如何充分利用这些数据资源进行深度挖掘和加工,为预测经济走势,防范支付风险,维护金融稳定做出贡献,具有十分重要的意义。
二、数据挖掘技术
数据挖掘或称为知识发现,也称为基于数据库存的知识发现,是20世纪90年代中期兴起的新技术,通过信息技术对大量的数据进行探索和分析的过程,在浩如烟海的数据中提取有用、有效的信息,发现数据中有用模式和规律,帮助解释当前的行为或预测未来的结果,以人们容易理解的形式提供有用的决策信息。
数据挖掘是KDD(Knowledge Discovery in Database)中的重要技术,它并不是用规范的数据库存查询语言(如SQL)进行查询,是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理,从中提取辅助决策的关键性数据,进行模式的总结和内在规律的搜索,深入研究发生的原因,并且以一定的置信度对未来进行预测,用来为决策行为提供有利的支持。
数据挖掘常用的技术有:
(一)传统统计分析。这类技术包括相关分析、回归分析及因子分析等,一般先由用户提供假设,再由系统利用数据进行验证。
(二)神经元网络。神经网络可以很容易地解决具有上百个参数的问题。它常用于两类问题:分类和回归,很多数据挖掘工具和软件都包含了该技术。如俄罗斯的 PolyAnalyst,美国的BrainMaket,Neurosell和OWL等,它也是目前在金融应用分析中采用最多的挖掘技术。
(三)决策树。决策树提供了在什么条件下会得到什么值这类规则的方法,该方法的应用也非常广泛,主要用于分类。
(四)基于事例的推理方法。基本思路是当预测未来情况或进行正确决策时,系统寻找与现有情况相类似的事例,并选择最佳的相同的解决方案。
(五)遗传算法。遗传算法是一种基于生物进化过程的组合优化方法,其基本思路是随着时间的更替,只有适合的物种才得以进化。将这种思想用于数据挖掘就是根据遗传算法获得最佳模型,并据此对数据模型进行优化。
(六)非线性回归方法。这种方法的基础是,在预定的函数的基础上,寻找目标度量对其他多种变量的依赖关系。
(七)基于贝叶斯网络的方法。贝叶斯网络(Bayesian network),又叫概率因果网络、信任网络、知识图等,是一种有向无环图。
三、数据挖掘对支付系统数据可行性分析
支付系统运行中产生的业务数据具有数据量大、动态性强、关系复杂的特点,传统的金融分析所采用的模型往往是在某些苛刻的假设条件上建立的,形式牙是一些简单的数学表达式,虽说这些模型简洁具有较好的可解释性和可理解性,但建立的模型假设条件多,它在某种程度上损伤了分析结果的精确性,实际应用难以奏效。而数据挖掘技术在某些方面突破了这种限制,能够从中挖掘出隐含的、求知的、用户可能感兴趣的和对决策有潜在价值的知识和规则。
(一)数据量大
支付系统业务数据量非常庞大,每天都不断涌出大量新的数据,传统的分析法分析处理能力非常有限,而数据挖掘技术,我们从其定义即可看出,它面向的就是大数据量,特别是它与数据仓库的结合更是加强了其海量数据处理能力。
(二)动态性强
支付系统数据中所包含的规律时效性往往非常强,随着时间的变化,经济环境的变化规律也在不断更迭,数学形式的预测模型很难及时适应这种变化,而采用数据挖掘技术可以在不断获得新数据后自动对模型进行动态更新以适应新的环境,此外可视化也是数据挖掘技术的一个重要方面,即它通过图表的形式直观地将分析过程和分析结果表述出来,能够逐步引导分析者对问题的灵感,这一点对金融分析尤其重要,而传统的分析方法是很难做到的。
(三)关系复杂
一个金融变量的取值可能和很多因素有关,这种相关可能是线性的也可能是非线性,也许能以初等函数形式来描述,也许根本无法以数学形式表示,数学形式的预测模型固然简洁,具有较好的解释性和可理解性,但同时也是其缺陷所在,即它的变量个数不可能很多,函数关系也不可能太复杂。数据挖掘技术接受几百上千个变量也并不是太难的事,而且它表达的关系可以非常复杂,甚至无法以数学形式描述,如神经网络表达的变量间的关系是非常复杂的。此外数据挖掘表达逻辑关系的能力也非常强,这是传统的统计分析法非常欠缺的。
四、数据挖掘的主要步骤
对支付系统产生的海量数据进行数据挖掘并非一件易事,需要进行目标定义、数据收集、数据整理、数据挖掘、结果评估和分析决策几个步骤:
(一)目标定义
对目标有一清晰、明确的定义,也就是确定需要解决的问题,这个目标应是可行的、能够操作与评价的。
(二)数据收集
大量全面丰富的数据是数据挖掘的前提,没有数据,数据挖掘也就无从做起。因此,数据收集是数据挖掘的首要步骤。业务数据必须从支付系统数据库存获取,数据源必须确保真实、完整。
(三)数据清理
数据清理是数据挖掘的必要环节。由于数据收集阶段得到的数据可能有一定的“污染”,表现在数据可能存在自身的不一致性,或者有缺失数据的存在等,通过数据整理,可以对数据做简单的泛化处理,对数据进行清洗和充实,从而在原始数据的基础之上得到更为丰富的数据信息,进而便于下一步数据挖掘的顺利进行。
(四)数据挖掘
利用人工智能、数理统计等各种数据挖掘方法对数据进行分析,发现有用的知识与模式,这是整个过程的核心步骤。
(五)数据挖掘结果的评估
数据挖掘的结果存在有实际意义的、没有实际意义的和与实际情况相违背的,需要进行评估,进而修正数据挖掘模型。
(六)分析决策
数据挖掘的最终目标的是辅助决策。决策者可以根据数据挖掘的结果,结合实际情况,调整竞争策略等。
五、支付系统数据挖掘应用
(一)支付系统资金流对GDP的影响
GDP是衡量一国(或地区)综合实力的重要经济指标。能够反映出经济增长状况和宏观经济运行趋势,统计计算周期较长,而支付系统资金流动能够反映一段时期内真实发生的资金往来情况,时效性极强。近年来,国内学者对资金流动与经济发展关系研究表明,资金流动性强弱与经济繁荣程度有关,资金流动对生产要素的再配置,不仅为投资者带来更大经济效益,而且促进国民经济发展。通过对支付系统资金流进行数据挖掘,揭示二者间的近似定量关系,将有助于通过支付系统真实发生的资金流量数据近似反映宏观经济运行态势,提供动态决策信息参考。
(二)支付系统资金流与货币供应量相关性
货币供应量作为我国货币政策的中间目标,其变动影响支付系统资金流的大小。随着支付系统功能的日益完善,网络覆盖不断扩展,经济交易主体逐渐由传统的现金交易向非现金交易转变,减少了现金流通,从而能够减少使用货币交易的成本。同时,支付系统的安全、快捷和高效,加速了社会资金周转速度,影响社会实际货币供应总量。建立数据分类模型,采用回归分析方法分析两者的相关性,验证两者之间的影响机制和影响程度,为中央银行更好地实施货币政策提供参考。
(三)为反洗钱监控提供参考数据
金融犯罪是当今金融业内面临的棘手问题之一,其中洗钱活动日益猖獗,严重威胁国家安全。人民银行作为国家反洗钱行政主管部门,负责反洗钱资金监测。支付系统是人民银行建设的用于跨行资金清算的应用系统,每日产生海量的资金交易数据,通过对数据筛选、识别、分类,把数据从微观到宏观分为交易层、账户层、商业网络层,将大额和可疑交易量化标准,采用决策树等分类方法,建立反洗钱监测分析模型,实现对支付系统数据的自动监测,从而快速发现短时间内少数人员之间的异常巨额资金流动,发现可疑线索,提高反洗钱监测分析效率。
(四)对支付系统全年业务量分布及趋势分析
通过对支付系统中时间序列数据进行分类,采用多种数据挖掘工具,建立业务数据仓库,利用贝叶斯网络建立系统运行风险管理系统,研究业务处理峰值、业务分布,从而找出系统运行的规律和变化,对业务量分布趋势分析预测,为合理配置运维资源,确保系统安全稳定运行提供参考依据。
(五)资金流与行业景气指数的关联性
资金流的平均流速在一定程度反映了企业的景气程度,企业越景气,发展状况越好,贸易越频繁,与其相关的资金来往就越多,资金流的平均增速就越快。资金的流动性也体现出行业的活跃程度,从而反映出行业的景气程度。按行业类别对支付系统资金流进行分类,建立相应的分类数据模型,从而发现资金流平均增速与行业 (企业)景气指数之间的关联,研究资金流量和流速对行业(企业)景气度的影响程度。
六、结束语
数据挖掘在支付系统数据中的应用才刚刚开始,有待于进一步的研究、开发、推广,面对支付系统中大量有价值的数据信息,我们应该重点研究数据挖掘技术在反映经济运行指标、反洗衣钱监测、运行维护等方面的应用,随着人们对数据挖掘技术的深入研究,数据挖掘技术必将在金融领域得到更加广泛的应用,并取得更加显著的效果,为人民银行更好履行中央银行职责做出贡献。
版权声明