俞勇 恒丰银行首席风险官、中国人民大学兼职教授,清华大学深圳研究生院校外导师,先后在美国摩根大通银行、美国运通公司等从事新资本协议、战略规划、风险管理、金融衍生品交易与定价模型、金融信息安全等工作,曾任职于平安银行风险管理部兼新资本协议办公室总经理、中国银行业监督管理委员会监管二部,参与起草《商业银行资本充足率管理办法》等中国银行业监管法规文件,具有全面的国际银行先进风险管理工作经验和国内银行风险管理工作经验。著有《货币、银行与经济》、《银行全面风险管理与资本管理》、Asset Returns and Demographic Effects、Quality Choice Simulation and Implication Based on Individual Conjoint Analysis 等。本文原标题为《从“干了再算”到“算了再干” 谈一谈风险量化模型 》,刊载于《当代金融家》2015年第7期。
当前,大型金融机构已被监管机构批准使用内部模型来计量风险和监管资本;中小金融机构的积极性也很高,力求借鉴资本管理高级法,调整资产组合,提高资本使用效率,推进管理流程再造,由“干了再算”向“算了再干”转变。
验证模型是否有效的描述应包括:随机保留样本的描述,如选取记录集中的一部分(通常是2/3)作为训练集,保留剩余的部分用作测试集。选取随机保留样本的标准、比例、特征等方面的描述;Bootstrap验证,是非参数统计中的一种重要的统计方法,在执行上常需借助计算机技术得以实现。举例来说,当总体可用正态分布描述时,其sampling distribution服从正态分布或服从t分布;但当总体不服从正态分布或未知时,我们采用计算机模拟或用渐进分析的方法更加有效;交叉验证,基本思想是在某种意义下将原始数据进行分组,一部分作为训练集,另一部分作为验证集,首先用训练集进行测试,再利用验证集来测试得到的模型,以此作为评价模型的性能指标。常见方法有Hold-Out Method,K-fold Cross Validation,Leave-One-Out Cross Validation;外来样本的验证,通过外部获取的样本对已有的模型进行检验,判断模型的有效性。
模型变量的描述
数据时间窗定义
对此部分的描述应该包括:样本变量数据的有效频率;样本记录中有效记录的频率;某些变量或记录数据缺失的原因,这些缺失原因是否会对模型产生影响或偏差;在建模过程中,如何对数据源的各种数据缺失原因进行考虑。
每个模型独立变量的缺失值频率;模型独立变量的缺失值是否有具体的含义;缺失值出现的频率是否稳定;有缺失值的变量在模型中的重要性及表现的稳定性;每一个变量对缺失值的处理方法,包括采用中位数、平均数、最大或最小值、最好或最坏值替代,单变量处理,多变量处理,以变量减少、建模或评分、或拒绝原因算法为目标的处理等。 变量最大、最小值处理
变量转换
模型的选择
子模型分割方法
变量剔除 模型独立变量剔除或合并的考虑因素包括:变量缺失的频率;变量的波动性;变量组合;变量聚类,将集合分成由类似的对象组成的多个类;变量之间的相关性检验,如采用相关系数矩阵,Pearson 相关系数或者Spearman 相关系数方法;不同分割模型(子模型)变量的同质性检验,用卡方统计量验证不同子模型是否来自同一总体;变量选择的方式:如向前选择、向后选择、逐步选择等;变量的交叉验证。 模型优化的标准 对此部分的描述应该明确定义模型优化的标准,进而说明为何候选模型是最佳的选择。如果选择多个指标,应说明多个指标的选择标准,例如:KS值, 决策边际变现等。对于需要满足监管要求的模型,要将监管要求融入到选择模型优化的过程中。 模型参数的确定 对此部分的描述应该明确模型选择的方法,包括:如何确定模型的参数;如何从众多的候选模型中选择最终的模型;VIF(Variance Inflation Factor)检验,判断模型是否存在多重共线性问题。
建模程序的结构 对此部分的描述应该说明建模使用的程序的结构,包括:处理原始数据的所有的程序,从开始到结束;程序是否具有恰当的标注和结构说明,如数据处理部分,变量选择部分,候选模型比较部分等;程序是否被妥善统一存档,存档是否可以被访问,程序是否可以被其他人运行这些具体备注说明。 建模程序细节 对此部分的描述应该选择一段建模程序进行评估,评估内容包括:程序的标注是否充分,程序的结构是否容易理解;变量的名称、标识是否简单易懂;容易误解或复杂的部分是否有特殊标注;程序引用的模块是否有相应的文档;程序格式是否恰当使用缩进和空格;程序的作者是否标注;在程序的开发、运行和程序的重复使用之间是否保持恰当的平衡。 模型的表现 对此部分的描述应该评价模型对目标行为预测的能力,主要包括:建模样本的表现;非建模样本的表现:如果和建模样本表现不同,要解释表现不同的原因;对未来样本表现的预期;对所有未来可能影响模型表现的不确定性因素是如何考虑的。 模型是否拟合不足或拟合过度 任何模型都可能会有拟合不足或拟合过度的问题,对拟合度的评估可以在几个不同的层面展开,如使用可决系数对模型进行拟合优度检验,使用模拟数据或其他历史数据对模型进行再次验证,是否有以往的经验或数据来验证模型等。 残差分析 残差分析主要是:用残差证实模型的假定,如用残差图判断模型效果与样本数据的质量,检验模型是否满足基本假定,以便对模型作进一步的修改;用残差检测异常值和有影响的观测值,如果异常值是一个错误数据,如是由记录错误造成,应该修正数据,以便改善模型效果;如果是由于模型的假定不合理,使得标准化残差偏大,应该考虑修正模型;如果完全是由于随机因素造成的,则应该将该数据视为有效观测值,予以保留。同时应注意的问题有:残差是否是随机分布的;一个或几个记录的变化是否会对整个模型有较大的影响;不同的取样方法是否会产生不同的模型或不同的残差分布。 模型的最终审批 模型审批人员在最终批准模型之前,应对以下三个方面进行评估。 模型替换分析 任何模型都会有几个不同的版本,如原有模型,简单的业务逻辑替代的模型,和第三方公司的模型。模型审批人员应该就最终的模型版本和其他版本进行比较,进行优劣分析,包括:如果不用这个模型,业务模式会如何展开?对原来被否决,新模型会批准的样本进行分析并评估对业务的影响;待审批的模型和其他模型相比,有哪些优势?这些优势是如何获得的,它们是否符合基本的业务逻辑;模型在应用的目标客户群内的主要的独立变量的分布是否符合业务逻辑?和其他模型的版本相比,它们是否和上述的新版本的模型优势相吻合?应用测试技术对现有模型进行挑战,模型上线的版本策略如过度阶段和原模型或其他规则共用等。 监控策略 模型的监控策略应包括以下内容:监控的主要指标,频率;监控报告的审阅人员及存档流程;对于监控的指标来讲,稳定性指标和准确性指标通常只是最低标准;稳定性指标应该包括模型目标变量和独立变量的稳定性监控;模型指标的参考客群是如何定义的;模型的目标应用客群如果发生变化,如何能够识别目标客群的变化?如何对模型的表现进行有效的跟踪?监控程序是否经过调试和验证;如果数据导入出错,如何对错误信息进行识别和报警?如果模型运行失败,业务开展的备用方案是什么?识别模型失败的流程和重新启动模型运行的流程各是什么?在什么情况下,建模人员需要对模型进行重新评估或重新建模?明确定义这些情况下主要表现指标的临界值。 未来规划 模型的未来规划应描述模型如何进一步提高,具体包括:如何获得更客观全面的样本?客观全面的样本应该包括正常业务运营之外的样本,例如申请审批的样本应包括所有申请客户的表现而不仅仅是通过审批的客户的表现;对于审批模型的临界值附近的样本,业务是否需要加大样本收集的力度为未来的建模做准备;样本收集的经济成本和流程成本各有多大?投入是否值得?未来的业务规划的大方向是什么?模型的样本采集策略应如何配合业务发展的需要?是否有其他数据源或建模技术能够进一步提升模型的表现? 责任编辑:张文慧 |
【免责声明】本文仅代表作者本人观点,与本网站无关。本网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。
本网站凡是注明“来源:七禾网”的文章均为七禾网 www.7hcn.com版权所有,相关网站或媒体若要转载须经七禾网同意0571-88212938,并注明出处。若本网站相关内容涉及到其他媒体或公司的版权,请联系0571-88212938,我们将及时调整或删除。
七禾研究中心负责人:刘健伟/翁建平
电话:0571-88212938
Email:57124514@qq.com
七禾科技中心负责人:李贺/相升澳
电话:15068166275
Email:1573338006@qq.com
七禾产业中心负责人:果圆/王婷
电话:18258198313
七禾研究员:唐正璐/李烨
电话:0571-88212938
Email:7hcn@163.com
七禾财富管理中心
电话:13732204374(微信同号)
电话:18657157586(微信同号)
七禾网 | 沈良宏观 | 七禾调研 | 价值投资君 | 七禾网APP安卓&鸿蒙 | 七禾网APP苹果 | 七禾网投顾平台 | 傅海棠自媒体 | 沈良自媒体 |
© 七禾网 浙ICP备09012462号-1 浙公网安备 33010802010119号 增值电信业务经营许可证[浙B2-20110481] 广播电视节目制作经营许可证[浙字第05637号]