zoukankan      html  css  js  c++  java
  • 3.6评分卡极端值的识别以及处理

    1.极端值的识别

    极端值的来源无非是数据差错和数据差异。

    大多数情况下,极端值被删除或者被重置。但是,当极端值的观测量很大时,需要考虑分群(segments),ie.针对每个群开发独立的评分卡。

    识别方法如下:

    • 设定正常的取值范围
    • 考虑数据的多元属性,建立拟合模型,偏离模型值为极端值
    • 聚类算法
    • 依靠决策树发现包含少量观测值的持续节点。这取决于一个好的交互式决策树软件和对数据进行可视化探索的可能。

    2.用SAS实现对极端值的识别

    • 计算出均值和标准差之后,调用宏%extremes

    /* identifying outliers using the mean and three standard deviations */

    %extremes(dsin,varx,idvar,nsigma,dsout);

    /* 输入数据集,被分析变量,ID变量,标准差倍数,输出数据集 */

    • K-均值聚类识别 (考虑了数据的多元特征)

    /* 宏%clustol用proc fastclus创建总计为nclust的簇,参数pmin被设定一个簇中的观测值相对于数据集总体的百分比。大多数风险评分实践中,被设定为0.05~0.10 */

    %ClustOL (&dsin,&varlist,&NClust,&Pmin,&DSout);

    /*  输入数据集,变量列表,簇的数量,簇的最大规模,输出数据集 */

    • 多级别识别

     ie.首先单变量分析识别极端值,然后聚类在多元特征上识别极端值 

    3.极端值的处理 

    • 考虑分群处理 (极端值数量很多)
    • 删除
    • 用一些单变量统计量替代(缺点:有偏)
    • 多重归因? (proc MI)
  • 相关阅读:
    利用PHP SOAP实现WEB SERVICE
    PHP 简单的加密解密算法
    Java 简单的加密解密算法
    去掉php框架CI默认url中的index.php
    PHP 日期计算函数【差异天数】
    PHP生成迅雷、快车、旋风等软件的下载链接代码实例
    转:苹果iphone APP界面设计尺寸官方版
    iOS开发——密码存储之keychain的使用
    Simple iPhone Keychain Access
    View的简单说明
  • 原文地址:https://www.cnblogs.com/jane-lau/p/8458924.html
Copyright © 2011-2022 走看看