热点:

    R软件识别异常数据点方法

      [   原创  ]   作者:
    收藏文章 暂无评论

    通过R代码在图表中标识异常值,有助于提升数据分析效果,通常需根据实际需求选择合适的标注方式。

    1、 选取东方财富网2015年12月至2017年7月的月度新增信贷数据,该数据构成时间序列,通过代码进行输入或读取操作。

    2、 创建时间序列数据

    3、 通过绘制箱线图可发现两个异常值,经定位确认分别为第2个和第14个数据点。

    4、 代码:

    5、 通过箱线图定位异常数据点位置

    6、 绘制时间序列a的散点图,将箱线图中b位置的异常值在图上标出。

    7、 在散点图上标记异常数据点

    8、 可采用K-means聚类方法将数据划分为三类,计算每类数据点与聚类中心的距离,依据距离远近识别出各簇中的异常点,从而实现聚类后的异常检测。

    9、 代码如下所示

    10、 标记聚类中的异常点

    11、 将数据a运用K均值聚类算法划分为3个类别,结果保存在kmeans.result中。

    12、 K均值聚类结果中的各类中心点坐标

    13、 K均值聚类结果中各数据点所属的类别标签。

    14、 确定各点的中心位置并逐一列出

    15、 计算各点到中心点的距离

    16、 计算每个类别中离中心最远的两个点

    17、 绘制聚类后的散点图,不同类别用不同颜色区分,可见分类结果已将箱线图之外的异常点单独划为一类。

    18、 标出中心位置及偏离中心的异常点。

    19、 标注各类别中心位置

    20、 标记各类型距中心最远的两个点

    soft.zol.com.cn true https://soft.zol.com.cn/1198/11984333.html report 1063 通过R代码在图表中标识异常值,有助于提升数据分析效果,通常需根据实际需求选择合适的标注方式。 1、 选取东方财富网2015年12月至2017年7月的月度新增信贷数据,该数据构成时间序列,通过代码进行输入或读取操作。 2、 创建时间序列数据 3、 通过绘制箱线图可发现两个...
    不喜欢(0) 点个赞(0)
    随时随地资讯查报价 就上ZOL手机客户端,点击或扫描二维码下载
    立即下载

    万象2004 941异常数据版

    更新时间:2009年06月29日

    用户评分:0 | 0人点评

    软件类型:共享软件

    软件语言:简体中文

    万象2004 941异常数据版
    • 更新时间:2009年06月29日
    • 软件大小:0.9MB
    • 软件分类:财务管理
    • 语言种类:简体中文
    • 软件评级:0 人点评