【中关村在线软件资讯】12月5日消息:“大数据”是2013年IT领域最火的词汇,微软也在不遗余力地推广大数据应用。在今天召开的微软TechEd 2013的大会上,微软开发工具及平台事业部首席技术顾问林默进行了“微软大数据之预测分析”的讲座。他向开发者深度讲解了微软在大数据领域的动向,并对大数据在预测领域的应用进行了解析。
微软开发工具及平台事业部首席技术顾问林默
林默介绍道,美国工程师David Rothschild通过大数据对2013年奥斯卡奖进行了预测,在24项中预测正确了19项,其余5项也非常接近。林默认为,通过大数据模型的建立,很多普通人就可以对事件和事物进行客观、科学的预测,大数据时代让“预测分析”不再是行业专家的独有技能。
那什么叫预测性分析?其实就是用统计、数据挖掘和机器学习等数学技巧来做数据分析,用户来发现具有竞争优势的隐藏模式。在实际应用方面,大数据预测分析主要用于客户变动分析,欺诈检测,社交网络分析,客户信用评级,流行病爆发预测,天气预测,定向广告,生命科学研究等领域。
预测分析的工作流程一般为:1、定义商业问题;2、手机和准备数据;3、迅雷和测试模型;4、部署模型;5、检测模型的效果。林默以银行制作信用记分卡的流程来举例:
首先,银行要积极获取新客户,但要限制违约风险,所以要是制作一个违约概率预测模型;
第二,要确定和获取数据,包括银行的信用数据、信用中心的付款历史数据(水、电话费)以及第三方的人口统计数据。
第三,要清晰、塑造、预处理数据,处理异常丢失的数据、准备连续和分类变量,识别和解决高度相关的变量。
第四,开发并选择模型,选择微软和第三方解决方案或者编写自己的算法;
第五,训练自己的模型,并用较小的数据集来测试;
第六,检测记分卡。不断检测新客户的积分卡的效果,一旦开始表现不佳就要再次训练自己的工具。
微软在预测性分析的工具包括:SQL Server数据挖掘和Excel数据挖掘Add-in。SQL Server用于数据丰富的诊断,包含多种算法如聚类分析、时间系列、神经网络等。而Eccel Add-in用于数据量较小的情形。
怎样解决实际上的问题呢?对于商业用户来说,有两点:一是识别最有可能购买产品的客户,二是买了A产品的客户最有可能还选择哪些产品。
相关数据显示,在2014年,有30%的分析应用将使用预测功能。为什么预测分析会重新兴起?因为大数据时代提供了更精确的预测模型,更强更便宜的计算能力,更多的关注和客户需求,以及更新的技术。
与往年相比,TechEd2013更加关注开发,为开发者介绍了当今最热门的解决方案、技术、产品和服务。162名国内外技术专家登台演讲,140余场讲座、50余场动手实验室,以及数千位微软专业技术人员、合作伙伴、行业权威、专业人士共同打造国内顶级技术分享盛宴。感兴趣的网友请及时关注ZOL的TechEd2013的专题页面。