登录 注册

访厦大经济学院方匡南教授:数据分析与R语言的入门技巧

2016年08月22日16:28     智库商学院     阅读量:

  目前,数据分析已经在各行各业得到深层次的应用,巴西奥运会上时隔12年中国女排重夺奥运会金牌,在随后的女排幕后英雄中就出现了“数据分析”的字样。而在数据分析和数据挖掘中,经常碰到的问题就是零基础如何学好数据分析,以及学习R语言入门的技巧?厦门大学经济学院统计系方匡南教授做客访谈,希望能为大家指点迷津。

  目前,数据分析已经在各行各业得到深层次的应用,在8月21日的巴西奥运会上时隔12年中国女排重夺奥运会金牌,在女排幕后英雄中出现了“数据分析”的字样。可以说,数据分析已经在体育赛事等项目中得到重视,而在美国的NBA比赛也通过数据分析对各球员素质和战术运用进行分析。

  回到正题。在数据分析和数据挖掘中,经常碰到的问题就是零基础如何学好数据分析,以及学习R语言入门的技巧?方匡南教授认为,要学好统计分析和数据挖掘的基础有两个,一个是学好数学、统计基础,另一个是学好计算机编程。所以现在,你学习数据分析和数据挖掘的问题是在于统计的基础知识问题。如果你学习数据分析的目的不是做学术研究,而是做应用的话,建议你找一本偏向于介绍数据分析应用的参考书,尤其是有较多案例的参考书,又较详细讲解数据分析的原理,这样学习效率较高,实用性较强!

R语言的应用前景

  R是由新西兰奥克兰大学的RossIhaka与RobertGentleman一起开发的一个面向对象的编程语言,因两人的名都是以R开头,所以命名为“R”。R是“GNUS”,一个免费开源、能够自由有效地用于统计计算和绘图的语言和环境,可以在UNIX、Windows和MacOS系统运行,它提供了广泛的统计分析和绘图技术,包括回归分析、时间序列、分类、聚类等方法。R的前身是S语言,S语言是贝尔实验室(BellLaboratories)的RickBecker、JohnChambers和AllanWilks开发的,提供了一系列统计和图形显示工具,这个语言过去一度是数据分析领域里面的标准语言。

  R是一套完整的数据处理、计算和制图软件系统,它是一套开源的数据分析解决方案,由一个庞大而活跃的全球性社区维护。其功能包括:数据存储和处理系统;数组运算工具(其向量、矩阵运算方面功能尤其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语言:可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。与其说R是一种统计软件,还不如说R是一种统计分析与计算的环境,因为R不仅提供若干统计程序,而且使用者只需指定数据库和若干参数便可进行统计分析。R的思想是:它可以提供一些集成的统计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而使使用者(用户)能灵活地进行数据分析,甚至创造出符合需要的新的统计计算方法。

  2009年,《纽约时报》发表了题为“DataAnalystsCaptivatedbyR’sPower”的社评,集中讨论了R语言在数据分析领域的发展,并引发了SAS和R用户广泛而激烈的争论。文章认为让R变得如此有用和如此快地广受欢迎是因为统计学家、工程师、科学家们在不断精炼代码或编写各种特有、具体的包。

  KDnuggets网站每年都会做一些数据分析和数据挖掘软件使用的专题问卷调查。据KDnuggets网站2011年对570个数据挖掘和数据分析的工作者关于过去12个月数据挖掘和数据分析所使用的编程语言的调查显示,R语言名列榜首(如图1-所示),占接近半壁江山(45%),而紧随其后的SQL、Python、Java则在某一领域具有各自独到的优势,而SAS和MATLAB分别名列第5和6,被R远远甩在后面。

  总之一句话,R的前景非常美好!

R语言在论文数据处理上,和eviews、stata等相比,优势在哪里?

  R是由新西兰奥克兰大学的RossIhaka与RobertGentleman一起开发的一个面向对象的编程语言,因两人的名都是以R开头,所以命名为“R”。R是“GNUS”,一个免费开源、能够自由有效地用于统计计算和绘图的语言和环境,可以在UNIX、Windows和MacOS系统运行,它提供了广泛的统计分析和绘图技术,包括回归分析、时间序列、分类、聚类等方法。R的前身是S语言,S语言是贝尔实验室(BellLaboratories)的RickBecker、JohnChambers和AllanWilks开发的,提供了一系列统计和图形显示工具,这个语言过去一度是数据分析领域里面的标准语言。但是正在逐步被R语言取代。

  相对于eviews,stata的优势有:

  (1)R是免费的,不存在版权的问题。现在还有许多人使用SPSS、SAS、MatLab,但大都用的都是盗版软件。从法律上来讲这是非法的,但是非法的东西在中国很流行,很多教授也用这些非法软件,甚至还大面积安装。不过,这种行为并不可取,而免费就成为了R流行开来的最大的一个因素。

  (2)80%的统计学者和数据分析师都在用R,并且这些学者和数据分析师开发了很多R的packages,目前大概有7000多个packages,涉及到统计的各个方面,所以资源很丰富,几乎目前最新的一些统计方法,在eviews,stata等上面还没法用的时候,在R上几乎都可以实现。

  (3)R是开源的,你可以看到各个package的R源程序,可以在这些程序的基础上去修改实现自己提出的一些统计方法,就像Google首席经济学家HalVarian所说:“R最优美的地方是它能够修改很多前人编写的包的代码做各种你所需的事情,实际你是站在巨人的肩膀上。”

  (4)完整的数组和矩阵操作运算符以及完整的数据分析工具;

  (5)出色的图形统计功能。除了基本统计直方图、折线图等,还可以绘制一些高级的图形,而这些是SPSS这类软件所不能匹敌的。R的图形统计工具一般有四个等次,最基本的plot,高级一点的grid,然后到Lattice,最后到ggplot2。ggplot2是一个更具有创新性的图形展示工具,它有自己的语法,相当于一门新的绘图语言。除此之外,ggobi这类的动态绘图也是具有很好的交互性的绘图软件。

  (6)简单高效的建模工具。只需用lm就可以建立线性模型,广义线性模型可以用glm,广义可加模型也有gam就函数。

  (7)提供很多高级功能。除了统计之外,你还可以使用R来给电脑关机,发微博,发校内状态,下五子棋以及配合LaTeX撰写动态统计报告以及自动生成概率统计的试卷和答案。

  (8)兼容几乎全平台。除了支持OSX、Linux、Windows之外,甚至可以在iOS设备上编辑和运行R的程序,还可以在iphone等移动设备上安装R程序。

  (9)逐渐支持多国语言。作为一个开源软件,R在其主页上也有提供大家添加数据自己国家语言的文件。其中,中文的翻译也在上面得到了国内众多的R爱好者的支持。

  (10)更新速度快。R几乎囊括了所有统计方法,当其他软件还不能完成一些最新的统计方法,在R中几乎都可以完成。R的更新速度是以周来计算的。

  关于回归,聚类,因子分析等方法都是比较经典的方法在R里面都有现成的函数去实现,这个很简单,不需要很多编程技巧的,只要调用函数就可以了。比如做回归,只要用lm()就可以了,很简单的,再比如K-mean聚类分析只要用K-means函数就可以了,此外还有一个专门做聚类的packagecluster。

互动问答精华整理

  以下是方匡南教授和经管之家坛友的互动文字整理。

  问:方老师,你好,请教单位根检验的问题,这个问题我在其他的老师访谈中提过,但是回复不是太令人满意,想听下你的看法:

  李子奈《计量经济学》中是这样讲的:用ADF逐次检验(1)含截距和趋势项(2)含截距不含趋势(3)不含截距和趋势项。

  什么时候平稳就停止检验,三者都不平稳就认为不平稳。但是有的书上说先看时间序列的折线图,根据折线图的形状选择对应的方程形式。

  那么,规范的单位根检验过程是怎样的?'

  方匡南教授:您好!

  单位根检验的方法很多,除了ADF之外,还有PP等检验方法。在实证中用的相对比较多的是ADF检验。有些书上先看图,也是有道理的,如果一个时间序列有一个很明显的趋势,那肯定是不平稳的。但是如果有些图看不大出来明显的趋势,再用ADF检验方法,相对严谨地去检验一下,检验的过程,我个人认为李子奈老师讲的挺好的!

  问:方老师,您好!看到您主持或者参与的课题信息,感觉方老师是做数据挖掘或者统计方法研究。大数据(4V特征)在国内这几年在学术界很火热,但总感觉没有一些具体的进展,大多停留在描述的阶段,定量的处理很少,或者我暂时没有找到。好像一般处理这类大数据的工具需要用到python,我想请问一下,R如何在大数据上应用?然后也请老师推荐几本应用型的教材,非常感谢!

  方匡南教授:您好,大数据这几年在国内外确实都很火的,不管在学术界还是业界大家都在讨论大数据,这样的一个直接好处其实是引起大家对数据和数据分析的重视。大数据也有挺多做的很深入,不仅仅停留在描述阶段,比如关于机票价格预测,商品价格预测以及最近比较流行的深度学习。关于工具的话,R是一个挺好的工具,绝大多数统计学家都在用R,当然python最近几年在大数据,尤其是在文本挖掘方面也应用得也多起来了。R语言的话现在出了挺多的书,网站上能搜到挺多的,我自己也出了一本《R数据分析-方法与案例详解》!

  问:方老师好,请问现在计量经济学的发展前沿方法是哪些?

  方匡南教授:您好,关于计量经济学的发展前沿方法,我向您推荐康奈尔大学经济学教授,厦门大学经济学院和王亚南经济研究院院长洪永淼教授等,他们写的综述《计量经济学与实验经济学的若干新近发展及展望》,这个是比较权威的回答!相信你能从中找到你想要的。

  问:想请教一下方老师,面板数据VECM模型能否用R来做?其结果应该怎么看?谢谢!

  方匡南教授:您好,建议你去看看R里的urca包,里面有个函数cajorls()可以估计VECM模型!这个函数该怎么使用,你载入R包后,用help()一下,就可以看帮助文档里的解释!

  问:方老师,您的博士生必须要熟练R语言吗,您对博士生的要求有哪些呢?

  方匡南教授:您好!我的博士生目前都使用R。我没有规定博士生一定要用什么软件,如果matlab用的很溜也行,但是如果让我推荐的话,我还是推荐他们使用R。

  我对博士生没啥特别的要求,首先是他自己对做学术是有兴趣的,能静得下心来去研究一些问题。其次,要有一定的数学基础,做统计方法,没有一定的数学基础会比较吃力。再则,编程要硬,有想法,但实现不了也不行。厦门大学统计学的师资实力越来越强了,学术的氛围也越来越好,最近招了很多海归同事回来,所以欢迎大家报考厦门大学统计系的博士!

  • 来源|经管之家论坛


今年考研474万人,学历内卷不断加剧!

如果你还在纠结考与不考?考什么?

 17年考辅名师倾情指导,带你入门MBA联考备考

点击立即报名 https://ke.mbalib.com/pc/column/939?cid=1%3Ffrom_source%3Dsxylb

详细课程咨询添加微信:mba2088