0. 序言
记个笔记吧,方便之后复习。
本人真的很文盲,如果错了请指正TAT
1. 软件安装
Stata 16 - 18
的安装包都给了,课程要求是17
,不过lab里面装的是18
。Whatever, 已经装了17
了,能用就行,都大差不差。
整体过程也很方便,下载,安装,输入激活码,就好了。
for Mac
点击下载 Stata 17 MacOS.dmg
for Windows
点击下载 Stata 17 Win.exe
for Linux
点击下载 Stata 17 Linux
2. 数据使用、存储以及编辑
命令框
如图所示,就在软件的最下面,直接敲进去就可以了,很多基础的命令也都一样,比如cd
和ls
等等。
工作目录
直接用cd
命令就可以进入工作目录了。
cd "/你的文件夹路径"
cd "/Users/bleshi/Desktop/Core quantitative data analysis"//例子
使用pwd
可以查看到目前的工作目录是哪个文件夹。
使用ls
可以查看到文件夹内有哪些文件。
数据导入与转换
Stata
的数据是用.dta
格式的文件的,直接双击即可打开,也可以使用下面的命令:use "文件名.dta", clear//clear指的是清除之前已经打开的数据,这样就可以打开一个新的数据啦
如果需要用Stata
把SPSS
的数据打开,也是可以滴,需要import
命令。
import spss "文件名.sav"//本科学的老古董就可以导入进去了
查看与编辑数据
这两句命令都可以查看原始数据,不过不能修改。
br
browse
键入这句就可以修改了。
edit
数据保存与导出
直接右上角点下保存
就好。
用命令的话就是save
,但是记得再敲一个replace
进去。
save "文件名.dta", replace//replace的作用是替换掉之前的数据,不然同一路经相同文件名的情况下,它不会覆盖,只会报错
个么有导入就肯定有导出咯,导出的话就是export
命令,和导入的语法一样。其实直接File
然后Import
和Export
也挺方便。
Do File & Log File
Do file
是保存命令的文件,格式是.do
,可以用doedit
命令来编辑,写完再加上注释就可以交作业了。Log file
的话就是用来存储那些命令反馈的结果的。
3.变量属性与描述
一些简单的命令可以用来查看变量的统计值和分布:describe
,codebook
,summarize
,tabulate
,list
describe
直接输入describe
命令,就会给出所有变量具体的信息,包括变量名称,标签,储存类型,格式,以及值标签的名称。
describe
codebook
codebook
命令可以查看变量名,变量标签和数据,从而生成描述数据集的编码本。人话:用来看问卷里ABCD分别代表什么东西。可以结合compact
一起用,把变量的描述报告更为紧凑。codebook [varlist], compact
区别如图所示:
summarize
summarize
会将所有变量的基本信息展示出来,包括个数、平均数、方差、最小值、最大值。可以搭配detail
一起使用获得更多信息,如百分位数、偏度、峰度等。summarize [varlist], detail
如果有很多变量,也可以加个sep
命令让他好看一点。括号里面填多少,就是让它每多少个变量画一根线。
summarize [varlist1] [varlist2] [varlist3], sep(0)
tabulate
tabulate
可以缩写成tab
,这个命令主要是用来检查频数的分布情况。tabulate [varlist]
list & sort
list
可以用来查看某些具体的观测单位。list [varlist] in a/b//显示第a到b个观测值
sort
的话是用来正序排序数据。
sort [varlist]
gsort
的话默认是正序排序数据。但是可以在变量前面加个负号,就可以倒序了。
gsort [varlist]
gsort -[varlist]
4.制图
标题
命令:
histogram [varlist], title("text") subtitle("text") caption("text") note("text")
窗口:
对话框Titles
标签下,分别在Title
, Subtitle
, Caption
, Note
输入框内输入需要展示的文字。
字号
命令:
size(1-pt)//直接加在需要调整字号的命令括号里
title("文本", size(16-pt))//例子
窗口:
也可以在输入框旁边的Properties
选项内设置Size
。
颜色
命令:
算了吧,就这么几根柱子,按一按直接看出来啥颜色马上还能修改。
窗口:
生成图表
后,在图表
上单击鼠标右键,选择Start Graph Editor
,双击想要修改颜色的地方,如背景或者柱子等。弹出对话框内的Color
或者Outline color
下拉菜单栏内选择喜欢的颜色。
Histogram
命令:
histogram [varlist]
histogram [varlist], bin(1)
histogram [varlist], bin(1)frequency
histogram A, bin(3)frequency//画出变量A指定区间数为3的直方图,单位是频数
窗口:
顶栏Graphics
→Histogram
→对话框Main
标签下Variable:
下拉菜单栏内选择需要制图的变量。
对话框Bins
标签下选择Number of bins
的数字。
对话框Y axis
标签下选择Frequency
。
Bar graphs
命令:
graph bar (mean) [varlist1] (median) [varlist2] (sd) [varlist3], over([varlist0])
graph bar (mean) [varlist1] (median) [varlist2] (sd) [varlist3], over([varlist0]) exclude0//纵坐标不从0开始
窗口:
顶栏Graphics
→Bar chart
→对话框Categories
标签下Group1
下拉菜单栏内选择需要分析的变量组。比如性别,学历等。→对话框Main
标签下Statistics to plot
区域内Variables
下拉菜单栏内选择需要分析的变量。比如成绩,满意度等。→Statistic
下拉菜单栏内选择需要展示数据的Mean
, Median
, Standard deviation
等等。
如果想要纵坐标不从0开始,则在对话框Options
标签下,选择Do not force y axis to include zero
。
Scatterplots
命令:
twoway (scatter [varlist1] [varlist2])
twoway (scatter [varlist1] [varlist2] if [varlist3] == 1) (scatter [varlist1] [varlist2] if [varlist3] == 2)//给变量加上if条件,可以实现区分不同类型。比如用不同颜色区分男女。
twoway (scatter [varlist1] [varlist2] if [varlist3]) (lfit [varlist1] [varlist2])//图上多加一根线
窗口:
顶栏Graphics
→Twoway graphs
→对话框Plots
→Create
→下方Y variable
和X variable
分别选择Y轴
和X轴
需要展示的变量。
对话框Plots
→Plot1
→Edit
→if/in
输入框内输入判断的条件以区别展示不同类别的数据。
重复Create
的步骤,下方选择不同的图表的类型,如Fit plots
就可以实现图上加图。
Box plot
命令:
graph box [varlist1] //好简单,好喜欢
graph box [varlist1], over([varlist2]) over([varlist3])//分成多组来制图
窗口:
顶栏Graphics
→Box plot
下拉菜单栏内选择需要分析的变量。
对话框Categories
标签下Group1
下拉菜单栏内选择需要分析的变量组,可以选多组。
Line Charts
命令:
twoway line [varlist1] [varlist2]
窗口:
顶栏Graphics
→Twoway graphs
→对话框Plots
→Create
→Choose a plot category and type
中选择Basic plots
和Line
→下方Y variable
和X variable
分别选择Y轴
和X轴
需要展示的变量。
也可以参考Scatterplots
部分,通过if/in
来设置不同的类别,做出区别差异
请勿转载,谢谢🙏