0. 序言
记个笔记吧,方便之后复习。
本人真的很文盲,如果错了请指正TAT
1. 数据使用、存储以及编辑
命令框
如图所示,就在软件的最下面,直接敲进去就可以了,很多基础的命令也都一样,比如cd
和ls
等等。
工作目录
直接用cd
命令就可以进入工作目录了。
cd "/你的文件夹路径"
cd "/Users/bleshi/Desktop/Core quantitative data analysis"//例子
使用pwd
可以查看到目前的工作目录是哪个文件夹。
使用ls
可以查看到文件夹内有哪些文件。
数据导入与转换
Stata
的数据是用.dta
格式的文件的,直接双击即可打开,也可以使用下面的命令:use "文件名.dta", clear//clear指的是清除之前已经打开的数据,这样就可以打开一个新的数据啦
如果需要用Stata
把SPSS
的数据打开,也是可以滴,需要import
命令。
import spss "文件名.sav"//本科学的老古董就可以导入进去了
查看与编辑数据
这两句命令都可以查看原始数据,不过不能修改。
br
browse
键入这句就可以修改了。
edit
数据保存与导出
直接右上角点下保存
就好。
用命令的话就是save
,但是记得再敲一个replace
进去。
save "文件名.dta", replace//replace的作用是替换掉之前的数据,不然同一路经相同文件名的情况下,它不会覆盖,只会报错
个么有导入就肯定有导出咯,导出的话就是export
命令,和导入的语法一样。其实直接File
然后Import
和Export
也挺方便。
Do File & Log File
Do file
是保存命令的文件,格式是.do
,可以用doedit
命令来编辑,写完再加上注释就可以交作业了。Log file
的话就是用来存储那些命令反馈的结果的。
2.变量属性与描述
一些简单的命令可以用来查看变量的统计值和分布:describe
,codebook
,summarize
,tabulate
,list
describe
直接输入describe
命令,就会给出所有变量具体的信息,包括变量名称,标签,储存类型,格式,以及值标签的名称。
describe
codebook
codebook
命令可以查看变量名,变量标签和数据,从而生成描述数据集的编码本。人话:用来看问卷里ABCD分别代表什么东西。可以结合compact
一起用,把变量的描述报告更为紧凑。codebook [varlist], compact
区别如图所示:
summarize
summarize
会将所有变量的基本信息展示出来,包括个数、平均数、方差、最小值、最大值。可以搭配detail
一起使用获得更多信息,如百分位数、偏度、峰度等。summarize [varlist], detail
如果有很多变量,也可以加个sep
命令让他好看一点。括号里面填多少,就是让它每多少个变量画一根线。
summarize [varlist1] [varlist2] [varlist3], sep(0)
tabulate
tabulate
可以缩写成tab
,这个命令主要是用来检查频数的分布情况。tabulate [varlist]
list & sort
list
可以用来查看某些具体的观测单位。list [varlist] in a/b//显示第a到b个观测值
sort
的话是用来正序排序数据。
sort [varlist]
gsort
的话默认是正序排序数据。但是可以在变量前面加个负号,就可以倒序了。
gsort [varlist]
gsort -[varlist]
3.制图
标题
命令:
histogram [varlist], title("text") subtitle("text") caption("text") note("text")
窗口:
对话框Titles
标签下,分别在Title
, Subtitle
, Caption
, Note
输入框内输入需要展示的文字。
字号
命令:
size(1-pt)//直接加在需要调整字号的命令括号里
title("文本", size(16-pt))//例子
窗口:
也可以在输入框旁边的Properties
选项内设置Size
。
颜色
命令:
算了吧,就这么几根柱子,按一按直接看出来啥颜色马上还能修改。
窗口:
生成图表
后,在图表
上单击鼠标右键,选择Start Graph Editor
,双击想要修改颜色的地方,如背景或者柱子等。弹出对话框内的Color
或者Outline color
下拉菜单栏内选择喜欢的颜色。
Histogram
命令:
histogram [varlist]
histogram [varlist], bin(1)
histogram [varlist], bin(1)frequency
histogram A, bin(3)frequency//画出变量A指定区间数为3的直方图,单位是频数
窗口:
顶栏Graphics
→Histogram
→对话框Main
标签下Variable:
下拉菜单栏内选择需要制图的变量。
对话框Bins
标签下选择Number of bins
的数字。
对话框Y axis
标签下选择Frequency
。
Bar graphs
命令:
graph bar (mean) [varlist1] (median) [varlist2] (sd) [varlist3], over([varlist0])
graph bar (mean) [varlist1] (median) [varlist2] (sd) [varlist3], over([varlist0]) exclude0//纵坐标不从0开始
窗口:
顶栏Graphics
→Bar chart
→对话框Categories
标签下Group1
下拉菜单栏内选择需要分析的变量组。比如性别,学历等。→对话框Main
标签下Statistics to plot
区域内Variables
下拉菜单栏内选择需要分析的变量。比如成绩,满意度等。→Statistic
下拉菜单栏内选择需要展示数据的Mean
, Median
, Standard deviation
等等。
如果想要纵坐标不从0开始,则在对话框Options
标签下,选择Do not force y axis to include zero
。
Scatterplots
命令:
twoway (scatter [varlist1] [varlist2])
twoway (scatter [varlist1] [varlist2] if [varlist3] == 1) (scatter [varlist1] [varlist2] if [varlist3] == 2)//给变量加上if条件,可以实现区分不同类型。比如用不同颜色区分男女。
twoway (scatter [varlist1] [varlist2] if [varlist3]) (lfit [varlist1] [varlist2])//图上多加一根线
窗口:
顶栏Graphics
→Twoway graphs
→对话框Plots
→Create
→下方Y variable
和X variable
分别选择Y轴
和X轴
需要展示的变量。
对话框Plots
→Plot1
→Edit
→if/in
输入框内输入判断的条件以区别展示不同类别的数据。
重复Create
的步骤,下方选择不同的图表的类型,如Fit plots
就可以实现图上加图。
Box plot
命令:
graph box [varlist1] //好简单,好喜欢
graph box [varlist1], over([varlist2]) over([varlist3])//分成多组来制图
窗口:
顶栏Graphics
→Box plot
下拉菜单栏内选择需要分析的变量。
对话框Categories
标签下Group1
下拉菜单栏内选择需要分析的变量组,可以选多组。
Line Charts
命令:
twoway line [varlist1] [varlist2]
窗口:
顶栏Graphics
→Twoway graphs
→对话框Plots
→Create
→Choose a plot category and type
中选择Basic plots
和Line
→下方Y variable
和X variable
分别选择Y轴
和X轴
需要展示的变量。
也可以参考Scatterplots
部分,通过if/in
来设置不同的类别,做出区别差异
4.大人,时代变了
现在ChatGPT
是真的方便啊,问下全有了!
请勿转载,谢谢🙏