MENU

Stata Learning

September 21, 2023 • 学习笔记阅读设置

0. 序言

记个笔记吧,方便之后复习。

本人真的很文盲,如果错了请指正TAT

所有内容都是基于 Stata 17 MacOS 的,Windows和其他版本应该也差不多,不过快捷键可能不一样。

右边有目录树,方便快进到你想看的地方。

1. 软件安装

Stata 16 - 18的安装包都给了,课程要求是17,不过lab里面装的是18。Whatever, 已经装了17了,能用就行,都大差不差。

整体过程也很方便,下载,安装,输入激活码,就好了。

for Mac

点击下载 Stata 17 MacOS.dmg

for Windows

点击下载 Stata 17 Win.exe

for Linux

点击下载 Stata 17 Linux

2. 数据使用、存储以及编辑

命令框

如图所示,就在软件的最下面,直接敲进去就可以了,很多基础的命令也都一样,比如cdls等等。

Pic1

工作目录

直接用cd命令就可以进入工作目录了。

cd "/你的文件夹路径"
cd "/Users/bleshi/Desktop/Core quantitative data analysis"//例子

使用pwd可以查看到目前的工作目录是哪个文件夹。

使用ls可以查看到文件夹内有哪些文件。

数据导入与转换

Stata的数据是用.dta格式的文件的,直接双击即可打开,也可以使用下面的命令:

use "文件名.dta", clear//clear指的是清除之前已经打开的数据,这样就可以打开一个新的数据啦

如果需要用StataSPSS的数据打开,也是可以滴,需要import命令。

import spss "文件名.sav"//本科学的老古董就可以导入进去了

查看与编辑数据

这两句命令都可以查看原始数据,不过不能修改

br
browse

键入这句就可以修改了。

edit

数据保存与导出

直接右上角点下保存就好。

Pic2

用命令的话就是save,但是记得再敲一个replace进去。

save "文件名.dta", replace//replace的作用是替换掉之前的数据,不然同一路经相同文件名的情况下,它不会覆盖,只会报错

个么有导入就肯定有导出咯,导出的话就是export命令,和导入的语法一样。其实直接File然后ImportExport也挺方便。

Pic3

Do File & Log File

Do file是保存命令的文件,格式是.do,可以用doedit命令来编辑,写完再加上注释就可以交作业了。

Log file的话就是用来存储那些命令反馈的结果的。

3.变量属性与描述

一些简单的命令可以用来查看变量的统计值和分布:describecodebooksummarizetabulatelist

describe

直接输入describe命令,就会给出所有变量具体的信息,包括变量名称标签储存类型格式以及值标签的名称

describe

Pic4

codebook

codebook命令可以查看变量名变量标签数据,从而生成描述数据集的编码本。人话:用来看问卷里ABCD分别代表什么东西。可以结合compact一起用,把变量的描述报告更为紧凑

codebook [varlist], compact

区别如图所示:

Pic5

summarize

summarize会将所有变量的基本信息展示出来,包括个数平均数方差最小值最大值。可以搭配detail一起使用获得更多信息,如百分位数偏度峰度等。

summarize [varlist], detail

Pic6

如果有很多变量,也可以加个sep命令让他好看一点。括号里面填多少,就是让它每多少个变量画一根线。

summarize [varlist1] [varlist2] [varlist3], sep(0)

Pic7

tabulate

tabulate可以缩写成tab,这个命令主要是用来检查频数的分布情况。

tabulate [varlist]

Pic8

list & sort

list可以用来查看某些具体的观测单位。

list [varlist] in a/b//显示第a到b个观测值

sort的话是用来正序排序数据。

sort [varlist]

Pic9

gsort的话默认是正序排序数据。但是可以在变量前面加个负号,就可以倒序了。

gsort [varlist]
gsort -[varlist]

Pic10

4.制图

标题

命令:

histogram [varlist], title("text") subtitle("text") caption("text") note("text")

窗口:

对话框Titles标签下,分别在Title, Subtitle, Caption, Note输入框内输入需要展示的文字。

字号

命令:

size(1-pt)//直接加在需要调整字号的命令括号里
title("文本", size(16-pt))//例子

窗口:

也可以在输入框旁边的Properties选项内设置Size

颜色

命令:

算了吧,就这么几根柱子,按一按直接看出来啥颜色马上还能修改。

窗口:

生成图表后,在图表上单击鼠标右键,选择Start Graph Editor,双击想要修改颜色的地方,如背景或者柱子等。弹出对话框内的Color或者Outline color下拉菜单栏内选择喜欢的颜色。

Histogram

命令:

histogram [varlist]
histogram [varlist], bin(1)
histogram [varlist], bin(1)frequency
histogram A, bin(3)frequency//画出变量A指定区间数为3的直方图,单位是频数

窗口:

顶栏GraphicsHistogram→对话框Main标签下Variable:下拉菜单栏内选择需要制图的变量。
对话框Bins标签下选择Number of bins的数字。
对话框Y axis标签下选择Frequency

Bar graphs

命令:

graph bar (mean) [varlist1] (median) [varlist2] (sd) [varlist3], over([varlist0])
graph bar (mean) [varlist1] (median) [varlist2] (sd) [varlist3], over([varlist0]) exclude0//纵坐标不从0开始

窗口:

顶栏GraphicsBar chart→对话框Categories标签下Group1下拉菜单栏内选择需要分析的变量组。比如性别,学历等。→对话框Main标签下Statistics to plot区域内Variables下拉菜单栏内选择需要分析的变量。比如成绩,满意度等。→Statistic下拉菜单栏内选择需要展示数据的Mean, Median, Standard deviation等等。

如果想要纵坐标不从0开始,则在对话框Options标签下,选择Do not force y axis to include zero

Scatterplots

命令:

twoway (scatter [varlist1] [varlist2])
twoway (scatter [varlist1] [varlist2] if [varlist3] == 1) (scatter [varlist1] [varlist2] if [varlist3] == 2)//给变量加上if条件,可以实现区分不同类型。比如用不同颜色区分男女。
twoway (scatter [varlist1] [varlist2] if [varlist3]) (lfit [varlist1] [varlist2])//图上多加一根线

窗口:

顶栏GraphicsTwoway graphs→对话框PlotsCreate→下方Y variableX variable分别选择Y轴X轴需要展示的变量。
对话框PlotsPlot1Editif/in输入框内输入判断的条件以区别展示不同类别的数据。
重复Create的步骤,下方选择不同的图表的类型,如Fit plots就可以实现图上加图。

Box plot

命令:

graph box [varlist1] //好简单,好喜欢
graph box [varlist1], over([varlist2]) over([varlist3])//分成多组来制图

窗口:

顶栏GraphicsBox plot下拉菜单栏内选择需要分析的变量。
对话框Categories标签下Group1下拉菜单栏内选择需要分析的变量组,可以选多组。

Line Charts

命令:

twoway line [varlist1] [varlist2]

窗口:

顶栏GraphicsTwoway graphs→对话框PlotsCreateChoose a plot category and type中选择Basic plotsLine→下方Y variableX variable分别选择Y轴X轴需要展示的变量。
也可以参考Scatterplots部分,通过if/in来设置不同的类别,做出区别差异

Last Modified: October 23, 2023