Pour trouver une commande lorsqu'on ne connaît pas son nom, il suffit de taper la commande search suivie d'un ou plusieurs mots clés. Supposons que l'on souhaite trouver une commande permettant de calculer des statistiques descriptives de base d'une variable :
search univariate summary statistics
Stata retourne la liste de fichiers d'aide des commandes correspondantes ainsi que des liens hypertextes pointant sur le site web de Stata. Dans l'exemple ci-dessus il retourne deux commandes dont summarize qui correspond à ce qu'on souhaite.
Pour trouver ensuite des détails sur la façon d'utiliser la commande summarize, on tape
help summarize
Chaque commande possède un fichier help, en anglais, assez détaillé. Les commandes search et help sont très utilisées car il est impossible de connaître toutes les commandes de Stata
NB: N'hésitez pas d'utiliser la commande help
La syntaxe est commune à toutes les commandes. La majorité des commandes s'écrive en respectant la syntaxe de base suivante :
command [varlist] [if exp] [,options]
[varlist] : Il s'agit de la liste de variables à utiliser. Par exemple, si on veut calculer l'age moyen, puis l'âge moyen et le nombre moyen d'années d'études des individus de notre base de données (commande summarize) :
Les bases utilisées dans ce manuel sont présentées en annexe. Télécharger la base : TGO_2015_welfare
Pour certaines commandes, si on ne spécifie pas varlist, par défaut Stata applique la commande à toutes les variables _all. C'est le cas entre autres pour summarize.
[if exp] :
Supposons qu'on souhaite calculer ces mêmes statistiques descriptives sur les ménages de Grand Lomé. On utilise alors if pour indiquer à Stata que la commande ne doit être effectuée que sur les observations vérifiant cette condition :
Si on veut exécuter la commande seulement sur les ménages ruraux de la région Maritime :
Op. arithmétiques | Op. logique | Op. de condition |
+ addition - soustraction * multiplication / division ^ puissance + concaténation |
~ not ! not | or & and
|
> supérieur à < inférieur à >= supérieur ou égal à <= inférieur ou égal à == égal à ~= différent de != différent de |
Attention : Pour une condition, l'égalité s'écrit == et non =
[,options] :
Quasiment toutes les commandes proposent des options. Celles-ci sont indiquées après une virgule. Par exemple, la commande summarize possède l'option detail qui permet d'obtenir plus de statistiques descriptives (par exemple certains quantiles). Pour connaître toutes les options possibles d'une commande, il faut regarder le fichier d'aide (commande help)
Nous avons vu plus haut qu'il existe des variables numériques, contenant des entiers ou des réels, et des variables alphanumériques (string) contenant des chaînes de caractères. Si on manipule une variable alphanumérique, on utilise des guillemets :
Exemple :
. generate varnum=10
. generate varalpha="dix"
. generate varalpha2="10"
NB: Il est préférable de créer des variables numériques car certaines commandes n'arrivent pas à traiter des variables alphanumériques.
Il n'est pas nécessaire de taper le nom d'une commande en entier pour que Stata la reconnaisse. Par exemple, si j'utilise la commande generate, je peux écrire :
Exemple :
. generate Menage_Lome=1 if region==0 ou
. gener Menage_Lome=1 if region==0 ou
. gen Menage_Lome=1 if region==0 ou
. g Menage_Lome=1 if region==0
On ne peut pas réduire toutes les commandes à une lettre ni même à deux. En effet certaines abréviations peuvent prêter à confusion. Par exemple, je peux abréger :
. summarize alimenta en
. su alimenta mais pas
. s alimenta
Car Stata ne peut pas s'avoir s'il s'agit de summarize alimenta ou de sort alimenta par exemple. Dans le reste du cours, nous écrivons les commandes en entier, mais en pratique, vous pouvez les abréger.
Il en est de même pour les noms des variables
Exemple :
. summarize deptot en
. su dept mais pas
. su dep
car il y a une confusion possible entre depenses et la variable nommée deptot par exemple.
Supposons qu'on veuille lancer une commande sur les variables depenses et deptot.
. summarize depenses deptot
On peut taper de façon plus concise :
. summarize dep*
Stata exécutera la commande sur toutes les variables dont le nom commence par t.