Précédent Cours Complete and continue

STATA : TRAITEMENT ET ANALYSE DES DONNEES

PRINCIPES DE SYNTAXE DANS STATA

1.    Trouver une commande et de l'aide

Pour trouver une commande lorsqu'on ne connaît pas son nom, il suffit de taper la commande search suivie d'un ou plusieurs mots clés. Supposons que l'on souhaite trouver une commande permettant de calculer des statistiques descriptives de base d'une variable :

search univariate summary statistics

Stata retourne la liste de fichiers d'aide des commandes correspondantes ainsi que des liens hypertextes pointant sur le site web de Stata. Dans l'exemple ci-dessus il retourne deux commandes dont summarize qui correspond à ce qu'on souhaite.

Pour trouver ensuite des détails sur la façon d'utiliser la commande summarize, on tape

help summarize 

Chaque commande possède un fichier help, en anglais, assez détaillé. Les commandes search et help sont très utilisées car il est impossible de connaître toutes les commandes de Stata

NB: N'hésitez pas d'utiliser la commande help

2.    La syntaxe : type des commandes dans Stata

La syntaxe est commune à toutes les commandes. La majorité des commandes s'écrive en respectant la syntaxe de base suivante :

command [varlist] [if exp] [,options]

[varlist] : Il s'agit de la liste de variables à utiliser. Par exemple, si on veut calculer l'age moyen, puis l'âge moyen et le nombre moyen d'années d'études des individus de notre base de données (commande summarize) :

Les bases utilisées dans ce manuel sont présentées en annexe. Télécharger la base :  TGO_2015_welfare

Pour certaines commandes, si on ne spécifie pas varlist, par défaut Stata applique la commande à toutes les variables _all. C'est le cas entre autres pour summarize.

[if exp] :

Supposons qu'on souhaite calculer ces mêmes statistiques descriptives sur les ménages de Grand Lomé. On utilise alors if pour indiquer à Stata que la commande ne doit être effectuée que sur les observations vérifiant cette condition :

Si on veut exécuter la commande seulement sur les ménages ruraux de la région Maritime :

Op. arithmétiques Op. logique Op. de condition

+   addition

-   soustraction

*   multiplication

/   division

^   puissance

+  concaténation

~   not

!   not

|   or

&   and

 

>   supérieur à

<   inférieur à

>=  supérieur ou égal à

<=  inférieur ou égal à

==  égal à

~=  différent de

!=  différent de

 

Attention : Pour une condition, l'égalité s'écrit == et non =

[,options] :

Quasiment toutes les commandes proposent des options. Celles-ci sont indiquées après une virgule. Par exemple, la commande summarize possède l'option detail qui permet d'obtenir plus de statistiques descriptives (par exemple certains quantiles). Pour connaître toutes les options possibles d'une commande, il faut regarder le fichier d'aide (commande help)

3.    Autres éléments de syntaxe : type de variables et abréviations

Nous avons vu plus haut qu'il existe des variables numériques, contenant des entiers ou des réels, et des variables alphanumériques (string) contenant des chaînes de caractères. Si on manipule une variable alphanumérique, on utilise des guillemets :

Exemple :

. generate varnum=10

. generate varalpha="dix"

. generate varalpha2="10"

NB: Il est préférable de créer des variables numériques car certaines commandes n'arrivent pas à traiter des variables alphanumériques.

Il n'est pas nécessaire de taper le nom d'une commande en entier pour que Stata la reconnaisse. Par exemple, si j'utilise la commande generate, je peux écrire :

Exemple :

. generate Menage_Lome=1 if region==0  ou

. gener Menage_Lome=1 if region==0  ou

. gen Menage_Lome=1 if region==0  ou

. g Menage_Lome=1 if region==0

On ne peut pas réduire toutes les commandes à une lettre ni même à deux. En effet certaines abréviations peuvent prêter à confusion. Par exemple, je peux abréger :

. summarize alimenta              en

. su alimenta              mais pas

. s alimenta

Car Stata ne peut pas s'avoir s'il s'agit de summarize alimenta ou de sort alimenta par exemple. Dans le reste du cours, nous écrivons les commandes en entier, mais en pratique, vous pouvez les abréger.

Il en est de même pour les noms des variables

Exemple :

. summarize deptot  en

. su dept  mais pas

. su dep

car il y a une confusion possible entre depenses et la variable nommée deptot par exemple.

Supposons qu'on veuille lancer une commande sur les variables depenses et deptot.

. summarize depenses deptot

On peut taper de façon plus concise :

. summarize dep*

Stata exécutera la commande sur toutes les variables dont le nom commence par t.

Discussion

Get answers directory from your instructor
if you have any question about this topic.