Je ne peux pas dire si stata a une fonction intégrée pour la prévision de modèles GARCH spécifiques. J'imagine qu'ils le font, mais vous pouvez creuser dans les manuels d'aide pour le trouver. Plus généralement, supposons qu'un modèle de Garch (1,1) a été adapté à X, une variable ayant une moyenne constante de zéro. Ce modèle est de la forme: sigma bêta beta sigma bêta varepsilon L'étape suivante consiste à escalader la variable X par l'écart type conditionnel sigma pour obtenir le varepsilon, les résidus à l'échelle. Vous devriez alors simuler le varepsilon sous l'hypothèse pertinente (par exemple, si vous estimez le modèle Garch avec t erreurs, vous simuleriez à partir de cette distribution). La valeur future de la volatilité serait alors: sigma bêta beta sigma bêta varepsilon Les valeurs en t1 sont connues, mais par la suite, vous utiliserez les valeurs simulées. Si vous voulez simplement obtenir une valeur unique pour la volatilité future, plutôt qu'un grand panel de valeurs simulées, vous pouvez simplement définir varepsilon comme un vecteur de zéros. Réponse 2017 Stack Exchange, IncNOTICE: Le groupe de consultation IDRE Statistical migrera le site Web vers le WordPress CMS en février pour faciliter la maintenance et la création de nouveaux contenus. Certaines de nos anciennes pages seront supprimées ou archivées de sorte qu'elles ne seront plus conservées. Nous essaierons de maintenir les redirections afin que les anciennes URL continuent à fonctionner de la meilleure façon possible. Bienvenue à l'Institut de recherche et d'éducation numériques Aider le groupe de consultation Stat en donnant un cadeau Analyse des données Stata Exemples Régression logistique Version info: Le code de cette page a été testé dans Stata 12. La régression logistique, également appelée modèle logit, est utilisée pour modéliser Dichotomiques. Dans le modèle logit, les probabilités log du résultat sont modélisées comme une combinaison linéaire des variables prédictives. Remarque: Le but de cette page est de montrer comment utiliser diverses commandes d'analyse de données. Il ne couvre pas tous les aspects du processus de recherche que les chercheurs sont censés faire. En particulier, elle ne couvre pas le nettoyage et le contrôle des données, la vérification des hypothèses, le diagnostic du modèle et les analyses de suivi éventuelles. Exemples de régression logistique Exemple 1: Supposons que nous nous intéressions aux facteurs qui influent sur la victoire d'un candidat politique à une élection. La variable résultat (réponse) est binaire (01) gagnant ou perdant. Les variables prédictives d'intérêt sont le montant d'argent dépensé sur la campagne, le temps passé à faire campagne négativement et si oui ou non le candidat est un titulaire. Exemple 2: Un chercheur s'intéresse à la façon dont les variables telles que les notes GRE (Graduate Record Exam), GPA (moyenne pondérée) et le prestige de l'établissement de premier cycle, entraînent l'admission à l'école supérieure. La variable réponse, admitdont admit, est une variable binaire. Description des données Pour notre analyse de données ci dessous, nous allons développer l'exemple 2 de l'obtention de diplôme d'études supérieures. Nous avons généré des données hypothétiques, qui peuvent être obtenues sur notre site Web. Cet ensemble de données a une réponse binaire (résultat, dépendante) variable appelée admettre. Il existe trois variables prédictives: gre. Gpa et le rang. Nous traiterons les variables gre et gpa comme continues. Le rang variable prend les valeurs 1 à 4. Les institutions ayant le rang 1 ont le plus grand prestige, tandis que celles qui ont le rang 4 ont les plus faibles. Méthodes d'analyse que vous pourriez envisager Voici une liste de quelques méthodes d'analyse que vous avez pu rencontrer. Certaines des méthodes énumérées sont tout à fait raisonnables alors que d'autres sont tombés en faillite ou ont des limites. Régression logistique, le point de mire de cette page. Régression de Probit. L'analyse Probit produira des résultats similaires à la régression logistique. Le choix entre probit et logit dépend en grande partie des préférences individuelles. Régression des MCO. Lorsqu'il est utilisé avec une variable de réponse binaire, ce modèle est connu sous le nom de modèle de probabilité linéaire et peut être utilisé comme un moyen de décrire les probabilités conditionnelles. Cependant, les erreurs (c'est à dire les résidus) du modèle de probabilité linéaire violent les hypothèses d'homoscédasticité et de normalité des erreurs de la régression MCO, résultant en des erreurs types invalides et des tests d'hypothèse. Pour une discussion plus approfondie de ces problèmes et d'autres avec le modèle de probabilité linéaire, voir Long (1997, p 38 40). Analyse de la fonction discriminante à deux groupes. Une méthode multivariée pour les variables dichotomiques. Le résultat 01 est transformé en variable de regroupement et les prédicteurs précédents sont transformés en variables de résultat. Cela produira un test global d'importance, mais ne donnera pas de coefficients individuels pour chaque variable, et il n'est pas clair dans quelle mesure chaque quotpredictor est ajusté pour l'impact des autres quidpredictors. quot Régression logistique Ci dessous nous utilisons la commande logit pour estimer un Modèle de régression logistique. Le i. Avant que le rang indique que le rang est une variable factorielle (c'est à dire une variable catégorielle) et qu'il doit être inclus dans le modèle sous la forme d'une série de variables indicatrices. Notez que cette syntaxe a été introduite dans Stata 11. Dans la sortie ci dessus, nous voyons d'abord le journal d'itération, indiquant à quelle vitesse le modèle a convergé. La probabilité log ( 229.25875) peut être utilisée dans les comparaisons de modèles imbriqués, mais nous ne montrerons pas un exemple de cela ici. En outre, nous voyons que les 400 observations de notre ensemble de données ont été utilisées dans l'analyse (moins d'observations auraient été utilisées si l'une de nos variables avait des valeurs manquantes). Le ratio de vraisemblance chi carré de 41,46 avec une valeur de p de 0,0001 nous indique que notre modèle dans son ensemble s'ajuste nettement mieux qu'un modèle vide (c'est à dire un modèle sans prédicteurs). Dans le tableau, nous voyons les coefficients, leurs erreurs types, la statistique z, les valeurs p associées et l'intervalle de confiance 95 des coefficients. Le gre et le gpa sont statistiquement significatifs, tout comme les trois variables indicatrices pour le rang. Les coefficients de régression logistique donnent le changement dans les probabilités log du résultat pour une augmentation d'une unité dans la variable prédictive. Pour chaque changement d'unité en gre. Les probabilités logarithmiques d'admission (versus non admission) augmentent de 0,002. Pour une augmentation d'une unité en gpa. La probabilité logarithmique d'être admis aux études supérieures augmente de 0,804. Les variables indicatrices pour le rang ont une interprétation légèrement différente. Par exemple, après avoir fréquenté un établissement de premier cycle avec un rang de 2, par rapport à un établissement avec un rang de 1, diminue la probabilité logarithmique d'admission de 0,675. Nous pouvons tester l'effet global du rang en utilisant la commande test. On voit ci dessous que l'effet global du rang est statistiquement significatif. Nous pouvons également tester d'autres hypothèses sur les différences dans les coefficients pour différents niveaux de rang. Ci dessous nous testons que le coefficient pour le rang 2 est égal au coefficient du rang 3. (Notez que si nous voulions estimer cette différence, nous pourrions le faire en utilisant la commande lincom.) Vous pouvez également exponentier les coefficients et les interpréter comme des cotes ratios. Stata fera ce calcul pour vous si vous utilisez l'option ou, illustrée ci dessous. Vous pouvez également utiliser la commande logistique. Maintenant, nous pouvons dire que pour une augmentation d'une unité de gpa. Les probabilités d'être admis à l'école supérieure (contre l'absence d'admission) augmentent d'un facteur de 2,23. Pour plus d'informations sur l'interprétation des odds ratios, consultez notre page FAQ Comment interpréter les odds ratios en régression logistique. Vous pouvez également utiliser les probabilités prédites pour vous aider à comprendre le modèle. Vous pouvez calculer les probabilités prédites à l'aide de la commande margins, qui a été introduite dans Stata 11. Ci dessous, nous utilisons la commande margins pour calculer la probabilité d'admission prévue à chaque niveau de rang. En tenant toutes les autres variables dans le modèle à leurs moyens. Pour plus d'informations sur l'utilisation de la commande marges pour calculer les probabilités prédites, consultez notre page Utilisation des marges pour les probabilités prédites. Dans le résultat ci dessus, nous voyons que la probabilité prédite d'être accepté dans un programme d'études supérieures est de 0,51 pour les établissements de premier rang de prestige de premier rang (rang1) et de 0,18 pour les établissements de rang le plus bas (rang4), tenant gre et gpa à leurs moyens. Ci dessous, nous générons les probabilités prédites pour les valeurs de gre de 200 à 800 par incréments de 100. Comme nous n'avons pas spécifié ni atmeans ou utilisé à (.) Pour spécifier des valeurs avec les autres variables prédictives sont maintenues, les valeurs dans la table sont Les probabilités moyennes prédites calculées à l'aide des valeurs d'échantillonnage des autres variables prédictives. Par exemple, pour calculer la probabilité moyenne prédite lorsque gre 200, la probabilité prédite a été calculée pour chaque cas, en utilisant ce cas des valeurs de rang et gpa. Avec gre fixé à 200. Dans le tableau ci dessus, nous pouvons voir que la probabilité prédite moyenne d'être accepté n'est que de 0,167 si le score de GRE est de 200 et augmente à 0,414 si le score de GRE est de 800 (moyenne des valeurs d'échantillon de gpa et de rang ). Il peut également être utile d'utiliser des graphiques de probabilités prédites pour comprendre et / ou présenter le modèle. Nous souhaitons peut être aussi voir comment notre modèle s'intègre parfaitement. Cela peut être particulièrement utile lors de la comparaison de modèles concurrents. La commande utilisateur fitstat produit une variété de statistiques d'ajustement. Vous pouvez trouver plus d'informations sur fitstat en tapant findit fitstat (voir Comment puis je utiliser la commande findit pour rechercher des programmes et obtenir de l'aide supplémentaire pour plus d'informations sur l'utilisation de findit). Points à considérer Cellules vides ou petites cellules: Vous devez vérifier les cellules vides ou petites en effectuant un tableau croisé entre les prédicteurs catégoriques et la variable de résultat. Si une cellule a très peu de cas (une petite cellule), le modèle peut devenir instable ou ne pas fonctionner du tout. Séparation ou quasi séparation (également appelée prédiction parfaite), condition dans laquelle le résultat ne varie pas à certains niveaux des variables indépendantes. Voir notre page FAQ: Qu'est ce que la séparation complète ou quasi complète dans la régression logarithmique et comment pouvons nous les traiter pour obtenir des informations sur les modèles avec une prédiction parfaite. Taille de l'échantillon: Les modèles logit et probit exigent plus de cas que la régression OLS car ils utilisent des techniques d'estimation du maximum de vraisemblance. Il est parfois possible d'estimer des modèles pour les résultats binaires dans des ensembles de données avec seulement un petit nombre de cas en utilisant la régression logistique exacte (en utilisant la commande exlogistique). Pour plus d'informations, voir notre exemple d'analyse de données pour une régression logistique exacte. Il est également important de garder à l'esprit que lorsque le résultat est rare, même si l'ensemble des données est important, il peut être difficile d'estimer un modèle logit. Pseudo R carré: Beaucoup de mesures différentes de psuedo R carré existent. Ils tentent tous de fournir des informations similaires à celles fournies par R carré dans la régression OLS cependant, aucun d'eux ne peut être interprété exactement comme R carré dans la régression OLS est interprété. Pour une analyse de divers pseudo R squared, voir Long et Freese (2006) ou notre page FAQ. Quels sont les pseudo R carré Diagnostics: Les diagnostics pour la régression logistique sont différents de ceux pour la régression OLS. Pour une analyse des modèles de diagnostic pour la régression logistique, voir Hosmer et Lemeshow (2000, chapitre 5). Notez que les diagnostics effectués pour la régression logistique sont semblables à ceux effectués pour la régression probit. Dans Stata, les valeurs de 0 sont traitées comme un niveau de la variable de résultat, et toutes les autres valeurs non manquantes sont traitées comme le deuxième niveau du résultat. Données regroupées: Parfois, les observations sont regroupées en groupes (par exemple, les membres des familles, les élèves dans les salles de classe). Dans de tels cas, vous voudrez peut être voir notre page sur la non indépendance dans les grappes. Références Hosmer, D. Lemeshow, S. (2000). Régression logistique appliquée (deuxième édition). New York: John Wiley Sons, Inc. Long, J. Scott, Freese, Jeremy (2006). Modèles de régression pour les variables dépendantes catégoriques à l'aide de Stata (deuxième édition). College Station, TX: Stata Press. Long, J. Scott (1997). Modèles de régression pour variables catégorielles et dépendantes limitées. Thousand Oaks, Californie: Sage Publications. Le contenu de ce site Web ne doit pas être interprété comme un endossement d'un site Web, d'un livre ou d'un logiciel particulier par l'Université de Californie. Je ne peux pas dire si stata a une fonction intégrée pour prévoir des modèles GARCH spécifiques. J'imagine qu'ils le font, mais vous pouvez creuser dans les manuels d'aide pour le trouver. Plus généralement, supposons qu'un modèle de Garch (1,1) a été adapté à X, une variable ayant une moyenne constante de zéro. Ce modèle est de la forme: sigma bêta beta sigma bêta varepsilon L'étape suivante consiste à escalader la variable X par l'écart type conditionnel sigma pour obtenir le varepsilon, les résidus à l'échelle. Vous devriez alors simuler le varepsilon sous l'hypothèse pertinente (par exemple, si vous estimez le modèle Garch avec t erreurs, vous simuleriez à partir de cette distribution). La valeur future de la volatilité serait alors: sigma bêta beta sigma bêta varepsilon Les valeurs en t1 sont connues, mais par la suite, vous utiliserez les valeurs simulées. Si vous voulez simplement obtenir une valeur unique pour la volatilité future, plutôt qu'un grand panel de valeurs simulées, vous pouvez simplement définir varepsilon comme un vecteur de zéros. Répondre Jul 5 12 at 16:35 Votre réponse 2017 Stack Exchange, Inc3. Logit Modèles dans Stata Stata a plusieurs commandes qui peuvent être utilisés pour adapter les modèles de régression logistique par le maximum de vraisemblance. Les commandes de base sont logit pour les données individuelles et blogit pour les données groupées. Il existe également une commande logistique qui présente les résultats en termes de ratios impairs plutôt que de log odds et peut produire une variété de statistiques de synthèse et de diagnostic. Enfin, on peut adapter un modèle de régression logistique comme cas particulier d'un modèle linéaire généralisé avec Bernoulli ou erreurs binomiales et lien logit, en utilisant la commande glm. Nous aurons l'occasion d'utiliser toutes ces commandes, mais nous allons mettre l'accent sur les deux premières, en utilisant blogit pour les données groupées dans ce journal et logit pour les données individuelles dans les ensembles de problèmes. 3.3 La comparaison de deux groupes Après les notes de cours, nous envisagerons de comparer deux groupes et de passer ensuite à plus de deux. Tableau 2 par 2 Considérez les données sur l'utilisation de la contraception par le désir d'un plus grand nombre d'enfants sur le tableau 3.2 (page 14 des notes). Nous pouvons lire ces données dans Stata comme 2 observations binomiales. Pour rendre la vie plus facile, je vais entrer dans le désir de plus d'enfants comme une variable factice qui prend la valeur 1 pour les femmes qui ne veulent pas d'autres enfants et 0 autrement Testing Homegeneity commençons par l'ajustement du modèle null. Avec blogit vous spécifiez le résultat en termes de nombre de succès et le dénominateur binomial, ici les utilisateurs et n. L'estimation de la constante est simplement le logit de la proportion globale en utilisant la contraception, disons pyn. Et l'erreur type est la racine carrée de 1y 1 (n y). Vous pouvez vérifier ces résultats à la main. Statas blogit ne calcule pas la déviance du modèle, mais on peut l'obtenir à la main en utilisant prédire pour obtenir des comptes équipés: Donc la déviance est 91.67 sur un d. f. Fournissant une preuve suffisante que le modèle null ne correspond pas aux données. Ainsi, nous rejetons l'hypothèse selon laquelle la probabilité d'utiliser la contraception est la même dans les deux groupes. Essayez une méthode similaire pour calculer chi carré Pearsons, vous devriez obtenir 92,64. Alternativement, vous pouvez adapter le modèle en utilisant glm. Qui rapporte à la fois la déviance et Pearsons chi squared par défaut. Ill faire ceci tranquillement et juste rapportent les résultats mémorisés correspondants, e (déviance) pour la déviance et e (déviancep) pour la statistique de Pearsons. Le rapport de cotes Prenons maintenant le modèle avec le besoin de plus d'enfants comme prédicteur. Ce modèle est saturé pour ce jeu de données, en utilisant deux paramètres pour modéliser deux probabilités: La constante correspond à la log odds d'utiliser la contraception parmi whoen qui veulent plus d'enfants, et le coefficient de nomore est la différence de log odds entre les deux groupes. Exponentiating ce coefficient nous obtenons un odds ratio d'environ trois. Contrairement à la croyance populaire, cela ne signifie pas que les femmes qui ne veulent plus d'enfants sont trois fois plus susceptibles d'utiliser la contraception. Il y a deux erreurs dans cette interprétation. Tout d'abord, et surtout, c'est la probabilité d'utiliser la contraception chez les femmes qui ne veulent plus d'enfants qui sont trois fois celles des femmes qui veulent plus, pas la probabilité, ce qui est généralement compris par la vraisemblance. L'interprétation serait approximativement correcte si l'événement à l'étude était rare, car si p est petit alors 1 p est proche de un et le rapport de chance est approximativement le même que le risque relatif. Ici, les proportions observées sont 0,454 et 0,225, et le ratio est de 2,01, de sorte que les femmes qui ne veulent plus d'enfants sont deux fois plus susceptibles d'utiliser la contraception que ceux qui veulent plus. Deuxièmement, même si la probabilité était triplée, les femmes auraient trois fois plus de probabilité, ou deux fois plus, d'utiliser la contraception, et non trois fois plus. Dans ce cas, la probabilité est doublée, ce qui rend les femmes deux fois plus susceptibles, et non deux fois plus susceptibles. Signification des tests La statistique z est comme indiqué à la page 16 des notes. Soit la statistique de chi squared de Walds pour l'hypothèse que le coefficient de nomore est zéro, ou équivalemment que le odds ratio est un, et peut être calculé plus simplement en utilisant la commande de test de Statas: La statistique de chi2 rapportée par Stata Dans la deuxième ligne de sortie est le rapport de vraisemblance chi squared comparant le modèle actuel avec le modèle nul. Pouvez vous expliquer pourquoi nous obtenons 91,67, ce qui est la déviance du modèle nul? Quel indice de la déviance de ce modèle? Un troisième test de l'effet de l'absence de plus est donné par Pearsons chi carré statistique, que nous avons calculé plus tôt comme 92,64. Ceci équivaut au test z standard pour comparer deux proportions si vous utilisez la proportion regroupée pour estimer l'erreur type. Les trois statistiques sont différentes, mais elles sont asymptotiquement équivalentes. Dans notre exemple, ils sont aussi proches en valeur et conduisent au même rejet accablant de l'hypothèse selon laquelle la probabilité d'utiliser la contraception est la même dans les deux groupes. Intervalle de confiance Stata a la bonté de nous donner un intervalle de confiance de 95 pour les coefficients logit. Nous pouvons convertir l'intervalle pour le coefficient de nomore en un CI de 95 pour le rapport de cotes en exponenciant les limites de confiance: Un moyen encore plus facile est de taper blogit, ou. La commande blogit sans aucune variable, comme toutes les commandes d'estimation, récupère simplement les résultats du dernier ajustement. L'option ou est abréviation de o dds r atio et provoque Stata à déclarer des coefficients exponentiés. (Les versions 12 et antérieures omettent la constante, mais Stata 13 les expose aussi.) Donc, les chances d'utiliser la contraception chez les femmes qui veulent plus d'enfants sont de 0,291 à une, et pour ceux qui ne veulent pas d'enfants, elles sont 2,85 fois plus élevées ou 0,830 à un. L'erreur type du rapport de cotes est calculée par la méthode delta, mais les limites de confiance sont calculées en exponentiant les limites de l'échelle logit, et non en additionnant et en soustrayant deux fois l'erreur type au rapport de cotes. Ceci est fait parce que l'approximation normale est plus précise (et a plus de sens) dans l'échelle logit, qui n'a aucune restriction de portée. Exercice. Calculer le test z conventionnel pour comparer les proportions en utilisant la contraception dans les deux groupes et vérifier que le carré coïncide avec la statistique chi carré de Pearson. Copie 2017 Germaacuten Rodriacuteguez, Université de Princeton
No comments:
Post a Comment