Tuesday 2 May 2017

Chi Quadrat Güte Von Fit Test In Stata Forex


Chi-Quadrat Güte des Fit-Tests Wenn ein Analytiker versucht, ein statistisches Modell auf beobachtete Daten anzupassen, fragt er sich, wie gut das Modell tatsächlich die Daten widerspiegelt. Wie nahe sind die beobachteten Werte zu denen, die unter dem angepassten Modell zu erwarten sind Ein statistischer Test, der sich mit dieser Frage befasst, ist die Chi-Quadrat-Güte des Fit-Tests. Dieser Test wird häufig verwendet, um die Zuordnung von Variablen in Zwei-Wege-Tabellen zu testen (siehe Zwei-Wege-Tabellen und den Chi-Quadrat-Test), wobei das angenommene Modell der Unabhängigkeit gegenüber den beobachteten Daten ausgewertet wird. Im allgemeinen hat die Chi-Quadrat-Test-Statistik die Form. Wenn die berechnete Teststatistik groß ist, sind die beobachteten und erwarteten Werte nicht nahe und das Modell ist schlecht an die Daten angepasst. Ein neues Casino-Spiel beinhaltet rollen 3 Würfel. Die Gewinne sind direkt proportional zur Gesamtzahl der gewalzten Sechs. Angenommen, ein Spieler spielt das Spiel 100-mal, mit den folgenden beobachteten Zählungen: Das Casino wird misstrauisch der Spieler und will festzustellen, ob die Würfel fair sind. Was schlussfolgern Sie, wenn ein Würfel fair ist, würden wir erwarten, dass die Wahrscheinlichkeit des Rollens eines 6 auf irgendeinem gegebenen Wurf zu sein 16. Angenommen, die 3 Würfel sind unabhängig (die Rolle eines Würfels sollte die Rolle der anderen nicht beeinflussen), wir Könnte annehmen, dass die Anzahl der Sechs in drei Rollen Binomial (3,16) verteilt ist. Um festzustellen, ob die Spieler Würfel fair sind, können wir seine Ergebnisse mit den Ergebnissen, die unter dieser Verteilung erwartet werden, vergleichen. Die erwarteten Werte für 0, 1, 2 und 3 Sechs unter der Binomial (3,16) - Verteilung sind die folgenden: Da der Spieler 100 mal gespielt hat, sind die erwarteten Zählungen die folgenden: Die beiden folgenden Grafiken zeigen einen visuellen Vergleich Die erwarteten und beobachteten Werte: Aus diesen Graphen ist es schwierig, Unterschiede zwischen den beobachteten und erwarteten Graden zu unterscheiden. Eine visuelle Darstellung der Unterschiede ist das Programm. Die die beobachteten - erwarteten Zählungen, geteilt durch die Quadratwurzel der erwarteten Zählungen - wie unten gezeigt aufzeichnet: Die Chi-Quadrat-Statistik ist die Summe der Quadrate der aufgetragenen Werte, (48-58) sup258 (35-34,5) sup258 ( 15-7) sup27 (3-0,5) sup20,5 1,72 0,007 9,14 12,5 23,367. Angesichts dieser Statistik sind die beobachteten Werte wahrscheinlich unter dem angenommenen Modell Eine Zufallsvariable soll eine Chi-Quadrat-Verteilung mit m Freiheitsgraden haben, wenn sie die Summe der Quadrate von m unabhängigen Standard-Normal-Zufallsvariablen ist (das Quadrat von a Einzelne Standard-Normal-Zufallsvariable hat eine Chi-Quadrat-Verteilung mit einem Freiheitsgrad). Diese Verteilung wird mit (m) bezeichnet, wobei die zugehörigen Wahrscheinlichkeitswerte in Tabelle G in Moore und McCabe und in MINITAB verfügbar sind. Die standardisierten Zählungen (beobachteten - erwarteten) sqrt (erwartet) für k-Möglichkeiten sind annähernd normal, aber sie sind nicht unabhängig, weil eine der Zählungen vollständig durch die Summe der anderen bestimmt wird (da die Summe der beobachteten und erwarteten Zählungen summieren muss) Bis n). Dies führt zu einem Verlust von einem Freiheitsgrad, so dass sich herausstellt, dass die Verteilung der Chi-Quadrat-Test-Statistik auf der Basis von k-Zählungen ungefähr die Chi-Quadrat-Verteilung mit m k-1 Freiheitsgraden ist, die mit (k-1 bezeichnet wird ). Hypothesentests Wir verwenden den Chi-Quadrat-Test, um die Gültigkeit einer Verteilung zu testen, die für ein zufälliges Phänomen angenommen wird. Der Test bewertet die Nullhypothesen H 0 (die Daten werden durch die angenommene Verteilung bestimmt) gegen die Alternative (die Daten werden nicht aus der angenommenen Verteilung gezogen). Es sei p 1. P 2. P k die Wahrscheinlichkeiten für k mögliche Ergebnisse. In n unabhängigen Versuchen lassen wir Y 1. Y 2. Y k die beobachteten Zählungen für jedes Ergebnis, die mit den erwarteten Zählwerten np 1 verglichen werden sollen. Np 2. Np k. Die Chi-Quadrat-Teststatistik ist q k-1 Ablehnung H 0, wenn dieser Wert den oberen kritischen Wert der (k-1) - Verteilung überschreitet, wobei der gewünschte Signifikanzniveau ist. Bei dem obigen Glücksspielbeispiel wurde die Chi-Quadrat-Teststatistik auf 23,367 berechnet. Da k 4 in diesem Fall die Möglichkeiten 0, 1, 2 oder 3 Sechs sind, ist die Teststatistik mit der Chi-Quadrat-Verteilung mit 3 Freiheitsgraden verbunden. Wenn wir an einem Signifikanzniveau von 0,05 interessiert sind, können wir die Nullhypothese (dass die Würfel fair sind) zurückweisen, wenn 7.815, der Wert, der dem 0,05 Signifikanzniveau für die (3) Verteilung entspricht. Da 23.367 deutlich größer ist als 7.815, können wir die Nullhypothese zurückweisen, dass die Würfel auf dem 0,05 Signifikanzniveau fair sind. Angesichts dieser Informationen, fragte das Casino den Spieler, seine Würfel (und sein Geschäft) woanders zu nehmen. Man betrachte eine binomische Zufallsvariable Y mit Mittelwert (Erwartungswert) np und Varianz y 2 np (1-p). Aus dem zentralen Grenzwertsatz. Wir wissen, dass Z (Y-np) y eine annähernd normale (0,1) Verteilung für große Werte von n hat. Dann ist Z sup2 ungefähr (1), da das Quadrat einer normalen Zufallsvariablen eine Chi-Quadrat-Verteilung hat. Es sei angenommen, daß die Zufallsvariable Y & sub1; eine Bin (n, p & sub1;) - Verteilung hat und Y & sub2; n - Y & sub1; Da Y2 - np1) sup2 (n - Y2 - nnp2) sup2 (Y2 - np2) sup2 ist, hat Z sup2 eine Chi-Quadrat-Verteilung mit einem Freiheitsgrad. Wenn die beobachteten Werte Y 1 und Y 2 nahe ihren Erwartungswerten np 1 und np 2 liegen. Dann wird der berechnete Wert Z sup2 nahe Null sein. Wenn nicht, wird Z sup2 groß sein. Im allgemeinen gilt für k Zufallsvariablen Y i. I 1, 2. k. Mit entsprechenden Erwartungswerten np i. Eine Statistik, die die Nähe der Beobachtungen zu ihren Erwartungen misst, ist die Summe, die eine Chi-Quadrat-Verteilung mit k-1 Freiheitsgraden hat. Schätzen von Parametern Häufig beinhaltet die Nullhypothese die Anpassung eines Modells mit Parametern, die aus den beobachteten Daten geschätzt werden. In dem obigen Glücksspielbeispiel könnten wir zum Beispiel ein Binomialmodell einsetzen, um die Wahrscheinlichkeit des Rollens einer Sechs mit den geladenen Würfeln der Spieler auszuwerten. Wir wissen, dass diese Wahrscheinlichkeit nicht gleich 16 ist, so dass wir diesen Wert durch Berechnung der Wahrscheinlichkeit aus den Daten abschätzen können. Durch die Schätzung eines Parameters verlieren wir einen Freiheitsgrad in der Chi-Quadrat-Teststatistik. Wenn wir d Parameter unter der Nullhypothese mit k möglichen Zählungen abschätzen, werden die Freiheitsgrade für die zugehörige Chi-Quadrat-Verteilung k - 1 - d sein. Eine Zwei-Wege-Tabelle für zwei kategorische Variablen X und Y mit r - bzw. c-Ebenen haben r Zeilen und c Spalten. Der Tisch hat rc-Zellen, wobei jede Zelle vollständig durch die Summe der anderen bestimmt ist, also k-1 rc-1 in diesem Fall. Ein Chi-Quadrat-Test dieser Tabelle prüft die Nullhypothese der Unabhängigkeit gegenüber der alternativen Hypothese der Assoziation zwischen den Variablen. Unter der Annahme der Unabhängigkeit schätzen wir (r-1) (c-1) - Parameter die Grenzwahrscheinlichkeiten, die die erwarteten Zählungen bestimmen, also d (r-1) (c-1). Die Freiheitsgrade für die Chi-Quadrat-Teststatistik sind (rc - 1) - (r - 1) (c - 1) rc - 1 - r 1 - c 1 rc - r - c 1 (r - 1) (c - 1). Die Chi-Quadrat-Güte der Fit-Test kann auch auf kontinuierliche Verteilungen angewendet werden. In diesem Fall werden die beobachteten Daten in diskrete Bins gruppiert, so dass die Chi-Quadrat-Statistik berechnet werden kann. Die erwarteten Werte unter der angenommenen Verteilung sind die Wahrscheinlichkeiten, die mit jedem Behälter multipliziert mit der Anzahl der Beobachtungen verbunden sind. Im folgenden Beispiel wird der Chi-Quadrat-Test verwendet, um zu bestimmen, ob eine Normalverteilung eine gute Anpassung an beobachtete Daten liefert oder nicht. Die MINITAB-Datendatei GRADES. MTW enthält Daten zu verbalen und mathematischen SAT-Scores und Grade Point Average für 200 College-Studenten. Angenommen wir wollen bestimmen, ob die verbalen SAT-Werte einer Normalverteilung folgen. Eine Methode besteht darin, die normale Wahrscheinlichkeitsdiagramm für die Daten auszuwerten, wie unten gezeigt: Das Diagramm zeigt an, dass die Annahme der Normalität für die verbalen Scores-Daten nicht unangemessen ist. Um eine Chi-Quadrat-Test-Statistik zu berechnen, standardisierte ich zuerst die verbalen Scores-Daten, indem ich den Sample-Mittelwert subtrahierte und durch die Sample-Standardabweichung dividierte. Da dies geschätzte Parameter sind, wird mein Wert für d in der Teststatistik gleich zwei sein. Die 200 standardisierten Beobachtungen sind wie folgt: Ich entschied mich, die Beobachtungen in 10 Bins zu teilen, wie folgt: Die entsprechenden Standard-Normalwahrscheinlichkeiten und die erwartete Anzahl von Beobachtungen (mit n 200) sind die folgenden: Die Chi-Quadrat-Statistik ist die Summe von Die Quadrate der Werte in der letzten Spalte und ist gleich 2,69. Da die Daten in 10 Bins unterteilt sind und wir zwei Parameter abgeschätzt haben, kann der berechnete Wert gegen die Chi-Quadrat-Verteilung mit 10 -1 -2 7 Freiheitsgraden getestet werden. Für diese Verteilung ist der kritische Wert für das 0,05-Signifikanzniveau 14,07. Seit 2.69 lt 14.07, lehnen wir nicht die Null-Hypothese, dass die Daten sind in der Regel distributed. Stata: Datenanalyse und statistische Software Die Version 5-Dokumentation zeigt die Güte-von-fit chi-squared Statistik mit den Ergebnissen der Poisson-Regression berichtet wird Test der Nullhypothese, dass die abhängige Variable Poisson verteilt ist. Meine Frage ist, warum diese Statistik (und vielleicht die daraus resultierende Schlußfolgerung bezüglich der Angemessenheit der Poisson-Regression) mit der Zusammensetzung der rechtsseitigen Variablen variiert. Die Güte-von-passen chi-squared Statistik im poisson Befehl ist eine einfache Pearsons chi-quadrierte Statistik: wo ich die Beobachtungen im Datensatz indiziert. Die df ist Wenn Sie aufteilen oder gruppieren die Zählungen und Belichtungen unterschiedlich, erhalten Sie verschiedene Zellen für die Pearsons chi-squared und damit eine andere Statistik. Herersquos ein Beispiel unter Verwendung des ersten Beispiels im Poisson-Eintrag des Handbuchs auf Seite 31 des PndashZ-Referenzhandbuchs: Nun werden wir die Daten nach den eindeutigen Kovariate-Mustern des Modells gruppieren. In diesem Fall handelt es sich lediglich um die Gruppierung durch XYZowned und Summierung von Zählungen (Verletzungen) und Exposition (n) innerhalb dieser Gruppierung: Beachten Sie, dass der IRR und der std-Fehler identisch sind, der Güte-Test jedoch unterschiedlich ist. Vom Standpunkt der Poisson-Regression sind sowohl die ursprünglichen als auch die zusammengefalteten Datensätze äquivalent, aber der erste Datensatz enthält mehr Informationen über die Poisson-Ness der Daten, da Sie die Zählungen für kleine Teile der Exposition untersuchen können. Wenn die Teile der Belichtung zu klein werden, bekommt man das bekannte Problem der erwarteten Grafen für die Pearson chi-squared immer klein. Vielleicht sollte Stata automatisch nach Kovariate-Muster gruppieren, bevor man die Pearsons chi-squared wie lfit tut nach Logistik. Aber in einigen Fällen ist es sicherlich legitim nicht zu gruppieren (diese ist in der Nähe zu einem dieser Fälle mdash Verletzungen sind nur ein wenig zu niedrig für einige obs). Beachten Sie, dass Pearsonrsquos chi-squared hat auch ein Problem, wenn seine df groß werden. Dies geschieht für Poisson, wenn die Anzahl der Beobachtung wird groß. Meine persönliche Faustregel: Wenn die Anzahl der einzigartigen Kovariate-Muster nicht klein ist (größer als 20), dann gruppieren Sie sie für den Gof-Test so, dass Ihr Dataset nur eine Beobachtung pro einmaligem Kovariate-Muster hat. Betrachten Sie vorhergesagte (erwartete) Zählimpulse. Wenn es irgendwelche sehr kleine (lt 2) oder viele kleine (lt 5), sehen Pearsons chi-squared gof Test mit Argwohn. Wenn die df des chi-squared groß ist (gt50-100), nehmen Sie das Ergebnis mit einem großen Salzkorn. (Dies gilt für jede chi-quadratische Statistik.)

No comments:

Post a Comment