blogg-vitalika.ru

  

Bästa artiklarna:

  
Main / Hur man passar noll uppblåst modell

Hur man passar noll uppblåst modell

För analys av räkningsdata erbjuder många statistiska programvarupaket nu nolluppblåsta Poisson- och nolluppblåsta negativa binomiala regressionsmodeller. Nolluppblåsta modeller har blivit ganska populära i forskningslitteraturen: Men behövs verkligen sådana modeller? Kanske inte. I de flesta datamängder är den villkorliga variansen större än det villkorliga medelvärdet, ofta mycket större, ett fenomen som kallas överdispersion.

Den noll uppblåsta Poisson ZIP-modellen är ett sätt att möjliggöra överdispersion. Observerade värden på 0 kan komma från endera gruppen. Även om det inte är väsentligt, utvecklas modellen vanligtvis för att inkludera en logistisk regressionsmodell som förutsäger vilken grupp en individ tillhör. I fall av överdispersion passar ZIP-modellen vanligtvis bättre än en vanlig Poisson-modell. Men hur är det med den nolluppblåsta negativa binomiala ZINB-modellen? Naturligtvis finns det visserligen situationer där en noll-uppblåst modell är vettig utifrån teori eller sunt förnuft.

Till exempel, om den beroende variabeln är antalet barn som någonsin föds till ett urval av 50-åriga kvinnor, är det rimligt att anta att vissa kvinnor är biologiskt sterila. För dessa kvinnor kan ingen variation på prediktorvariablerna oavsett vad de kan ändra det förväntade antalet barn. Den andra upplagan publicerades i april 2012. En enkel omfördelning av ZINB-modellen möjliggör en sådan begränsning.

Så ett sannolikhetsförhållande test är lämpligt, även om chi-kvadratfördelningen kan behöva justeras eftersom begränsningen är på gränsen för parameterutrymmet. Tack för det här blogginlägget. Du gör dessa statistiska begrepp lätta att förstå; Jag kommer säkert att hålla utkik efter dina böcker. Nollinflationsmodellen är en latent klassmodell.

Det föreslås i en specifik situation - när det finns två typer av nollor i de observerade uppgifterna. Det är en tvådelad modell som har en specifik beteendestolkning som förresten inte är särskilt komplicerad.

Föregående diskussion handlar inte om modellen. Det handlar om kurvanpassning. Om du använder modellen för att förutsäga resultatvariabeln och sedan jämföra dessa förutsägelser med de faktiska uppgifterna, kommer ZINB-modellen att passa så mycket bättre att det inte blir någon jämförelse. Dessa modeller har funnits i flera år som stödda förfaranden i dessa program. Det finns inget svårt med att montera dem. När det gäller svårigheter att tolka modellen är ZINB-modellen, som en tvådelad modell, mycket meningsfull.

Det är svårt att se varför det ska vara svårt att tolka. Omparameteriseringen blåser bara upp noll sannolikheten. Men den förlorar tolkningen av två delar - den reparameteriserade modellen är inte en uppblåst nollmodell i latent klassläge där den definieras.

Den så kallade reparameteriserade modellen är inte längre en latent klassmodell. Det är sant att NB-modellen kan testas som en begränsning av den föreslagna modellen. Men den föreslagna modellen motsvarar inte den ursprungliga ZINB-modellen - den är en annan modell. Återigen är detta bara kurvpassning. Det finns många sätt att spränga noll sannolikheten, men dessa sätt förlorar den teoretiska tolkningen av den noll uppblåsta modellen. Här är några svar :. ZIP-modell. Kurvmontering vs.

Efter att ha lärt sig mer om modellerna kan de komma med en teori som skulle stödja existensen av en speciell klass. Men det var inte en del av deras ursprungliga forskningsmål. Mitt mål är helt enkelt att föreslå att en nolluppblåst modell inte är en nödvändighet för att hantera vad som kan verka som ett alltför stort antal eller nollor.

Som jag nämnde mot slutet av bloggen finns det definitivt situationer där man kan ha starka teoretiska skäl för att postulera en tvåklassig modell. Tvåklassshypotesen är just det - en hypotes. Antag att varje individ i har ett antal händelser som genereras av en Poisson-regressionsmodell med förväntad frekvens Ei. Men antag sedan att den förväntade frekvensen multipliceras med den slumpmässiga variabeln Ui för att representera icke observerad heterogenitet.

Om Ui har en gammafördelning blandningsfördelningen, kommer den observerade räknevariabeln att ha en negativ binomial fördelning. Den generaliserade gammafördelningen är ganska flexibel och möjliggör en stor koncentration av individer nära noll. Anpassningskriterier. Passa svårigheter. Så i den meningen är ZINB faktiskt enklare. Tolkningssvårigheter. Eftersom du vanligtvis har dubbelt så många koefficienter att tänka på.

Å andra sidan, varför hade variabel W nästan samma koefficienter i varje ekvation? Häckning av modeller. Men antar att du uttrycker den logistiska delen av modellen enligt följande. Detta är fortfarande en latent klassmodell i sin ursprungliga mening. Frågan om modellerna är kapslade är rent matematiskt och har inget att göra med tolkningen av modellerna. Om du kommer från en modell till en annan genom att helt enkelt ställa in vissa okända parametrar lika med fasta konstanter eller lika med varandra, då är de kapslade.

Men åtminstone i princip kan det justeras för. För dataforskare som jag är en av, tolereras denna avslappnadhet ofta. Men kanske på andra områden är saker annorlunda. Jag håller inte med dig om att ZIP-modellen är en nonstarter. Enligt min erfarenhet verkar ZINB-modellen i många fall vara överspecificerad.

Det finns två källor till heterogenitet inbäddade i ZINB-modellen, den eventuellt onödiga latenta heterogeniteten som diskuterats av Paul ovan och blandningen av de latenta klasserna. När ZINB-modellen inte konvergerar eller på annat sätt beter sig dåligt verkar det i många fall bero på att ZIP-modellen är bättre lämpad för den aktuella modelleringssituationen. Paul gör mycket av idén om en forskare som står inför en ospecificerad teori och en datamängd som innehåller en hög med nollor.

Med risk för att låta dogmatiskt om det kommer jag att sätta min ståndpunkt om situationen där forskaren har valt att passa en noll uppblåst modell P eller NB eftersom det är motiverat av den underliggande teorin. Om forskaren inte har någon sådan teori, men en datamängd som verkar vara noll tung, finns det verkligen inget argument här. Mer om det nedan.

Se ovan. Bara en punkt. Ja, NB-modellen är en kontinuerlig gammablandning av Poissons. Men blandningsprocessens natur skiljer sig helt från den ändliga blandningsaspekten av ZI-modellerna. Återigen är detta en observation om teori. Det hjälper inte att motivera zip-modellen eller något av de föreslagna alternativen.

Vad jag tänker på om passform är detta. Många individer jag har sett detta i tryck diskuterar logg sannolikheten, AIC eller ännu värre pseudo R-kvadrat i termer som de i allmänhet tänker karakterisera bestämningskoefficienten i linjär regression.

Jag har även sett författare diskutera kvadratsummor i Poisson- eller Probit-modeller när de diskuterar AIC- eller Pseudo R-kvadrater även om det inte finns några kvadratsummor någonstans i modellen eller uppskattaren. Dessa mått säger inget om korrelationen eller annan överensstämmelse mellan förutsägelserna från modellen och den observerade beroende variabeln.

Men det är möjligt att göra en sådan jämförelse. Tolkningsproblemet går djupare än att bara ta reda på vad en beta betyder när en gamma som multiplicerar samma variabel visas någon annanstans i samma modell. I dessa icke-linjära modeller ger varken beta eller gamma ett användbart mått på sambandet mellan relevant X och det förväntade värdet på den beroende variabeln.

Det åligger forskaren att förstå implikationerna av modellkoefficienterna. Detta handlar vanligtvis om att sedan uppskatta partiella effekter. Deleffekter i dessa modeller är icke-linjära funktioner för alla modellparametrar och alla variabler i modellen - de är komplicerade. Modern programvara är byggd för att hjälpa forskaren att göra detta. Inget av detta spelar någon roll om det enda syftet med uppskattningen är att rapportera tecken och betydelse av uppskattade koefficienter, men det måste förstås att det i icke-linjära sammanhang sannolikt är meningslöst.

Problemet som fanns där förblir kvar. Eller kanske det finns det? Problemet med chi-kvadratstatistiken när b0 ligger på gränsen för parameterutrymmet är bara början.

Hur många frihetsgrader har den? Don Andrews publicerade en rad artiklar i Econometrica om modeller där modellparametrar är oidentifierade under nollhypotesen. Detta är ett mallfall. Den intresserade läsaren kan hänvisa till dem. På gott och ont har forskare under lång tid använt Vuong-statistiken för att testa för Poisson eller NB null mot nollinflationsmodellen. Den smalare modellen tappar vanligtvis denna tävling. För att sammanfatta detta är det svårt att se dygden hos den reparameteriserade modellen.

Det föreslagna testet är ogiltigt. Nollmodellen är bara Poisson- eller NB-modellen.

(с) 2019 blog-vitalika.ru