Sunday, 14 January 2018

Zero inflated binary options


Argumentos passados ​​para zeroinfl. control na configuração padrão. Detalhes Os modelos de contagem zero-inflados são modelos de mistura de dois componentes que combinam uma massa de ponto em zero com uma distribuição de contagem apropriada. Assim, existem duas fontes de zeros: os zeros podem vir tanto da massa pontual como da componente de contagem. Normalmente o modelo de contagem é um Poisson ou regressão binomial negativa (com log link). A distribuição geométrica é um caso especial do binômio negativo com parâmetro de tamanho igual a 1. Para modelar o estado não observado (zero versus contagem), um modelo binário é usado que captura a probabilidade de inflação zero. No caso mais simples, apenas com um intercepto mas potencialmente contendo regressores. Para este modelo de inflação zero, um modelo binomial com diferentes links pode ser usado, tipicamente logit ou probit. A fórmula pode ser usada para especificar ambos os componentes do modelo: Se uma fórmula de tipo y x1 x2 é fornecida, então os mesmos regressores são empregados em ambos os componentes. Isto é equivalente a y x1 x2 x1 x2. Naturalmente, um conjunto diferente de regressores poderia ser especificado para a contagem e componente de inflação nula, e. Y x1 x2 z1 z2 z3 dando o modelo de dados de contagem y x1 x2 condicional em () o modelo de inflação zero y z1 z2 z3. Um modelo de inflação simples, onde todas as contagens zero têm a mesma probabilidade de pertencer ao componente zero podem ser especificados pela fórmula y Deslocamentos podem ser especificados em ambos os componentes do modelo relativo ao modelo de contagem e inflação zero: y x1 deslocamento (x2) Z1 z2 deslocamento (z3). Onde x2 é usado como um deslocamento (isto é, com o coeficiente fixado a 1) na componente de contagem e z3 analogamente na componente de inflação nula. Pela regra indicada acima y x1 offset (x2) é expandido para y x1 offset (x2) x1 offset (x2). Em vez de usar o wrapper offset () dentro da fórmula. O argumento offset também pode ser empregado que define um deslocamento apenas para o modelo de contagem. Assim, a fórmula y x1 eo deslocamento x2 é equivalente à fórmula y x1 offset (x2) x1. Todos os parâmetros são estimados pela máxima verossimilhança usando optim. Com opções de controle definidas em zeroinfl. control. Os valores iniciais podem ser fornecidos, estimados pelo algoritmo EM (maximização da expectativa), ou por glm. fit (o padrão). Os erros padrão são derivados numericamente usando a matriz de Hessian retornada pelo optim. Consulte zeroinfl. control para obter detalhes. O objeto modelo montado retornado é de classe zeroinfl e é semelhante aos objetos glm ajustados. Para elementos como coeficientes ou termos uma lista é retornada com elementos para o zero e contagem de componentes, respectivamente. Para detalhes veja abaixo. Um conjunto de funções de extração padrão para objetos modelo montados está disponível para objetos da classe zeroinfl. Incluindo métodos para as funções genéricas de impressão. resumo. Coef Vcov. LogLik. Resíduos. prever. Montado. Termos. Model. matrix. Consulte predict. zeroinfl para obter mais detalhes sobre todos os métodos. Valor Um objeto da classe zeroinfl. I. e. uma lista com componentes incluindo Modelos de Poisson Inflados por Zero Os dados de contagem que têm uma incidência de contagens de zero maiores do que o esperado para a distribuição de Poisson podem ser modelados com a distribuição de Poisson com inflação zero. Veja Long (1997) e Cameron e Trivedi (1998) para mais informações sobre os modelos de Poisson com inflação zero. Considera-se que a população consiste em dois tipos de indivíduos. O primeiro tipo fornece contagens distribuídas de Poisson, que podem conter zeros. O segundo tipo sempre dá uma contagem zero. Seja a média de Poisson e seja a probabilidade de um ser individual do segundo tipo. O parâmetro é chamado aqui de probabilidade de inflação zero. E é a probabilidade de zero contagens em excesso da freqüência prevista pela distribuição de Poisson. Você pode solicitar que a probabilidade de inflação zero seja exibida em um conjunto de dados de saída com a palavra-chave PZERO. A distribuição de probabilidade de uma variável aleatória inflada zero Y é dada por onde é uma das funções de ligação binária: logit, probit ou log-log complementar. A função de link é o link logit por padrão, ou a opção de função link especificada na instrução ZEROMODEL. A função de ligação para a parte de Poisson do modelo,, é a função de ligação de log por predefinição, ou a função de ligação especificada na instrução MODELO. As covariáveis ​​para observação são determinadas pelo modelo especificado na instrução ZEROMODEL e as covariáveis ​​são determinadas pelo modelo especificado na instrução MODEL. Os parâmetros de regressão são estimados por máxima verossimilhança. A média e a variância de Y são dadas por Bem-vindo ao Instituto de Pesquisa e Educação Digital R Análise de Dados Exemplos: Regressão Binomial Negativa Inflada Zero A regressão binomial negativa inflada zero é para modelar variáveis ​​de contagem com zeros excessivos e é geralmente para resultado de contagem superdispersa Variáveis. Além disso, a teoria sugere que os zeros em excesso são gerados por um processo separado dos valores de contagem e que os zeros em excesso podem ser modelados independentemente. Esta página usa os seguintes pacotes. Certifique-se de que pode carregá-los antes de tentar executar os exemplos nesta página. Se você não tiver um pacote instalado, execute: install. packages (nome do pacote). Ou se você vir que a versão está desatualizada, execute: update. packages (). Versão de informação: Código para esta página foi testado em R versão 3.1.1 (2017-07-10) Em: 2017-08-11 Com: boot 1.3-11 knitr 1.6 pscl 1.04.4 vcd 1.3-1 gam 1.09.1 ​​coda 0,16-1 mvtnorm 1,0-0 GGally 0,4,7 plyr 1,8,1 MASS 7,3-33 Hmisc 3,14-4 Fórmula 1,1-2 sobrevivência 2,37-7 psych 1,4,5 reshape2 1,4 msm 1,4 phia 0,1-5 RColorBrewer 1,0-5 efeitos 3,0- 0 colorspace 1.2-4 lattice 0.20-29 pequod 0.0-3 carro 2.0-20 ggplot2 1.0.0 Nota: O objetivo desta página é mostrar como usar vários comandos de análise de dados. Não abrange todos os aspectos do processo de investigação que se espera que os investigadores façam. Em particular, não abrange a limpeza e verificação de dados, verificação de suposições, diagnósticos de modelos ou análises de acompanhamento potenciais. Exemplos de regressão binomial negativa com inflação zero Exemplo 1. Administradores escolares estudam o comportamento de comparecimento de alunos do ensino médio em duas escolas. Preditores do número de dias de ausência incluem o sexo do aluno e os resultados dos testes padronizados em matemática e artes da linguagem. Exemplo 2. Os biólogos estaduais da vida selvagem querem modelar quantos peixes estão sendo pescados por pescadores em um parque estadual. Os visitantes são perguntados quanto tempo eles ficaram, quantas pessoas estavam no grupo, houve crianças no grupo e quantos peixes foram capturados. Alguns visitantes não pescam, mas não há dados sobre se uma pessoa pescou ou não. Alguns visitantes que fizeram peixe não pegar qualquer peixe, por isso há excesso zeros nos dados por causa das pessoas que não pescar. Descrição dos Dados Vamos seguir o Exemplo 2 acima. Temos dados sobre 250 grupos que foram a um parque. Cada grupo foi questionado sobre quantos peixes eles pegaram (contagem), quantas crianças estavam no grupo (criança), quantas pessoas estavam no grupo (pessoas) e se traziam ou não um campista para o parque (campista) . Além de prever o número de peixes capturados, há interesse em predizer a existência de zeros em excesso, ou seja, a probabilidade de um grupo pegar zero peixe. Vamos usar as variáveis ​​criança. pessoas. E campista em nosso modelo. Vamos olhar para os dados. Métodos de análise que você pode considerar Antes de mostrar como você pode analisar isso com uma análise binomial negativa inflacionada, vamos considerar alguns outros métodos que você pode usar. OLS Regression - Você poderia tentar analisar esses dados usando a regressão OLS. No entanto, os dados de contagem são altamente não-normais e não são bem estimados por regressão OLS. Regressão de Poisson com inflação zero - A regressão de Poisson com inflação zero é melhor quando os dados não são superdispersos, isto é, quando a variância não é muito maior do que a média. Modelos de Contagem Ordinária - Poisson ou modelos binomiais negativos podem ser mais apropriados se não houver excesso de zeros. Regressão binomial negativa com inflação zero Um modelo com inflação zero pressupõe que o resultado zero é devido a dois processos diferentes. Por exemplo, no exemplo de pesca apresentado aqui, os dois processos são que um indivíduo tem ido pescar vs não ido pesca. Se não foi pescar, o único resultado possível é zero. Se foi pescar, é então um processo de contagem. As duas partes do modelo de inflação zero são um modelo binário, geralmente um modelo logit para modelar qual dos dois processos o resultado zero está associado e um modelo de contagem, neste caso, um modelo binomial negativo, para modelar a contagem processo. A contagem esperada é expressa como uma combinação dos dois processos. Tomando o exemplo da pesca de novo: Para entender a regressão binomial negativa inflada zero, vamos começar com o modelo binomial negativo. Existem múltiplas parametrizações do modelo binomial negativo, focando-se no NB2. A função de densidade de probabilidade binomial negativa é: onde (p) é a probabilidade de (r) sucessos. A partir disso, podemos derivar a função de verossimilhança, que é dada por: aqui encontramos a probabilidade do valor esperado, (mu) dado os dados e (alfa) que permite a dispersão. Tipicamente, isso seria expresso como uma probabilidade log, denotada pelo script L, (mathcal): que pode ser expressa em termos de nosso modelo, substituindo (mui) por (exp (xi beta)). Voltando ao modelo binomial negativo inflacionado a zero, a expressão da função de verossimilhança depende se o valor observado é zero ou maior que zero. Do modelo logístico de (yi 1) versus (y 0): Finalmente, note que R não estima (alfa), mas (theta), o inverso de (alfa). Agora vamos construir nosso modelo. Vamos usar as variáveis ​​criança e campista para modelar a contagem na parte do modelo binomial negativo e as variáveis ​​na parte logit do modelo. Usamos o pscl para executar uma regressão binomial negativa com inflação zero. Começamos por estimar o modelo com as variáveis ​​de interesse. A saída se parece muito com a saída de duas regressões OLS em R. Abaixo da chamada do modelo, você encontrará um bloco de saída contendo coeficientes de regressão binomial negativos para cada uma das variáveis, juntamente com os erros padrão, z-scores e p-values Para os coeficientes. Um segundo bloco segue que corresponde ao modelo de inflação. Isso inclui coeficientes de logit para prever zeros em excesso juntamente com seus erros padrão, escores z e valores de p. Todos os preditores nas porções de contagem e inflação do modelo são estatisticamente significativos. Este modelo ajusta os dados significativamente melhor do que o modelo nulo, isto é, o modelo apenas de intercepção. Para mostrar que este é o caso, podemos comparar com o modelo atual para um modelo nulo sem preditores usando teste qui-quadrado sobre a diferença de probabilidades log. A partir da saída acima, podemos ver que o nosso modelo global é estatisticamente significativa. Observe que a saída do modelo acima não indica de forma alguma se o nosso modelo de inflação zero é uma melhoria em relação a uma regressão binomial negativa padrão. Podemos determinar isto executando o correspondente modelo binomial negativo padrão e então realizando um teste Vuong dos dois modelos. Usamos o pacote MASS para executar a regressão binomial negativa padrão. Os preditores criança e campista na parte do modelo de regressão binomial negativa prevendo o número de peixes capturados (contagem) são ambos preditores significativos. A pessoa preditora na parte do modelo logit prediz zeros excessivos é estatisticamente significativa. Para estes dados, a mudança esperada no log (contagem) para um aumento de uma unidade na criança é -1.515255 mantendo outras variáveis ​​constantes. Um campista (campista 1) tem um log esperado (contagem) de 0,879051 maior do que o de um não-campista (campista 0) mantendo outras variáveis ​​constantes. O log odds de ser um excesso zero diminuiria por 1,67 para cada pessoa adicional no grupo. Em outras palavras, quanto mais pessoas no grupo menos provável que o zero seria devido a pesca não foi. Coloque claramente, quanto maior o grupo a pessoa estava, mais provável que a pessoa foi pescar. O teste de Vuong sugere que o modelo binomial negativo inflacionado é uma melhoria significativa em relação a um modelo binomial negativo padrão. Podemos obter intervalos de confiança para os parâmetros e os parâmetros exponenciados usando bootstrapping. Para o modelo binomial negativo, estas seriam razões de risco de incidência, para o modelo de inflação zero, odds ratios. Usamos o pacote de inicialização. Primeiramente, obtemos os coeficientes de nosso modelo original para usar como valores iniciais para o modelo para acelerar o tempo que leva para estimar. Então nós escrevemos uma função curta que leva dados e índices como entrada e retorna os parâmetros que estamos interessados. Finalmente, passamos isso para a função de inicialização e fazer 1200 repetições, usando neve para distribuir em quatro núcleos. Note que você deve ajustar o número de núcleos para o que sua máquina tem. Além disso, para os resultados finais, pode-se desejar aumentar o número de repetições para ajudar a garantir resultados estáveis. Os resultados são estimativas de parâmetros alternados e erros padrão. Ou seja, a primeira linha tem a primeira estimativa de parâmetro do nosso modelo. O segundo tem o erro padrão para o primeiro parâmetro. A terceira coluna contém os erros padrões bootstrap, que são consideravelmente maiores do que os estimados por zeroinfl. Agora podemos obter os intervalos de confiança para todos os parâmetros. Começamos na escala original com percentil e ICs ajustados por viés. Também comparamos esses resultados com os intervalos de confiança regulares com base nos erros-padrão. Os intervalos de confiança bootstrap são consideravelmente mais amplo do que a aproximação baseada normal. Os ICs bootstrap são mais consistentes com os CIs da Stata quando se utilizam erros padrão robustos. Agora podemos estimar a razão de risco de incidência (IRR) para o modelo binomial negativo eo odds ratio (OR) para o modelo logístico (inflação zero). Isso é feito usando código quase idêntico como antes, mas passando uma função de transformação para o argumento h de boot. ci. Neste caso, exp para exponentiate. Para entender melhor nosso modelo, podemos calcular o número esperado de peixe capturado para diferentes combinações de nossos preditores. De fato, uma vez que estamos trabalhando com preditores essencialmente categóricos, podemos calcular os valores esperados para todas as combinações usando a função expand. grid para criar todas as combinações e, em seguida, a função predizer para fazê-lo. Finalmente, criamos um gráfico. Coisas a considerar Aqui estão alguns problemas que você pode querer considerar no curso de sua análise de pesquisa. Pergunta sobre o parâmetro de sobre-dispersão é, em geral, um complicado. Um grande parâmetro de sobre-dispersão poderia ser devido a um modelo de falta de especificação ou poderia ser devido a um processo real com sobre-dispersão. A adição de um problema de sobre-dispersão não melhora necessariamente um modelo de falta de especificação. O modelo binomial negativo inflacionado a zero tem duas partes, um modelo de contagem binomial negativa e o modelo logit para prever zeros em excesso, então você pode querer rever estas páginas de Exemplo de Análise de Dados, Regressão Binomial Negativa e Regressão Logit. Uma vez que o binômio inflacionado negativo tem um modelo de contagem e um modelo logit, cada um dos dois modelos deve ter bons preditores. Os dois modelos não precisam necessariamente usar os mesmos preditores. Problemas de predição perfeita, separação ou separação parcial podem ocorrer na parte logística do modelo com inflação zero. Os dados de contagem geralmente usam a variável de exposição para indicar o número de vezes que o evento poderia ter acontecido. Você pode incorporar a exposição (também chamada de offset) em seu modelo usando a função offset (). Não se recomenda que modelos binomiais negativos com inflação zero sejam aplicados a pequenas amostras. O que constitui uma pequena amostra não parece estar claramente definido na literatura. Pseudo-R-quadrado valores diferem de OLS R-squareds, consulte FAQ: Quais são pseudo R-squareds para uma discussão sobre este problema. Consulte também R Referências ao Manual on-line Long, J. S. 1997. Modelos de regressão para variáveis ​​categóricas e dependentes limitadas. Thousand Oaks, CA: Publicações Sage. Everitt, BS e Hothorn, T. Um Manual de Análises Estatísticas Usando R O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico pela Universidade da Califórnia. O GENMOD Procedure Zero - Modelos Inflados Os dados de contagem que têm uma incidência de zeros maior do que o esperado para a distribuição de probabilidade subjacente de contagens podem ser modelados com uma distribuição inflado por zero. Em GENMOD, a distribuição subjacente pode ser Poisson ou binômio negativo. Ver Lambert (1992), Long (1997) e Cameron e Trivedi (1998) para mais informações sobre os modelos com inflação zero. Considera-se que a população consiste em dois tipos de indivíduos. O primeiro tipo fornece Contagens distribuídas de Poisson ou binômio negativo, que podem conter zeros. O segundo tipo sempre dá uma contagem zero. Seja a média de distribuição subjacente e seja a probabilidade de um indivíduo ser do segundo tipo. O parâmetro é chamado aqui de probabilidade de inflação zero. E é a probabilidade de zero contagens em excesso da frequência prevista pela distribuição subjacente. Você pode solicitar que a probabilidade de inflação zero seja exibida em um conjunto de dados de saída com a palavra-chave PZERO. A distribuição de probabilidade de uma variável aleatória de Poisson inflada a zero Y é dada por e a distribuição de probabilidade de uma variável aleatória binomial negativa inflada zero Y é dada por onde k é o parâmetro de dispersão binomial negativo. Onde h é uma das funções de ligação binária: logit, probit ou log-log complementar. A função de link h é o link logit por padrão, ou a opção de função link especificada na instrução ZEROMODEL. A função de ligação g é a função de ligação de log por predefinição, ou a função de ligação especificada na instrução MODELO, tanto para o Poisson quanto para o binómio negativo. As covariáveis ​​para observação i são determinadas pelo modelo especificado na instrução ZEROMODEL e as covariáveis ​​são determinadas pelo modelo especificado na instrução MODELO. Os parâmetros de regressão são estimados por máxima verossimilhança. A média e a variância de Y para o Poisson com inflação zero são dadas por e para o binômio negativo inflado por Você pode solicitar que a média de Y seja exibida para cada observação em um conjunto de dados de saída com a palavra-chave PRED. Instituto de Pesquisas e Estudos Digitais Análise de Dados do SAS Exemplos Regressão binomial negativa inflada a zero A regressão binomial negativa inflada a zero é para modelar variáveis ​​de contagem com zeros excessivos e geralmente é para variáveis ​​de resultado de contagem superdispersas. Além disso, a teoria sugere que os zeros em excesso são gerados por um processo separado dos valores de contagem e que os zeros em excesso podem ser modelados independentemente. Nota: O objetivo desta página é mostrar como usar vários comandos de análise de dados. Não abrange todos os aspectos do processo de investigação que se espera que os investigadores façam. Em particular, não abrange a limpeza e verificação de dados, verificação de suposições, diagnósticos de modelos ou análises de acompanhamento potenciais. Esta página foi atualizada com o SAS 9.2.3. Exemplos de regressão binomial negativa inflacionada a zero Exemplo 1. Administradores escolares estudam o comportamento de comparecimento de alunos do ensino médio em duas escolas. Preditores do número de dias de ausência incluem o sexo do aluno e os resultados dos testes padronizados em matemática e artes da linguagem. Exemplo 2. Os biólogos estaduais da vida selvagem querem modelar quantos peixes estão sendo pescados por pescadores em um parque estadual. Os visitantes são perguntados quanto tempo eles ficaram, quantas pessoas estavam no grupo, houve crianças no grupo e quantos peixes foram capturados. Alguns visitantes não pescam, mas não há dados sobre se uma pessoa pescou ou não. Alguns visitantes que fizeram peixe não pegar qualquer peixe por isso há excesso zeros nos dados por causa das pessoas que não pescar. Descrição dos Dados Vamos buscar o Exemplo 2 acima usando o conjunto de dados fish. sas7bdat. Temos dados sobre 250 grupos que foram a um parque. Cada grupo foi questionado sobre quantos peixes eles pegaram (contagem), quantas crianças estavam no grupo (criança), quantas pessoas estavam no grupo (pessoas) e se traziam ou não um campista para o parque (campista) . Além de prever o número de peixes capturados, há interesse em predizer a existência de zeros em excesso, ou seja, a probabilidade de um grupo pegar zero peixe. Vamos usar as variáveis ​​criança. pessoas . E campista em nosso modelo. Vamos olhar para os dados. Podemos ver, a partir da tabela de estatísticas descritivas acima, que a variância da variável de resultado é bastante grande em relação às médias. Isso pode ser uma indicação de super-dispersão. Métodos de análise que você pode considerar Antes de mostrar como você pode analisar isso com uma análise binomial negativa inflacionada, vamos considerar alguns outros métodos que você pode usar. OLS Regression - Você poderia tentar analisar esses dados usando a regressão OLS. No entanto, os dados de contagem são altamente não-normais e não são bem estimados por regressão OLS. Regressão de Poisson com inflação zero - A regressão de Poisson com inflação zero é melhor quando os dados não são superdispersos, isto é, quando a variância não é muito maior do que a média. Modelos de Contagem Ordinária - Poisson ou modelos binomiais negativos podem ser mais apropriados se não houver excesso de zeros. Análise binomial negativa com inflação zero do SAS usando proc genmod Um modelo com inflação zero pressupõe que o resultado zero é devido a dois processos diferentes. Por exemplo, no exemplo de pesca apresentado aqui, os dois processos são que um indivíduo tem ido pescar vs não ido pesca. Se não foi pescar, o único resultado possível é zero. Se foi pescar, é então um processo de contagem. As duas partes do modelo de inflação zero são um modelo binário, geralmente um modelo logit para modelar qual dos dois processos o resultado zero está associado e um modelo de contagem, neste caso, um modelo binomial negativo, para modelar a contagem processo. A contagem esperada é expressa como uma combinação dos dois processos. Tomando o exemplo da pesca de novo, E (de peixe capturado) prob (não foi pescar) 0 prob (pesca ido) E (pesca de ykgone). Agora vamos construir nosso modelo. Vamos usar as variáveis ​​criança e campista para modelar a contagem na parte do modelo binomial negativo e as variáveis ​​na parte logit do modelo. Os comandos SAS são mostrados abaixo. Tratamos variável campista como uma variável categórica, incluindo-lo na declaração de classe. Isso também fará com que as estimativas pós mais fácil. Neste exemplo particular, nós também explicitamente queremos usar o campista 0 como o grupo de referência. Para esse fim, classificamos os dados em ordem decrescente e usamos a opção de ordem em proc genmod para forçá-lo a tomar o campista 0 como o grupo de referência. A saída tem alguns componentes que são explicados abaixo. Informações do modelo: Informações gerais sobre o conjunto de dados, variável de resultado, distribuição eo número de observações utilizadas no modelo. Informações de Nível de Classe: Para cada variável categórica, o número de níveis e como os níveis são codificados. O último nível exibido será o grupo de referência no modelo. Neste exemplo, será 0. Critérios para avaliar a bondade de ajuste: Estas medidas são geralmente usadas para comparar modelos. Análise de estimativas de parâmetros de máxima verossimilhança: Parte binomial negativa do modelo, estimada usando máxima verossimilhança. Análise da Máxima Verossimilhança Inflação Zero Parâmetro Estimativas: Parte de regressão logística do modelo, para estimar a probabilidade de ser um zero excessivo. Observando os resultados dos parâmetros de regressão, vemos o seguinte: Os preditores criança e campista na parte do modelo de regressão binomial negativa prevendo o número de peixes capturados (contagem) são ambos preditores significativos. A pessoa preditora na parte do modelo logit prediz zeros excessivos é estatisticamente significativa. Para estes dados, a mudança esperada no log (contagem) para um aumento de uma unidade na criança é -1.515255. Isso equivale a uma diminuição de 78 (1 - e -1,515255 .78) na contagem esperada para cada criança adicional na parte que mantém outras variáveis ​​constantes. Os grupos com campistas (campista 1) tiveram um log esperado (contagem) 0.879051 maior do que os grupos sem campistas (campista 0), ou seja, a contagem esperada de peixe para um campista é cerca de 2,41 (e 0,879051 2,41) vezes maior do que para um campista . O log odds de ser um excesso zero diminuiria por 1,67 para cada pessoa adicional no grupo. Em outras palavras, quanto mais pessoas no grupo, menor a probabilidade de que o zero seja devido a não ter ido pescar. Colocá-lo claramente, quanto maior o grupo da pessoa estava, mais provável que a pessoa foi pescar. A estimativa do parâmetro de dispersão é exibida com seu intervalo de confiança. Parece indicação suficiente de sobre dispersão, o que significa que o modelo binomial negativo pode ser mais apropriado. Podemos querer comparar o modelo binomial negativo inflacionado com o modelo binomial negativo simples, que pode ser feito via, por exemplo, o teste de Vuong. Atualmente Vuong teste não é uma parte padrão do proc genmod. Mas um programa macro está disponível a partir de SAS que faz o teste Vuong. Você pode fazer o download deste programa macro seguindo o link e armazená-lo em seu disco rígido. Neste exemplo, salvamos o programa de macro no diretório d: / work / dae e o renomeamos como vuong. sas. Para usar o programa de macro, usamos a instrução include. Este programa macro leva alguns argumentos mostrados abaixo. Voltamos a executar os modelos para obter produzir estes argumentos de entrada necessários. Nós também usamos o armazenamento de instruções para armazenar as estimativas para que possamos fazer pós-estimativa usando o mesmo modelo via proc plm sem ter que executar novamente o modelo. Com o modelo binomial negativo inflacionado, há um total de seis parâmetros de regressão que inclui a interceptação, os coeficientes de regressão para criança e campista e o parâmetro de dispersão para a parte binomial negativa do modelo, bem como o coeficiente de interceptação e regressão para pessoas . O modelo de regressão binomial lisa negativa tem um total de quatro parâmetros de regressão. Os parâmetros de escala (escala1 e escala2) são os parâmetros de dispersão de cada modelo correspondente. A saída acima mostra o teste Vuong seguido pelo teste de sinal Clarke. Os valores positivos das estatísticas Z para o teste de Vuong indicam que ele é o primeiro modelo, o modelo binomial negativo inflacionado, que está mais próximo do modelo verdadeiro. Ambos os testes têm a mesma hipótese nula e acontece que os dois testes não são consistentes entre si levando um suporte fraco para o modelo binomial negativo inflacionado a zero. Agora, vamos tentar entender melhor o modelo usando alguns dos comandos pós-estimativa. Primeiramente, examinamos a distribuição da probabilidade predita de ser um zero excessivo pelo número de pessoas no grupo. Podemos ver que quanto maior o grupo, menor a probabilidade, o que significa mais provável que a pessoa foi pescar. Uma vez que salvamos nosso modelo anterior como m1 anteriormente, usamos proc plm para obter o número previsto de peixes capturados, comparando campistas com não-campistas dado número diferente de crianças. Para obter as contagens de previsão, utilizamos a opção ilink (para ligação inversa). Observe que, por padrão, o SAS corrige o valor da variável predictor de pessoas em seu valor médio. Em seguida, podemos também pedir proc plm para traçar os valores ajustados pela variável campista. Coisas a considerar Aqui estão alguns problemas que você pode querer considerar no curso de sua análise de pesquisa. Pergunta sobre o parâmetro de sobre-dispersão é, em geral, um complicado. Um grande parâmetro de sobre-dispersão poderia ser devido a um modelo de falta de especificação ou poderia ser devido a um processo real com sobre-dispersão. A adição de um problema de sobre-dispersão não melhora necessariamente um modelo de falta de especificação. O modelo zinb tem duas partes, um modelo de contagem binomial negativa e o modelo logit para predizer zeros em excesso, então você pode querer rever estas páginas de Exemplo de Análise de Dados, Regressão Binomial Negativa e Regressão Logit. Como o zinb tem um modelo de contagem e um modelo logit, cada um dos dois modelos deve ter bons preditores. Os dois modelos não precisam necessariamente usar os mesmos preditores. Problemas de predição perfeita, separação ou separação parcial podem ocorrer na parte logística do modelo com inflação zero. Os dados de contagem geralmente usam a variável de exposição para indicar o número de vezes que o evento poderia ter acontecido. Você pode incorporar a exposição em seu modelo usando a opção exposure (). Não se recomenda que modelos binomiais negativos com inflação zero sejam aplicados em amostras pequenas. O que constitui uma pequena amostra não parece estar claramente definido na literatura. Pseudo-R-quadrado valores diferem de OLS R-squareds, consulte FAQ: Quais são pseudo R-squareds para uma discussão sobre este problema. Referências Cameron, A. Colin e Trivedi, P. K. (2009) Microeconometria usando stata. College Station, TX: Stata Press. Long, J. Scott, amp. Freese, Jeremy (2006). Modelos de Regressão para Variáveis ​​Dependentes Categóricas Usando Stata (Segunda Edição). College Station, TX: Imprensa Stata. Long, J. Scott (1997). Modelos de regressão para variáveis ​​categóricas e dependentes limitadas. Thousand Oaks, CA: Publicações Sage. Veja também O conteúdo deste site não deve ser interpretado como um endosso de qualquer site da Web, livro ou produto de software pela Universidade da Califórnia.

No comments:

Post a Comment