Sunday 25 August 2019

Correlações policóricas em stata forex


Eu estou usando Stata 12.0, e Ive baixou o comando polychoricpca escrito por Stas Kolenikov, que eu queria usar com dados que incluem uma combinação de variáveis ​​categóricas e contínuas. Dado o número de variáveis ​​(cerca de 25), meu pressentimento é que eu precisarei gerar mais de 3 componentes. Em última análise, gostaria de gerar um punhado de componentes significativos (em vez de dezenas de variáveis) e usar os componentes como variáveis ​​independentes na regressão logística. Usando polychoricpca. Eu sou capaz de gerar uma tabela que mostra os autovalores e os autovetores (carregamentos) para cada variável apenas para os três primeiros componentes (3). Polychoricpca parece chamar estes coeficientes de pontuação de carga e produz estes para cada nível da variável, de modo que se uma variável possui três categorias, você verá três coeficientes de pontuação (carregamentos) para essa variável. Nunca tendo trabalhado com PCA policoric antes, eu costumava ver apenas um carregamento por variável. Quero examinar esses coeficientes (loadings) para tentar entender quais são os componentes e como eles podem ser rotulados. (1) E se parece que eu deveria gerar 4 componentes Parece que eu não seria capaz de examinar e entender o que é o 4º componente porque não consigo ver como cada um dos itens é carregado nesse 4º componente, apenas os primeiros 3 . Existe uma maneira de ver como cada item carrega em mais do que os três primeiros componentes (2) Posso usar a matriz de correlação policaróica combinada com o comando Statas pcamat para examinar como cada item é carregado em cada componente (a tabela do vetor de auto). Eu pensei que isso poderia ser uma maneira de poder examinar as cargas se eu tiver mais de 3 componentes. A idéia veio dessas postagens de ajuda de estatísticas da UCLA sobre o uso de DNAMall com uma matriz de correlação policaróica. O pcamat em Stata, no entanto, produz apenas 1 carga (coeficiente) por variável, não 1 de carga para cada nível da variável. Qualquer opinião sobre se seria apropriado apenas denunciar o único carregamento do pcamat. Pediu 13 de dezembro 12 às 18: 25 Correlações tetracórdicas, policarólicas, biseriais e polissérias de vários tipos de entrada Descrição A correlação tetracórdica é a correlação Pearson inferida de uma tabela de dois x dois com a suposição de normalidade bivariada. A correlação policírica generaliza isso para a tabela n x m. Particularmente importante ao fazer a Teoria da Resposta do Item ou a conversão de estatísticas de comorbidade usando a teoria normal para as correlações. A entrada pode ser uma tabela 2 x 2 de freqüências celulares, um vetor de freqüências celulares, ou um frame de dados ou matriz de dados dicotômicos (para tetracórficos) ou de dados numéricos (para policarco). A correlação bissexual é entre uma variável y contínua e uma variável dicotônica x, que se supõe ter resultado de uma variável normal dicotomizada. Biserial é um caso especial da correlação polisséria, que é a correlação latente inferida entre uma variável contínua (X) e uma variável categórica ordenada (por exemplo, uma resposta de item). A entrada para estes dois últimos são quadros de dados ou matrizes. A entrada pode ser de uma das quatro formas: a) um quadro de dados ou matriz de dados dicotômicos (por exemplo, o lsat6 do conjunto de dados do bock) ou numérico discreto (ou seja, não muitos níveis, por exemplo, o grande conjunto de dados 5, bfi) para Policarico ou contínuo para o caso de biserial e polisséria. B) uma tabela 2 x 2 de contagem de células ou frequências celulares (para tetracórficos) c) um vetor com elementos correspondentes às quatro frequências celulares (para tetracórdicos) d) um vetor com elementos das duas frequências marginais (linha e coluna) e A comorbidade (para tetracórfico) A (matriz ou quadro de dados) de pontuações discretas. No caso do tetracórtrico, estes devem ser dicotômicos, para os níveis policaróicos não muito numerosos, para serem biseriais, eles devem ser discretos (por exemplo, respostas de itens) com não muito (lt10) categorias. Corrija a continuidade no caso de célula de entrada zero para casos tetracórficos sem variação são excluídos com um aviso antes de prosseguir. As correlações tetrachóricas inferem uma correlação latente de Pearson de uma tabela de frequências de dois x dois com a suposição de normalidade bivariada. O procedimento de estimativa é ML de dois estágios. As frequências celulares para cada par de itens são encontradas. No caso das tetracórdicas, as células com contagem zero são substituídas por .5 como uma correção para a continuidade (REALTRUE). Normalmente, os dados serão uma matriz de dados brutos de respostas a um questionário obtido ou truefalse (tetrachoric) ou com um número limitado de respostas (policarico). Em ambos os casos, as frequências marginais são convertidas em limiares teóricos normais e a tabela resultante para cada par de itens é convertida para a correlação Pearson latente (inferida) que produziria as frequências celulares observadas com os marginais observados. (Veja draw. tetra para uma ilustração.) Esta é uma função muito intensiva em computação que pode ser acelerada consideravelmente usando múltiplos núcleos e usando o pacote paralelo. O número de núcleos a utilizar ao fazer policaróicos ou tetracórdicos. O maior passo em velocidade está passando de 1 núcleo para 2. Isso é cerca de 50 poupanças. Passar para 4 núcleos parece ter cerca de 66 poupanças e 8 de 75 poupanças. O número de processos paralelos é padrão para 2, mas pode ser modificado usando o comando de opções: as opções (quotmc. coresquot4) definirão o número de núcleos para 4. A correlação tetracórdica é usada em uma variedade de contextos, sendo um importante no Item Teoria da resposta (IRT) analisa os resultados dos exames, um segundo na conversão das estatísticas de comorbidade em coeficientes de correlação. É neste segundo contexto que se evidenciam exemplos da sensibilidade do coeficiente às frequências celulares: considere o conjunto de dados de teste de Kirk (1973) que relata a eficácia de um algoritmo ML para a correlação tetracórdica (ver exemplos). Os exemplos incluem os conjuntos de dados lsat6 e lsat7 nos dados do bock. A função policírica forma matrizes de correlações policaróicas usando a função polychor John Foxs ou por uma função local (polyc) e também relatará os valores de tau para cada alternativa. Polychoric substitui poly. mat e é recomendado. Poly. mat é um invólucro alternativo para a função polycor. As correlações biserial e polyserial são as correlações inferiores latentes equivalentes às correlações ponto-biserial e ponto-polyserial observadas (que são elas mesmas apenas correlações de Pearson). A função polyserial é destinada a trabalhar com entrada de matriz ou dataframe e trata dados faltantes, encontrando o par Pearson r corrigido pela probabilidade geral (todos os casos observados) de frequência de resposta. Isso é particularmente útil para os procedimentos SAPA (sapa-project. org) com grandes quantidades de dados ausentes e sem casos completos. Testes de habilidade e matrizes de teste de personalidade geralmente terão uma estrutura mais limpa ao usar correlações tetrachóricas ou policaróicas do que ao usar a correlação Pearson normal. No entanto, se o alfa ou o ômega for usado para encontrar a confiabilidade, isso será uma superestimação da correlação quadrática de uma variável latente da variável observada. Uma correlação biserial (não deve ser confundida com a correlação ponto-biserial que é apenas uma correlação de Pearson) é a correlação latente entre x e y onde y é contínuo e x é dicotômico, mas assumiu representar uma variável normal contínua (não observada). Deixe p probabilidade de x nível 1 e q 1 - p. Deixe zp a ordenada normal da pontuação z associada a p. Então, rbi r s radic (pq) zp. A correlação polyserial ad hoc, rps é apenas r r sqrt (n-1) n) sigma y sum (zpi) onde zpi são as ordenadas da curva normal no equivalente normal dos limites do ponto de corte entre as respostas do item. (Olsson, 1982). Tudo isso foi inspirado (e adaptado) pelo pacote de policarras John Foxs, que deve ser usado para estimativas de ML precisas das correlações. Veja, em particular, a função hetcor no pacote de policar. Particularmente para correlações tetracórdicas de conjuntos de dados com dados faltantes, a matriz às vezes não será definitiva. Várias alternativas de suavização são possíveis, o que é feito aqui é fazer uma decomposição de valor próprio da matriz de correlação, definir todos os valores de eixo negativos para 10.Machinedouble. eps, normalizar os valores de eixo positivos para somar ao número de variáveis ​​e, em seguida, reconstituir A matriz de correlação. Um aviso é emitido quando isso for feito. Para combinações de variáveis ​​contínuas, categóricas e dicotômicas, veja mixed. cor. Se estiver usando dados com um número variável de alternativas de resposta, é necessário usar a opção globalFALSE em polychoric.

No comments:

Post a Comment