Monday 11 September 2017

Desvio Padrão Médio Móvel Ponderado Exponencialmente


Oi Eu coletei alguns dados de processo por 3 anos e eu quero imitar uma análise prospectiva EWMA, para ver se o meu parâmetro de suavização set teria detectar todas as mudanças importantes (sem muitos alarmes falsos). Parece que a maioria dos livros didáticos e literatura que eu olhei que usam uma média e desvio padrão para calcular os limites de controle. Esta é geralmente a média em-controle e desvio padrão de alguns dados históricos, ou a média e sd da população a partir da qual as amostras são desenhadas. Eu não tenho nenhuma informação. Existe uma outra maneira de calcular os limites de controle Existe uma variação da tabela EWMA que não usa a média eo desvio padrão Quaisquer idéias criativas Obrigado antecipadamente Para ter certeza de entender isso: você poderia calcular a média EWMA e variância, mas você Não tem uma linha de base para compará-los. Parece-me que você tem uma técnica supervisionada (o que pressupõe que você pode definir o que ele deve ser), mas você quer uma técnica não supervisionada (que só procura diferenças sem chamar um estado quotgoodquot e outro Quotbadquot). Para técnicas não supervisionadas, clustering vem à mente, mas ele teria que ser modificado para se aplicar a timeseries. Como cerca de Razão de verossimilhança Generalizada (GLR) ndash Jim Pivarski Jun 25 14 at 2:49 Se nos referimos a en. wikipedia. orgwikiEWMAchart. Posso calcular o Zi para o meu dado lambda, mas quando se trata dos limites de controle, eu não tenho dados históricos para calcular o T e S. Obrigado vou olhar em GLR e também postar em Cross Validated. Sim, T e S são a média eo desvio padrão de uma distribuição de linha de base, que é dada a priori ou determinada a partir de um conjunto de dados de treinamento. O conjunto de dados de treinamento representa o que os dados devem ser parecidos, portanto, esta é uma técnica supervisionada e você quer uma técnica não supervisionada. O GLR não é ponderado exponencialmente, mas encontra dinamicamente uma quebra nos dados entre duas distribuições diferentes e combina dados de cada lado da quebra para obter resultados mais robustos. Poderia ser o que você quer. Ndash Jim Pivarski Jun 25 14 at 3:00 A partir de uma perspectiva prática operacional, o uso de análise estatística de dados históricos por si só, é raro. Sim, ele fornece algumas orientações sobre como o processo (e seu sistema de controle) estão realizando, porém a coisa mais importante é de longe ter um bom entendimento e conhecimento dos limites de engenharia. Refiro-me aos limites operacionais, que são determinados pelas especificações e características de desempenho dos vários equipamentos. Isso permite que se desenvolva um bom entendimento de como o processo deve comportar-se (em termos de pontos de operação óptimos e limites de controle superiores) e onde as áreas de maior desvio do ótimo são. Isso tem muito pouco a ver com a análise estatística de dados históricos, e muito a ver com a metalurgia de engenharia de processo - dependendo do tipo de processo que você está lidando. Os limites de controle são determinados, em última instância, pelo que o Process Manager Process Engineer WANTS, que normalmente são (mas nem sempre) dentro da capacidade da placa de identificação do equipamento. Se você está trabalhando dentro dos limites operacionais, e você está no domínio da otimização de processos, então sim, a análise estatística é mais amplamente utilizado e pode oferecer uma boa visão. Dependendo da variabilidade do seu processo, do quão bem seu sistema de controle está configurado e da homogeneidade do seu produto de alimentação, os limites de controle superiores selecionados variam. Um bom ponto de partida é o ponto de operação ideal (por exemplo, 100 m3hr), então use uma quantidade razoável de dados históricos para calcular um desvio padrão, e faça seu limite superior 100 1 dev padrão eo seu limite inferior 100-1 padrão dev. Esta não é uma regra dura e rápida, mas é um ponto de partida sensato. Respondeu 7 de fevereiro às 12: 12whuber - Isso é errado, como você suspeita. É correto se os pesos próprios são freqüências. Mas embora as freqüências entrem na computação das porcentagens neste caso, os pesos, embora não especificados, não são freqüências de ocorrência, mas algo mais a ver com o volume de quotdata. Então esta é a resposta errada. Ndash Rex Kerr Sep 8 15 at 17:50 As fórmulas estão disponíveis vários lugares, incluindo a Wikipedia. A chave é notar que depende do que os pesos significam. Em particular, você obterá respostas diferentes se os pesos forem freqüências (ou seja, você está apenas tentando evitar a soma de toda a sua soma), se os pesos são de fato a variância de cada medida, ou se eles são apenas alguns valores externos que você impõe seus dados. No seu caso, ele superficialmente parece que os pesos são freqüências, mas theyre não. Você gera seus dados de freqüências, mas não é uma simples questão de ter 45 registros de 3 e 15 registros de 4 em seu conjunto de dados. Em vez disso, você precisará usar o último método. (Na verdade, tudo isso é lixo - você realmente precisa usar um modelo mais sofisticado do processo que está gerando esses números Você aparentemente não tem algo que cuspe Normalmente distribuídos números, assim caracterizando o sistema com o desvio padrão é Não a coisa certa a fazer.) Em qualquer caso, a fórmula para a variância (a partir da qual você calcula o desvio padrão da maneira normal) com pesos de confiabilidade é onde x soma wi xi soma wi é a média ponderada. Você não tem uma estimativa para os pesos, que eu estou supondo que você quer tomar para ser proporcional à confiabilidade. Tomando porcentagens do jeito que você está vai fazer a análise complicada, mesmo se theyre gerado por um processo Bernoulli, porque se você obter uma pontuação de 20 e 0, você tem porcentagem infinita. Ponderação pelo inverso do SEM é uma coisa comum e às vezes ótima a fazer. Talvez você deva usar uma estimativa bayesiana ou intervalo de pontuação de Wilson. Respondeu Set 8 15 at 17:48 1. A discussão dos diferentes significados de pesos foi o que eu estava procurando neste segmento o tempo todo. É uma contribuição importante para todas as perguntas deste site sobre estatísticas ponderadas. (Eu estou um pouco preocupado com as observações entre parênteses sobre distribuições normais e desvios padrão, embora, porque sugerem incorretamente que SDs não têm nenhum uso fora de um modelo baseado na normalidade.) Ndash w huber 9830 Sep 8 15 at 18:23 whuber - Bem , Teorema do limite central para o resgate, é claro Mas para o que o OP estava fazendo, tentando caracterizar esse conjunto de números com uma média e desvio padrão parece extremamente desaconselhável. E, em geral, para muitos usos o desvio padrão acaba atraindo um em um falso sentimento de compreensão. Por exemplo, se a distribuição é algo normal (ou uma boa aproximação dela), confiar no desvio padrão lhe dará uma má idéia da forma das caudas, quando é exatamente as caudas que você provavelmente mais se preocupam em estatística Testes. Ndash Rex Kerr Sep 8 15 at 19:44 RexKerr Nós não podemos culpar o desvio padrão se as pessoas colocam interpretações nele que são imerecidas. Mas vamos embora da normalidade e consideramos a classe muito mais ampla de distribuições unimodais contínuas e simétricas com variação finita (por exemplo). Em seguida, entre 89 e 100 por cento da distribuição está dentro de dois desvios padrão. Muitas vezes, é bastante útil saber (e 95 está muito bem no meio, então ele nunca mais do que cerca de 7 fora) com muitas distribuições comuns, o aspecto de simetria caindo não muda muito (por exemplo, veja a exponencial, por exemplo). Ctd ndash Glenb 9830 Oct 1 15 at 23: 57Exploring A Volatilidade Média Móvel Ponderada Exponencialmente é a medida mais comum de risco, mas vem em vários sabores. Em um artigo anterior, mostramos como calcular a volatilidade histórica simples. (Para ler este artigo, consulte Usando a volatilidade para medir o risco futuro.) Usamos os dados reais do estoque do Google para computar a volatilidade diária com base em 30 dias de dados de estoque. Neste artigo, melhoraremos a volatilidade simples e discutiremos a média móvel exponencialmente ponderada (EWMA). Histórico vs. Volatilidade implícita Primeiro, vamos colocar esta métrica em um pouco de perspectiva. Há duas abordagens gerais: volatilidade histórica e implícita (ou implícita). A abordagem histórica pressupõe que o passado é um prólogo que medimos a história na esperança de que ela seja preditiva. A volatilidade implícita, por outro lado, ignora a história que resolve pela volatilidade implícita nos preços de mercado. Espera que o mercado conheça melhor e que o preço de mercado contenha, mesmo que implicitamente, uma estimativa consensual da volatilidade. Se focarmos apenas as três abordagens históricas (à esquerda acima), elas têm duas etapas em comum: Calcular a série de retornos periódicos Aplicar um esquema de ponderação Primeiro, nós Calcular o retorno periódico. Isso é tipicamente uma série de retornos diários onde cada retorno é expresso em termos continuamente compostos. Para cada dia, tomamos o log natural da razão dos preços das ações (ou seja, preço hoje dividido pelo preço de ontem, e assim por diante). Isso produz uma série de retornos diários, de u i para u i-m. Dependendo de quantos dias (m dias) estamos medindo. Isso nos leva ao segundo passo: é aqui que as três abordagens diferem. No artigo anterior (Usando a Volatilidade para Avaliar o Risco Futuro), mostramos que, sob algumas simplificações aceitáveis, a variância simples é a média dos retornos quadrados: Note que isto soma cada um dos retornos periódicos e depois divide esse total pela Número de dias ou observações (m). Então, é realmente apenas uma média dos retornos periódicos quadrados. Dito de outra forma, cada retorno ao quadrado é dado um peso igual. Portanto, se alfa (a) é um fator de ponderação (especificamente, um 1m), então uma variância simples é algo como isto: O EWMA Melhora na Variância Simples A fraqueza desta abordagem é que todos os retornos ganham o mesmo peso. O retorno de ontem (muito recente) não tem mais influência na variância do que nos últimos meses. Esse problema é corrigido usando-se a média móvel exponencialmente ponderada (EWMA), na qual retornos mais recentes têm maior peso na variância. A média móvel exponencialmente ponderada (EWMA) introduz lambda. Que é chamado de parâmetro de suavização. Lambda deve ser inferior a um. Sob essa condição, em vez de pesos iguais, cada retorno ao quadrado é ponderado por um multiplicador da seguinte forma: Por exemplo, RiskMetrics TM, uma empresa de gestão de risco financeiro, tende a usar um lambda de 0,94 ou 94. Neste caso, o primeiro Mais recente) é ponderado por (1-0.94) (. 94) 0 6. O próximo retomo ao quadrado é simplesmente um lambda-múltiplo do peso anterior neste caso 6 multiplicado por 94 5.64. E o terceiro dia anterior peso é igual a (1-0,94) (0,94) 2 5,30. Esse é o significado de exponencial em EWMA: cada peso é um multiplicador constante (isto é, lambda, que deve ser menor que um) do peso dos dias anteriores. Isso garante uma variância que é ponderada ou tendenciosa em direção a dados mais recentes. (Para saber mais, consulte a Planilha do Excel para a Volatilidade do Google.) A diferença entre simplesmente volatilidade e EWMA para o Google é mostrada abaixo. A volatilidade simples pesa efetivamente cada retorno periódico em 0.196, como mostrado na coluna O (tivemos dois anos de dados diários sobre os preços das ações, ou seja, 509 retornos diários e 1509 0.196). Mas observe que a Coluna P atribui um peso de 6, então 5.64, então 5.3 e assim por diante. Essa é a única diferença entre a variância simples e EWMA. Lembre-se: Depois de somarmos toda a série (na coluna Q) temos a variância, que é o quadrado do desvio padrão. Se queremos a volatilidade, precisamos nos lembrar de tomar a raiz quadrada dessa variância. Sua significativa: A variância simples nos deu uma volatilidade diária de 2,4, mas a EWMA deu uma volatilidade diária de apenas 1,4 (veja a planilha para mais detalhes). Aparentemente, volatilidade Googles estabeleceu-se mais recentemente, portanto, uma variância simples pode ser artificialmente elevado. A variação de hoje é uma função da variação dos dias de Pior Você observará que nós necessitamos computar uma série longa de pesos exponencial declinando. Nós não vamos fazer a matemática aqui, mas uma das melhores características do EWMA é que a série inteira convenientemente reduz a uma fórmula recursiva: Recursivo significa que as referências de variância de hoje (ou seja, é uma função da variação de dias anteriores). Você pode encontrar esta fórmula na planilha também, e produz o mesmo resultado exato que o cálculo de longhand Diz: A variância de hoje (sob EWMA) iguala a variância de ontem (ponderada por lambda) mais o retorno ao quadrado de ontem (pesado por um lambda negativo). Observe como estamos apenas adicionando dois termos juntos: ontem variância ponderada e ontem ponderado, retorno ao quadrado. Mesmo assim, lambda é o nosso parâmetro de suavização. Um lambda mais alto (por exemplo, como o RiskMetrics 94) indica um declínio mais lento na série - em termos relativos, vamos ter mais pontos de dados na série e eles vão cair mais lentamente. Por outro lado, se reduzimos o lambda, indicamos maior decaimento: os pesos caem mais rapidamente e, como resultado direto da rápida decomposição, são usados ​​menos pontos de dados. (Na planilha, lambda é uma entrada, para que você possa experimentar com sua sensibilidade). Resumo A volatilidade é o desvio padrão instantâneo de um estoque ea métrica de risco mais comum. É também a raiz quadrada da variância. Podemos medir a variância historicamente ou implicitamente (volatilidade implícita). Ao medir historicamente, o método mais fácil é a variância simples. Mas a fraqueza com variância simples é todos os retornos obter o mesmo peso. Então, enfrentamos um trade-off clássico: sempre queremos mais dados, mas quanto mais dados tivermos, mais nosso cálculo será diluído por dados distantes (menos relevantes). A média móvel exponencialmente ponderada (EWMA) melhora a variância simples atribuindo pesos aos retornos periódicos. Ao fazer isso, podemos usar um grande tamanho de amostra, mas também dar maior peso a retornos mais recentes. (Para ver um tutorial de filme sobre este tópico, visite o Bionic Turtle.)

No comments:

Post a Comment