Regressão Linear Múltipla – Eliminação de Dados Espúrios

No post anterior, fiz uma introdução geral sobre o que é a Regressão Linear Múltipla. Hoje, vamos abordar um tema relativamente confuso para quem faz uma regressão, a eliminação de erros grosseiros de medição, pontos fora da curva ou, utilizando uma linguagem mais técnica, a eliminação de dados espúrios da sua base de dados.

Quem já teve que eliminar dados espúrios sabe que há várias formas de fazê-lo, desde ao bom e velho método do olho até métodos mais sofisticados, que envolvem cálculos estatísticos. Hoje, tentarei dar uma luz sobre esse tema, indicando alguns métodos e dando dicas úteis para este processo.

E então? Mãos a obra?

Não há um consenso sobre o que se fazer para tratar dados espúrios, há quem acredite que dado espúrio é para ser removido, e há quem acredite que dado espúrio tem que permanecer na base de dados, analisando-se quanto a sua importância. Eu vou escrever um roteiro básico de como eu faço para tratar dados espúrios e a cada ponto vou descrever métodos práticos para análise.

  • Erros grosseiros notórios

Erros grosseiros são aqueles erros que comprovadamente foram causados por imprevistos, fontes involuntárias de erros, problemas em instrumentos de medição, operação, ou do operador que realiza o experimento, ou seja, todo fator externo, estranho ao experimento, que interfira diretamente no resultado da medição.

Para estes casos, eu sugiro, quando possível for, a repetição do experimento nas mesmas condições do dado espúrio. Este procedimento facilita a detecção de erros de leitura, erros de anotação e/ou digitação ou a detecção de condições inapropriadas na hora da realização do experimento, caso contrário, a remoção do ponto é recomendada, tendo registrado o motivo de sua remoção.

É sempre bom ter catalogado as fontes de erro dos experimentos, pois, segundo Schwaab e Pinto [1], estes são fontes valiosas de informações sobre o experimento e pode ajudar a entender porque aquele ponto que deveria estar certo, quando tudo aparentemente dá certo, não fica ajustado pelo modelo obtido.

  • Análise de dados espúrios

Nem sempre os erros grosseiros são perceptíveis. Mesmo com todas as variáveis do experimento controladas pela pessoa que o executará, falhas poderão surgir durante a sua execução. Alguns exemplos são: falhas em instrumentos, erros sistemáticos (a popular “descalibrada”), campos magnéticos próximos a instrumentos e a incerteza natural do instrumento de medição (já que nada é perfeito neste ramo).

Para estes casos há métodos de detecção de dados espúrios pela simples análise dos dados obtidos no experimento. Vou exemplificar dois destes métodos, o “Método dos Quartis” e o “Teste de Chaveunet”. O primeiro é mais utilizado para evidenciar quais pontos são potenciais dados espúrios, cabendo a você excluí-los ou não. O segundo faz um teste estatístico para saber se determinado ponto é espúrio ou não.

  • Método dos Quartis

No livro do Himmelblau [2], encontra-se o Método dos Quartis que consiste em analisar o quão distantes estão os extremos da sua base de dados (mínimo e máximo) do 1º e do 3º quartil. Basicamente, um ponto é considerado um dado espúrio, e deve ser removido da base de dados, se:

  • \(x \gt Q_{\frac{3}{4}} + 3,0 \cdot IEQ\) ou;
  • \(x \lt Q_{\frac{1}{4}} – 3,0 \cdot IEQ\);

E ele é um potencial dado espúrio, e cabe ao operador a decisão, se:

  • \(Q_{\frac{3}{4}} + 1,5 \cdot IEQ \lt x \lt Q_{\frac{3}{4}} + 3,0 \cdot IEQ\) ou;
  • \(Q_{\frac{1}{4}} – 3,0 \cdot IEQ \lt x \lt Q_{\frac{1}{4}} – 1,5 \cdot IEQ\);

Onde \(IEQ = Q_{\frac{3}{4}} – Q_{\frac{1}{4}}\).

Vamos a um exemplo?

3 Comments

  • gildemar

    gostaria que tivesse ilustrações. Gosto de gráficos…

    Navegador: Unknown em Unknown O.S.
    • Marcos Narciso

      Gildemar
      Adicionei um gráfico para melhor entendimento do Método dos Quartis. Como o Critério de Chauvenet é um teste de hipótese, não acho válido um gráfico.

      Navegador: Unknown em Unknown O.S.
  • Almerinda Pereira

    Gostei muito do artigo. Indico, adicionalmente, norma ASTM que compila várias metodologias para tratamento de dados espúrios. A norma traz, tambem, uma referência bibliográfica interessante.

    ASTM – E-178 – 80 (re-approved 1989). Standard Practice for Dealing with Outlying Observations

    Almerinda Pereira

    Navegador: Unknown em Unknown O.S.