Regressão linear aplicada no dia a dia
- Insignia Partners
- 1 de set. de 2024
- 2 min de leitura
Entre os muitos métodos estatísticos sofisticados que podemos usar hoje em dia, amplificados pela disponibilidade de dados e capacidade de processamento, há um relativamente simples que não pode ser esquecido: a boa e velha regressão.
Confesso que, na primeira vez que apliquei regressões no trabalho (quase 20 anos atrás...), não entendia muito bem todos os conceitos, mas ouvi de alguém algumas "verdades absolutas":
O R² tem que ser maior que 80%.
É necessário mais de 80 data points para a regressão ter validade.
Essas "verdades" vieram de algum lugar, e não estão completamente erradas, mas... não é bem assim que as coisas funcionam, como fui entender melhor durante meu MBA (com o grande professor David Juran).
É importante entender o que cada elemento de uma regressão significa, com os principais sendo:
O R² (coeficiente de determinação) mede quanto das variações da variável dependente são explicadas pelas variações da(s) variável(eis) independente(s). Um R² de 80%, por exemplo, significa que 80% das variações de uma "coisa" são explicadas por variações de outra(s). E adicionando, um R² alto nem sempre significa que o modelo é bom, pois pode indicar que ele está superajustado (overfitting) aos dados, especialmente se houver muitas variáveis independentes.
O p-value mostra o quão significante é a relação estatística identificada. O padrão é usar um intervalo de confiança de 95% – ou seja, um p-value menor que 5% indica que a relação é significativa com 95% de confiança.
Portanto, há situações em que um R² baixo pode ser bom (desde que o p-value seja menor que 5%). Em casos onde há forte influência de fatores "aleatórios" (como fatores culturais, por exemplo), uma variável que explica "apenas" 20% de outra pode ser extremamente útil.
Já o número de data points, quando muito baixo, pode aumentar o p-value, o que, dentro do intervalo de confiança padrão, compromete a qualidade da regressão.
Um exemplo prático: durante o MBA, fizemos um estudo sobre o "valor teórico" que uma pessoa tem para um cassino. Queríamos entender o que explicava esse valor (o método de cálculo dele não vem ao caso aqui). Analisamos diversas variáveis: gênero, idade, frequência de visita... Após rodarmos uma regressão multivariável, vários fatores se mostraram irrelevantes para a variável dependente. E, os fatores relevantes (principalmente sexo e idade), explicavam "apenas" 3% (R²).
A princípio, parecia que a regressão "não era boa o bastante", mas, mesmo com R² baixo, houve diferenças estatisticamente significantes entre homens e mulheres. Isso significa que, embora não possamos prever o valor de um indivíduo específico, podemos fazer inferências com segurança sobre grupos maiores – como as próximas 10.000 mulheres ou 10.000 homens que entrarem no cassino. Naquele caso, as mulheres "valiam mais" e poderiam ser um grupo alvo para ações de marketing, por exemplo.
Entre em contato conosco através de contato@insigniapartners.com.br e descubra como podemos contribuir para o sucesso de sua estratégia.

Bruno Bullio
Associate Partner
Bruno tem 15 anos de experiência em consultoria estratégica com foco em varejo e bens de consumo, com atuação no Brasil e na América Latina.
留言