Correlação e Causalidade
Correlação e Causalidade são conceitos da Estatística. Ainda que eu não tenha formação nesta área, muitas vezes nas análises que faço é importante entender a diferença entre estes conceitos.
O que é causalidade
Causalidade é a relação entre uma causa e um segundo evento, efeito desta causa, onde o segundo evento é consequência do primeiro.
Na verdade é difícil afirmar a causalidade com certeza absoluta.
O que usamos para aferir causa é a se conseguimos reproduzir a relação de causa e efeito em outros eventos. Um exemplo é a indústria do tabaco que não pode afirmar que a correlação entre fumar e o câncer de pulmão não sejam necessariamente causalidade, porque existem várias de evidências científicas a favor desta relação de causa entre o fumar e casos de câncer no pulmão.
Para aferir causa é importante ser capaz de explicar a relação entre as duas métricas e reproduzir e ser capaz de validar a explicação, com um experimento e acompanhamento dos resultados.
O que é correlação
Correlação é uma métrica da associação entre duas métrica. Ela pode ser calculada no excel com a fórmula CORREL.
Mais informações no Suporte do Office
Ela indica o quanto estas métricas caminham juntas ao longo do tempo, por exemplo. Correlações acima de 0,60 normalmente já indicam forte correlação entre os dados. No entanto uma correlação não implica necessariamente uma causa.
Um exemplo é o gráfico abaixo:
No gráfico é apresentada a correlação entre a taxa de divórcios em Maine nos Estados Unidos e o consumo de margarina per capta. Ainda que tenham uma correlaçào de 99,26%, não podemos implicar que por que as pessoas consomem mais margarina elas se divorciam mais.
No site Spurious Correlations existem diversos gráficos mostrando correlações espúrias, quando a correlação existe por puro acaso, porém não existe nem causalidade entre os dois eventos e nem um causa em comum, como número de afogamentos em piscinas e o número de vezes que Nicholas Cage aparece em filmes (!?).
Conclusão
No entanto na nossa vida de analistas resta pouco tempo para grandes experimentos e testes científicos, com isso, muitas vezes trabalhamos com correlações no nosso dia a dia. O que não é um grande problema, uma vez que tenhamos ciência destes conceitos.
Por exemplo, o Netflix pode aumentar seus investimentos em dias de chuva se mais usuários costumam ficar em casa quando chove e assistem suas séries. Ou que a produtividade de uma empresa de delivery aumenta nos dias de frio. Ainda que sejam correlações onde podemos até explicar a causa entre os eventos, não temos tempo de fazer experimentos para validar tudo isso, mas não nos impede de usarmos essa informação na nossa estratégia.