quinta-feira, 1 de outubro de 2009

Nas parte da "teoria" que eu descrevo para a previsão de resultados no futebol há um elemento chave: de que o número de gols que um time faz em cada partida pode ser descrito pela estatística de Poisson. Como evidência prá isso, eu apresento dois histogramas construídos com base em dados da copa do mundo de 2002. Deliberadamente, eu escolhi um caso "bom" e um caso "ruim", de modo que o leitor escolha por si próprio se a hipótese é razoável ou não. O problema desse tipo de histograma é que em geral eles são muito ruidosos, pois a incerteza em cada caixinha é proporcional à raiz quadrada do número de eventos nela. As figuras abaixo mostram esses histogramas para cada time até a rodada 26 do Brasileirão série A. As linhas mostram o valor teórico, a partir da distribuição de Poisson para a média aritmética de gols.



Depois fiquei pensando, pô, deve haver uma maneira mais refinada de testar essa hipótese. Fiz o seguinte. Considere os campeonatos brasileiros A e B. Eles duram menos de um ano, e os times se preparam de modo que as condições devem ser mais uniformes do que no caso das seleções mundiais, cujos jogos são espaçados de 4 anos, e que mesmo durante as preparações mudam muito.

Peguei as primeiras 26 rodadas da série A e da série B. Se você construir o histograma da distribuição de gols feitos por *todos* os times, verá que ele não é bem descrito por uma distribuição de Poisson. Mas isso é compreensível, uma vez que a média de gols varia bastante (de um fator maior que 3) de time para time. O que acontece porém, se você simular um certo número de vezes (digamos 100) as primeiras 26 rodadas utilizando a estatística de Poisson *com a média aritmética observada* para cada time?

A Figura abaixo, mostra o resultado para a série A. Os pontos são as observações (ou seja o número de vezes em que ocorreu 0 gols, 1 gols, 2 gols, etc. O histograma é o modelo.
A próxima figura mostra a mesma coisa para a série B.
Assim a olho, parece que a teoria concorda bem com o observado. Utilizando os nossos recém adquiridos conhecimentos de R, podemos fazer uma coisa melhor: comparar quantitativamente a distribuição observada com a distribuição modelada. O teste de Wilcoxon, por exemplo, permite comparar distribuições que não sejam normais para ver se elas são iguais. O resultado do teste é (série A):

> wilcox.test(gols[,2],tgols[,2])

Wilcoxon rank sum test with continuity correction

data: gols[, 2] and tgols[, 2]
W = 13621456, p-value = 0.7599
alternative hypothesis: true location shift is not equal to 0

e para a série B:

> wilcox.test(gols[,2],tgols[,2])

Wilcoxon rank sum test with continuity correction

data: gols[, 2] and tgols[, 2]
W = 13602829, p-value = 0.8027

Os valores p- precisam ser bem pequenos para que as distribuições possam ser consideradas diferentes, o que não ocorre nos nossos casos.

O teste K-S (Kolmogorov-Smirnov) é outra maneira não paramétrica de testar se as distribuições são diferentes, e se baseia na máxima distância vertical entre as ecdf (empirical cumulative distribution function).

> ks.test(gols[,2],tgols[,2])

Two-sample Kolmogorov-Smirnov test

data: gols[, 2] and tgols[, 2]
D = 0.0178, p-value = 0.9967

Temos assim, duas maneiras quantitativas de assegurar que a hipótese de que o número de gols marcado por uma equipe de futebol segue a estatística de Poisson é razoável.

Nenhum comentário:

Postar um comentário