sexta-feira, 30 de outubro de 2009

Brasileirão série A, rodada #32 completa


Nas simulações que realizei ontem, não testei a opção mais otimista para os palmeirenses: de que o time ganhasse com um bom placar e que o Fluminense ganhasse também. Pois foi o que aconteceu. Agora, as chances para a configuração final do campeonato têm o seguinte resumo:

As colunas mostram, respectivamente, o nome dos times, a média instantânea de gols, o número de pontos ao final, a probabilidade (%) de ser campeão, de ir para a libertadores, de ir para a sulamericana, e de ser rebaixado. O concorrente direto do Palmeiras ao título passa a ser o SPFC. Na zona de rebaixamento, pela primeira vez em muitas rodadas, um time que não o Flu apresenta chance de ser o último, o Sport. Isso pode ser visto de forma mais clara nos gráficos abaixo, que mostram a probabilidade percentual em função da posição final (1-20) para cada time.

quinta-feira, 29 de outubro de 2009

Complemento da rodada #32

A rodada 32 da série A termina hoje, sendo os dois jogos mais importantes Palmeiras x Goiás e Fluminense x Atlético-MG. Tendo em vista a vitória do SPFC ontem diante do Internacional, as chances de ser campeão, para os quatro principais candidatos, ficam assim, dependendo dos resultados de hoje:

As primeiras 4 colunas mostram possíveis resultados na noite de hoje, e as 4 últimas colunas mostram a chance (%) de ser campeão para cada clube. Pode-se ver que em qualquer cenário, a derrota do Inter ontem lhe custou caro. Para o Palmeiras, naturalmente que os cenários mais favoráveis são aqueles em que o Atlético-MG perca. Para ilustrar a dependência dos resultados com o número de gols, coloquei os casos de empate por 0 x 0 e empate por 3 x 3 no primeiro jogo. As diferenças são significativas, uma vez que uma das hipóteses importantes no programa de previsão de resultados é a média instantânea de gols.

A previsão sem os resultados desta noite é mostrada abaixo, sempre com a identificação do time, a média instantânea de gols, o número de pontos predito para o final do campeonato, a probabilidade (%) de ser campeão, de ir para a Libertadores, Sulamericana, e de ser rebaixado.

É interessante notar nessa simulação como o número de pontos ao final é baixo, apenas 63, sendo o campeão decidido pelos critérios de saldo de vitórias e de gols entre tres times. Naturalmente, esta situação particular vai mudar com o encerramento da rodada, logo mais à noite.

terça-feira, 27 de outubro de 2009

Brasileirão serie A. Rodada # 31 completa

O final do campeonato se tornou bem interessante com as derrotas seguidas do Palmeiras. Com os resultados da rodada 31, a situação ficou assim:

Em termos de probabilidade de ser campeão, dá para dizer que Palmeiras, Internacional, Atlético-MG têm chances iguais, aproximadamente de 25% cada um. Um pouco menos favorecidos estão São Paulo e Flamengo, que dividem o 1/4 restante. Curiosamente, a igualdade no G4 tem uma outra consequência: mesmo Goiás e Cruzeiro apresentam chances nada desprezíveis de ir para a Libertadores. Na rabeira, uma reviravolta que vinha se desenhando há algumas rodadas: o Náutico neste momento é mais candidato a ficar na série A do que o Botafogo.
A próxima rodada tem pelo menos dois jogos cruciais: numa ponta, SPFC x Inter, e na outra Botafogo x Náutico. Naturalmente, qualquer pretensão do Palmeiras ao título passa por ganhar do Goiás.

quinta-feira, 22 de outubro de 2009

Processo de Poisson não-homogêneo

Imagine que você estivesse fazendo um experimento de contagem de fótons, e que na média, por intervalo de tempo de integração, obtivesse 1.533 fótons.
Qual é a probabilidade de se obter 3 integrações consecutivas com zero contagens? Simples de calcular, basta usar a fórmula de Poisson, dá 1%.

No primeiro jogo da rodada #31 do Brasileirão série A, tivemos ontem o terceiro zero consecutivo do Palmeiras. Que análise podemos fazer a respeito?
Em primeiro lugar, precisamos notar que esse tipo de sequência já aconteceu com outros times. Atlético-PR, Avaí, Corinthians, Fluminense, Internacional, Náutico (além de uma sequência de 5 jogos com zero gols) e Vitória. Portanto, oito times dos vinte que competem no campeonato.

Não é preciso ser muito perspicaz para ver que pela média aritmética de gols simplesmente, o número de ocorrências é muito grande. No caso do Inter, por exemplo, o número é gritante. Com uma média aritmética de 1.767 gols/partida, a probabilidade de se ter uma sequência de 3 jogos sem marcar é de 0.5% apenas.

Nas palavras de Tom Loredo, durante nosso curso de Astroestatística, nesse caso, deve estar ocorrendo um processo poissônico não-homogêneo, em outras palavras, a taxa média dos eventos em questão deve ser variável.

Podemos testar essa hipótese? Sim! Um teste simples pode ser feito da seguinte maneira. O nosso programa de simulação do torneio busca a solução de máxima verossimilhança para a *média instantânea* de gols de cada time, a cada rodada, e nós podemos examiná-la para recalcular a probabilidade da sequência de 3 zeros.

Vejamos o que acontece em alguns dos casos mencionados. O Corinthians, por exemplo, teve a sequência de zeros nas rodadas 16, 17 e 18. A média "instantânea" de gols nas rodadas 15, 16 e 17, de acordo com o programa, era de 0.612, 0.522 e 0.538 gols/partida. Esses números fazem com que a chance de se obter 3 partidas consecutivas sem marcar gols aumente para 19%, o que comparado aos 2% que se obteria com a média aritmética é muito diferente. Mesmo os casos do Avaí e Internacional, que apresentam valores elevados da média aritmética (1.567 e 1.767, respectivamente) passam a ter chances da ordem de 6% de obter tais sequências.

No caso do Palmeiras, as médias instantâneas indicam que a sequência de 3 partidas sem gols tinha chance de 10% de ocorrer. Esperemos que a sequência termine por aí.

O prognóstico para o resultado final, levando em conta esse resultado, fica assim:

As colunas mostram o time, a média instantânea de gols, a chance (%) de ser o campeão, de ir para a libertadores, sulamericana, e de ser rebaixado. A situação melhorou muito para Inter e Atlético-MG, e mesmo Flamengo e Goiás passam a ter chances não desprezíveis de chegar lá. Na zona do rebaixamento, nada mudou.

quarta-feira, 21 de outubro de 2009

Brasileirão série B, rodada #31 completa

Rodada fantástica para o Vasco. Apesar do susto, conseguiu ganhar do ABC-RN por 3 x 2. Melhor ainda, o Guarani perdeu para o Paraná. Com isso, as chances do Vaxxxxcão ser o campeão da série B foram para 77%. Agora, garantidos na série A de 2010, temos Vasco e Guarani. A rodada também não foi ruim para a Portuguesa, uma vez que o Figueirense perdeu para o Vila Nova. Sua chance de subir para a série A passou a ser 20%, a metade do correspondente ao Figueirense.

segunda-feira, 19 de outubro de 2009

Brasileirão série B. Rodada #30 completa.

A série B continua mais embolada -- com a previsão de que o campeão ultrapasse os 70 pontos. No entanto, ele está longe de definido. 50% de chance para o Vasco, 38% de chance para o Guarani. A briga pela quarta posição no G4 também está bonita, com Figueirense acumulando 64% de chance e Atlético-GO 41% de subir para a série A. A Portuguesa, pretendente seguinte, tem apenas 10% de chance de subir.

Brasileirão série A. Rodada #30 completa.

Palmeiras desperdiça excelente chance, e queima parte da gordurinha que tinha disponível. Agora, Internacional e Atlético-MG se aproximam, com chances razoáveis (16% e 14%, respectivamente) de chegarem em primeiro, e a chance do verdão cai para 53%. A novidade da rodada é o Flamengo, com quase 40% de chance de ir para a Libertadores. No outro extremo, a coisa não mudou substancialmente, mas o Botafogo brinca com o fogo, e tem quase 40% de chance de ser um dos rebaixados. A tabela abaixo resume a previsão após a 30a. rodada.

As colunas são, respectivamente, o time, a média instantânea de gols (ver teoria lá no começo), pontuação ao final do campeonato, chance (%) de ser campeão, de ir para a libertadors, para a sulamericana e de ser rebaixado.

A probabilidade (%) em função da colocação (1 a 20), fica assim:


quarta-feira, 14 de outubro de 2009

Quem prevê melhor? Chico ou o Chance de Gol?

O site www.chancedegol.com.br tem uma informação que permite comparar o desempenho do meu oráculo com o dele. Trata-se de uma página que contém os jogos já realizados, mostrando a probabilidade de vitória, empate e derrota, e marcado com a cor azul o resultado observado. Isso permite comparar facilmente quantos resultados em cada rodada uma ou outra previsão acerta. Utilizei apenas os resultados da rodada 5 até a 29, para permitir que qualquer procedimento que se baseasse em rodadas passadas estabilizasse.
As duas colunas da direita são o número de acertos a cada rodada. O meu programa acertou mais resultados 12 vezes, acertou o mesmo número de resultados 9 vezes, e apenas 4 rodadas foi pior! Well done, Chico!

terça-feira, 13 de outubro de 2009

O "fator casa"

Quando comecei a pensar em incorporar o "fator casa" ao meu programa de previsão de resultados para as séries A e B do brasileirão, não imaginava que fosse uma coisa tão bem estudada. Se você procurar no Google por "home advantage", vai achar um monte de referências para vários esportes. Há uma monografia da Faculdade de Desporto da Universidade do Porto, de Ivo Gonçalo Madeira Fontes, que contém 150 páginas sobre o assunto. Na página da Wiki, aparece um ranking dos times de futebol ordenados por "fator casa", e a Bolívia tem o mais alto. A seleção brasileira provou o gostinho desse fator no domingo passado.

Em termos práticos, podemos quantificar o fator casa, numa primeira aproximação, de uma maneira simples: calculamos a média de gols fora de casa e a dividimos pela média total de gols. Os números surpreendem: apenas 2 clubes da série A têm esse número (ligeiramente) menor que a unidade. A média é 1.18+/-0.17. Na série B, a média é 1.20+/-0.15. Os histogramas correspondentes são mostrados abaixo.


O "fator casa" pode, portanto, ser caracterizado objetivamente. A maneira mais simples de incorporá-lo ao programa de previsão de resultados é multiplicar a estimativa de média instantânea de gols de um time por esse fator quando o confronto é em casa, ou dividir a média instantânea pelo mesmo fator quando o jogo é fora. Deve-se ter algum cuidado para evitar que flutuações produzam valores muito altos desse fator (exemplo: o Grêmio neste campeonato). Tudo indica que limitar o "fator casa" à faixa [1.0, 1.2] é seguro.

Brasileirão, série A -- rodada #29 completa

Palmeiras perde excelente chance de se distanciar ainda mais dos concorrentes e volta à situação da rodada #27, com cerca de 70% de chance de ser o campeão. Agora o prognóstico para o final do campeonato, em termos de chances percentuais é o seguinte:

Na rabeira, a situação também não muda muito, exceto que a boa vitória do Náutico, com muitos gols, melhora sua média instantânea e coloca pressão sobre o Botafogo, que tem quase 30% de chance de ser rebaixado.

Os histogramas de chance em função da posição ao final do campeonato também vão se estreitando. No final, pretendo fazer um gif animado, rodada a rodada, para a gente ver a evolução de todos simultaneamente.


sexta-feira, 9 de outubro de 2009

Brasileirão, série A -- rodada #28 completa

A situação não mudou muito com relação à rodada anterior. O Palmeiras agora tem 77% de chance de ser campeão, seguido de Inter (9%), Atlético-MG (6%), Goiás (4%) e SPFC (4%). Na zona de rebaixamento, 4 times estão praticamente definidos: Flu (99%), Sport (91%), Náutico (90%) e Santo André (81%). Tudo indica que o Botafogo escapa, embora sua chance de cair ainda seja 23%. É interessante notar que o favoritismo do Palmeiras pode ser traduzido em outros números também: as chances de chegar em segundo lugar contra chegar em primeiro são de 20:100. Isto é mais extremo do que a razão de probabilidades de o Flu chegar em penúltimo contra chegar em último, que no momento é de 33:100.

terça-feira, 6 de outubro de 2009

Brasileirão série B, rodada #28 completa.

Interessante como a série B parece mais disputada que a série A. A começar pela pontuação geral no momento, tanto na ponta quanto na rabeira. A projeção para a pontuação final do campeão também indica isso; há várias rodadas temos indicações que os 70 pontos vão ser ultrapassados facilmente, o que ainda não é claro para a série A. As próprias chances do mais cotado a ser campeão (Vasco), não são exageradamente grandes (44%) quando comparadas às chances dos perseguidores, Guarani (23%) e Atlético-GO (21%). A disputa pelo quarto lugar está bem parelha entre Figueirense (6%) e Ceará (4%). A zona da degola também é mais concorrida. São quatro times com chances ao redor de 60% de serem rebaixados (ABC-RN, América-RN, Campinense e Bahia), seguidos de Fortaleza (49%) e Duque de Caxias (28%). Tá bacana de acompanhar.

A coluna na tabela acima são, respectivamente: clube, média instantânea de gols (ver a minha "teoria" na primeira postagem), a pontuação ao final do campeonato, a chance (%) de ser campeão, a chance de subir para a série A, e a chance de ser rebaixado.

segunda-feira, 5 de outubro de 2009

Rodada #27 do brasileirão completa. Se a gente examinar as colocações mais prováveis que cada time pode alcançar ao final, com base nos resultados até agora, a coisa fica assim (coloquei entre parêntesis o valor modal do histograma de colocações):

Atlético-MG: 1-6 (2)
Atlético-PR: 12-17 (15)
Avaí: 6-14 (10)
Barueri: 6-14 (10)
Botafogo: 14-19 (16)
Corintians: 7-15 (12)
Coritiba: 12-17 (15)
Cruzeiro: 8-15 (13)
Flamengo: 5-12 (8)
Fluminense: 19-20 (20)
Goiás: 1-6 (2)
Grêmio: 3-9 (6)
Internacional: 2-7 (4)
Náutico: 16-20 (19)
Palmeiras: 1-2 (1)
Santo André: 15-20 (18)
Santos: 8-15 (12)
São Paulo: 1-7 (3)
Sport: 16-20 (18)
Vitória: 5-12 (8)

Pode-se ver que a incerteza ainda é muito grande, particularmente nas posições intermediárias. A minha previsão, para as posições finais, bate exatamente com as do www.chancedegol.com.br, porém difere bastante para os classificados à libertadores. Bom, vamos ver quem vai acertar.


As colunas na tabela acima são, respectivamente: clube, média instantânea de gols (ver teoria postada antes), # de pontos predito para o final do campeonato, chance (%) de ser campeão, chance de ir para a libertadores, para a droga da sulamericana e de ser rebaixado.

quinta-feira, 1 de outubro de 2009

Nas parte da "teoria" que eu descrevo para a previsão de resultados no futebol há um elemento chave: de que o número de gols que um time faz em cada partida pode ser descrito pela estatística de Poisson. Como evidência prá isso, eu apresento dois histogramas construídos com base em dados da copa do mundo de 2002. Deliberadamente, eu escolhi um caso "bom" e um caso "ruim", de modo que o leitor escolha por si próprio se a hipótese é razoável ou não. O problema desse tipo de histograma é que em geral eles são muito ruidosos, pois a incerteza em cada caixinha é proporcional à raiz quadrada do número de eventos nela. As figuras abaixo mostram esses histogramas para cada time até a rodada 26 do Brasileirão série A. As linhas mostram o valor teórico, a partir da distribuição de Poisson para a média aritmética de gols.



Depois fiquei pensando, pô, deve haver uma maneira mais refinada de testar essa hipótese. Fiz o seguinte. Considere os campeonatos brasileiros A e B. Eles duram menos de um ano, e os times se preparam de modo que as condições devem ser mais uniformes do que no caso das seleções mundiais, cujos jogos são espaçados de 4 anos, e que mesmo durante as preparações mudam muito.

Peguei as primeiras 26 rodadas da série A e da série B. Se você construir o histograma da distribuição de gols feitos por *todos* os times, verá que ele não é bem descrito por uma distribuição de Poisson. Mas isso é compreensível, uma vez que a média de gols varia bastante (de um fator maior que 3) de time para time. O que acontece porém, se você simular um certo número de vezes (digamos 100) as primeiras 26 rodadas utilizando a estatística de Poisson *com a média aritmética observada* para cada time?

A Figura abaixo, mostra o resultado para a série A. Os pontos são as observações (ou seja o número de vezes em que ocorreu 0 gols, 1 gols, 2 gols, etc. O histograma é o modelo.
A próxima figura mostra a mesma coisa para a série B.
Assim a olho, parece que a teoria concorda bem com o observado. Utilizando os nossos recém adquiridos conhecimentos de R, podemos fazer uma coisa melhor: comparar quantitativamente a distribuição observada com a distribuição modelada. O teste de Wilcoxon, por exemplo, permite comparar distribuições que não sejam normais para ver se elas são iguais. O resultado do teste é (série A):

> wilcox.test(gols[,2],tgols[,2])

Wilcoxon rank sum test with continuity correction

data: gols[, 2] and tgols[, 2]
W = 13621456, p-value = 0.7599
alternative hypothesis: true location shift is not equal to 0

e para a série B:

> wilcox.test(gols[,2],tgols[,2])

Wilcoxon rank sum test with continuity correction

data: gols[, 2] and tgols[, 2]
W = 13602829, p-value = 0.8027

Os valores p- precisam ser bem pequenos para que as distribuições possam ser consideradas diferentes, o que não ocorre nos nossos casos.

O teste K-S (Kolmogorov-Smirnov) é outra maneira não paramétrica de testar se as distribuições são diferentes, e se baseia na máxima distância vertical entre as ecdf (empirical cumulative distribution function).

> ks.test(gols[,2],tgols[,2])

Two-sample Kolmogorov-Smirnov test

data: gols[, 2] and tgols[, 2]
D = 0.0178, p-value = 0.9967

Temos assim, duas maneiras quantitativas de assegurar que a hipótese de que o número de gols marcado por uma equipe de futebol segue a estatística de Poisson é razoável.
O resultado do Náutico 1 x 2 SPFC no começo da rodada #27 do Brasileirão não muda muito as previsões, exceto pelo fato de que a chance do Palmeiras ser o campeão diminui para 45% e a do São Paulo aumenta para 6%. No final da classificação, naturalmente a chance de o Náutico ser rebaixado aumenta também. Agora é de 67%. No momento, a briga para saber quem vai ocupar a posição 17 está entre Náutico e Botafogo.