Files
game_theory_of_life/README.md

151 lines
5.4 KiB
Markdown

# Game Theory of Life (Teoria de Jogo da Vida)
## Dilema do Prisioneiro - A experiencia original
[Dilema do Prisioneiro - Wikipedia](<https://pt.wikipedia.org/wiki/Dilema_do_prisioneiro>)
"Dois suspeitos, A e B, são presos pela polícia. A polícia tem provas
insuficientes para os condenar, mas, separando os prisioneiros, oferece a ambos
o mesmo acordo: se um dos prisioneiros, confessando, testemunhar contra o outro
e esse outro permanecer em silêncio, o que confessou sai livre enquanto o
cúmplice silencioso cumpre 10 anos de sentença. Se ambos ficarem em silêncio, a
polícia só pode condená-los a 6 meses de cadeia cada um. Se ambos traírem o
comparsa, cada um leva 5 anos de cadeia. Cada prisioneiro faz a sua decisão sem
saber que decisão o outro vai tomar, e nenhum tem certeza da decisão do outro.
A questão que o dilema propõe é: o que vai acontecer? Como o prisioneiro vai
reagir?"
| Prisioneiro |
| B |
|___________________________|
| | |
| C | D |
____________________________|_____________|_____________|
| | 0.5 | 0 |
| C | | |
Prisioneiro | | 0.5 | 10 |
A |-------|---------------------------|
| | 10 | 5 |
| D | | |
| | 0 | 5 |
____________________|_______|_____________|_____________|
Legenda:
C -> Cooperar
D -> Desertar
## Dilema do Prisioneiro Iterado
A mesma situação que a anterior, mas a situação é colocada repetidamente, e os
jogadores lembram-se da(s) jogada(s) anterior(es) do adversário. Pode haver
número máximo de situações (no torneio de Robert Axelrod, haviam 200 iterações)
ou ser infinito (jogadores não sabem quando termina o jogo).
## Multiplos jogadores (Sociedade)
Aplicam-se as mesmas regras do "Dilema do Prisioneiro Iterado", mas deixa de
haver um confronto apenas entre dois jogadores por iteração (1v1) e passa a ser
um confronto de um jogador contra vários por iteração (1vM).
Neste modo, os jogadores só actualizam a memória quando terminam todos os
confrontos (fim da iteração)
Para este modo de jogo, existem duas variantes:
- Confrontos Globais:
por cada iteração, cada jogador confronta à vez todos os adversários do jogo
(o jogador tem todos os adversários à distancia de 1 unidade))
- Confrontos Locais:
por cada iteração, cada jogados contronta à vez apenas os adversários locais
(o jogador tem adversários à distancia de 1 unidade, adversários a distancia de
2 unidades, etc...))
Na variante "Confrontos Globais", o estado do jogo a cada iteração, reflecte a
performance de estratégias à escala global, ao passo que na variante
"Confrontos Locais" é introduzido uma componente dinâmica das estratégias, e o
sucesso das estratégias depende não apenas dos adversários locais, mas também
dos confrontos desses adversários locais com adversários indirectos.
A escolha inicial das estratégias dos jogadores, assim como a sua localização,
influencia o estado do jogo a cada iteração. Será que o estado de jogo entra em
equilibrio? Existirão grandes desvios de resultados entre as estratégias?
## Recompensas
Para a aplicação desta teoria em jogo, fica mais fácil a sua percepção quando
as recompensas são positivas e no final do jogo ganha o jogador que tiver mais
pontos.
Por isso, e ao contrário do exemplo dos prisioneiros dado em cima, as
recompensas são positivas, isto é, o jogador ganha mais pontos por desertar, ao
invés de reduzir a sua pena (no exemplo dos prisioneiros, o objectivo é ter
menos pontos).
Tendo os seguintes termos:
- d -> recompensa por desertar quando o adversário coopera
- r -> recompensa pela cooperação mútua
- c -> recompensa quando ambos os jogadores cooperam
- p -> recompensa por cooperar quando o adversário deserta
Podemos definir a seguinte fórmula:
d > r > c > p
na condição:
(d+c)/2 < r
p = 0
c = 1
Desta forma, os possiveis valores (inteiros e mais baixos) para as recompensas são:
- p = 0
- c = 1
- r = 3
- d = 4
## Tipos de estratégias
Os diferentes tipos de estratégias possíveis são variações de um conjunto fixo
de características, que passarei a chamar de *traços de personalidade*.
Eis o conjunto de traços de personalidade:
- Amabilidade
- Retaliação
- Perdão
- Coerência
- Memória
A este conjunto pode ser adicionados outros traços de personalidade, o que
permite também aumentar o número e complexidade das estratégias. No entanto, é
aconselhável manter o número de traços baixo, para não tornar a complexidade exponencial.
### Amabilidade
"Não desertar a menos que o adversário deserte."
### Retaliação
"Retaliar quando um adversário deserta."
### Perdão
"Perdoar um adversário quando deixa de desertar."
### Coerência
"Evitar aleatoriedade das estratégias."
### Memória
"Capacidade de lembrar interacções mais antigas."
## Outros tópicos relevantes
[Soma zero e soma diferente zero](https://pt.wikipedia.org/wiki/Teoria_dos_jogos#Soma_zero_e_soma_diferente_zero)