Game Theory of Life (Teoria de Jogo da Vida)

Dilema do Prisioneiro - A experiencia original

Dilema do Prisioneiro - Wikipedia

"Dois suspeitos, A e B, são presos pela polícia. A polícia tem provas insuficientes para os condenar, mas, separando os prisioneiros, oferece a ambos o mesmo acordo: se um dos prisioneiros, confessando, testemunhar contra o outro e esse outro permanecer em silêncio, o que confessou sai livre enquanto o cúmplice silencioso cumpre 10 anos de sentença. Se ambos ficarem em silêncio, a polícia só pode condená-los a 6 meses de cadeia cada um. Se ambos traírem o comparsa, cada um leva 5 anos de cadeia. Cada prisioneiro faz a sua decisão sem saber que decisão o outro vai tomar, e nenhum tem certeza da decisão do outro. A questão que o dilema propõe é: o que vai acontecer? Como o prisioneiro vai reagir?"

                            |       Prisioneiro         |
                            |           B               |
                            |___________________________|
                            |             |             |
                            |      C      |      D      |
____________________________|_____________|_____________|
                    |       |         0.5 |          0  |
                    |   C   |             |             |
    Prisioneiro     |       |  0.5        |  10         |
        A           |-------|---------------------------|
                    |       |         10  |          5  |
                    |   D   |             |             |
                    |       |  0          |  5          |
____________________|_______|_____________|_____________|

Legenda:

C -> Cooperar

D -> Desertar

Dilema do Prisioneiro Iterado

A mesma situação que a anterior, mas a situação é colocada repetidamente, e os jogadores lembram-se da(s) jogada(s) anterior(es) do adversário. Pode haver número máximo de situações (no torneio de Robert Axelrod, haviam 200 iterações) ou ser infinito (jogadores não sabem quando termina o jogo).

Multiplos jogadores (Sociedade)

Aplicam-se as mesmas regras do "Dilema do Prisioneiro Iterado", mas deixa de haver um confronto apenas entre dois jogadores por iteração (1v1) e passa a ser um confronto de um jogador contra vários por iteração (1vM).

Neste modo, os jogadores só actualizam a memória quando terminam todos os confrontos (fim da iteração)

Para este modo de jogo, existem duas variantes:

  • Confrontos Globais: por cada iteração, cada jogador confronta à vez todos os adversários do jogo (o jogador tem todos os adversários à distancia de 1 unidade))

  • Confrontos Locais: por cada iteração, cada jogados contronta à vez apenas os adversários locais (o jogador tem adversários à distancia de 1 unidade, adversários a distancia de 2 unidades, etc...))

Na variante "Confrontos Globais", o estado do jogo a cada iteração, reflecte a performance de estratégias à escala global, ao passo que na variante "Confrontos Locais" é introduzido uma componente dinâmica das estratégias, e o sucesso das estratégias depende não apenas dos adversários locais, mas também dos confrontos desses adversários locais com adversários indirectos.

A escolha inicial das estratégias dos jogadores, assim como a sua localização, influencia o estado do jogo a cada iteração. Será que o estado de jogo entra em equilibrio? Existirão grandes desvios de resultados entre as estratégias?

Recompensas

Para a aplicação desta teoria em jogo, fica mais fácil a sua percepção quando as recompensas são positivas e no final do jogo ganha o jogador que tiver mais pontos.

Por isso, e ao contrário do exemplo dos prisioneiros dado em cima, as recompensas são positivas, isto é, o jogador ganha mais pontos por desertar, ao invés de reduzir a sua pena (no exemplo dos prisioneiros, o objectivo é ter menos pontos).

Tendo os seguintes termos:

  • d -> recompensa por desertar quando o adversário coopera
  • r -> recompensa pela cooperação mútua
  • c -> recompensa quando ambos os jogadores cooperam
  • p -> recompensa por cooperar quando o adversário deserta

Podemos definir a seguinte fórmula:

d > r > c > p

na condição:

(d+c)/2 < r p = 0 c = 1

Desta forma, os possiveis valores (inteiros e mais baixos) para as recompensas são:

  • p = 0
  • c = 1
  • r = 3
  • d = 4

Tipos de estratégias

Os diferentes tipos de estratégias possíveis são variações de um conjunto fixo de características, que passarei a chamar de traços de personalidade.

Eis o conjunto de traços de personalidade:

  • Amabilidade
  • Retaliação
  • Perdão
  • Coerência
  • Memória

A este conjunto pode ser adicionados outros traços de personalidade, o que permite também aumentar o número e complexidade das estratégias. No entanto, é aconselhável manter o número de traços baixo, para não tornar a complexidade exponencial.

Amabilidade

"Não desertar a menos que o adversário deserte."

Retaliação

"Retaliar quando um adversário deserta."

Perdão

"Perdoar um adversário quando deixa de desertar."

Coerência

"Evitar aleatoriedade das estratégias."

Memória

"Capacidade de lembrar interacções mais antigas."

Outros tópicos relevantes

Soma zero e soma diferente zero

Description
No description provided
Readme 9 MiB
Languages
Python 100%