Luis Rodrigues e3e3008d73 restruturar propriedades 'tracos_personalidade' e 'estrategia'
na classe 'Agente' a propriedade 'tracos_personalidade' passa a ser um
dicionario com os diversos traços e valores.
2024-09-12 11:06:54 +01:00
2024-09-07 00:57:36 +01:00
2024-09-11 11:02:17 +01:00

Game Theory of Life (Teoria de Jogo da Vida)

Dilema do Prisioneiro - A experiencia original

https://pt.wikipedia.org/wiki/Dilema_do_prisioneiro

"Dois suspeitos, A e B, são presos pela polícia. A polícia tem provas insuficientes para os condenar, mas, separando os prisioneiros, oferece a ambos o mesmo acordo: se um dos prisioneiros, confessando, testemunhar contra o outro e esse outro permanecer em silêncio, o que confessou sai livre enquanto o cúmplice silencioso cumpre 10 anos de sentença. Se ambos ficarem em silêncio, a polícia só pode condená-los a 6 meses de cadeia cada um. Se ambos traírem o comparsa, cada um leva 5 anos de cadeia. Cada prisioneiro faz a sua decisão sem saber que decisão o outro vai tomar, e nenhum tem certeza da decisão do outro. A questão que o dilema propõe é: o que vai acontecer? Como o prisioneiro vai reagir?"

                            |       Prisioneiro         |
                            |           B               |
                            |___________________________|
                            |             |             |
                            |      C      |      D      |
____________________________|_____________|_____________|
                    |       |         0.5 |          0  |
                    |   C   |             |             |
    Prisioneiro     |       |  0.5        |  10         |
        A           |-------|---------------------------|
                    |       |         10  |          5  |
                    |   D   |             |             |
                    |       |  0          |  5          |
____________________|_______|_____________|_____________|

Legenda:

C -> Cooperar

D -> Desertar

Dilema do Prisioneiro Iterado

A mesma situação que a anterior, mas a situação é colocada repetidamente, e os jogadores lembram-se da(s) jogada(s) anterior(es) do adversário. Pode haver número máximo de situações (no torneio de Robert Axelrod, haviam 200 iterações) ou ser infinito (jogadores não sabem quando termina o jogo).

Multiplos jogadores (Sociedade)

Aplicam-se as mesmas regras do "Dilema do Prisioneiro Iterado", mas deixa de haver um confronto apenas entre dois jogadores por iteração (1v1) e passa a ser um confronto de um jogador contra vários por iteração (1vM).

Neste modo, os jogadores só actualizam a memória quando terminam todos os confrontos (fim da iteração)

Para este modo de jogo, existem duas variantes:

  • Confrontos Globais -> por cada iteração, cada jogador confronta à vez todos os adversários do jogo (o jogador tem todos os adversários à distancia de 1 unidade))
  • Confrontos Locais -> por cada iteração, cada jogados contronta à vez apenas os adversários locais (o jogador tem adversários à distancia de 1 unidade, adversários a distancia de 2 unidades, etc...))

Na variante "Confrontos Globais", o estado do jogo a cada iteração, reflecte a performance de estratégias à escala global, ao passo que na variante "Confrontos Locais" é introduzido uma componente dinâmica das estratégias, e o sucesso das estratégias depende não apenas dos adversários locais, mas também dos confrontos desses adversários locais com adversários indirectos.

A escolha inicial das estratégias dos jogadores, assim como a sua localização, influencia o estado do jogo a cada iteração. Será que o estado de jogo entra em equilibrio? Existirão grandes desvios de resultados entre as estratégias?

Recompensas

Para a aplicação desta teoria em jogo, fica mais fácil a sua percepção quando as recompensas são positivas e no final do jogo ganha o jogador que tiver mais pontos.

Por isso, e ao contrário do exemplo dos prisioneiros dado em cima, as recompensas são positivas, isto é, o jogador ganha mais pontos por desertar, ao invés de reduzir a sua pena (no exemplo dos prisioneiros, o objectivo é ter menos pontos).

Tendo os seguintes termos:

  • d -> recompensa por desertar quando o adversário coopera
  • r -> recompensa pela cooperação mútua
  • c -> recompensa quando ambos os jogadores cooperam
  • p -> recompensa por cooperar quando o adversário deserta

Podemos definir a seguinte fórmula:

d > r > c > p

na condição:

(d+c)/2 < r p = 0 c = 1

Desta forma, os possiveis valores (inteiros e mais baixos) para as recompensas são:

  • p = 0
  • c = 1
  • r = 3
  • d = 4

Tipos de estratégias

Os diferentes tipos de estratégias possíveis são variações de um conjunto fixo de características, que passarei a chamar de traços de personalidade.

Eis o conjunto de traços de personalidade:

  • Amabilidade
  • Retaliação
  • Perdão
  • Coerência
  • Memória

A este conjunto pode ser adicionados outros traços de personalidade, o que permite também aumentar o número e complexidade das estratégias. No entanto, é aconselhável manter o número de traços baixo, para não tornar a complexidade exponencial.

Amabilidade

"Não desertar a menos que o adversário deserte."

Retaliação

"Retaliar quando um adversário deserta."

Perdão

"Perdoar um adversário quando deixa de desertar."

Coerência

"Evitar aleatoriedade das estratégias."

Memória

"Quantas interações anteriores o agente se consegue lembrar."

Outros tópicos relevantes

Soma zero e soma diferente zero

Description
No description provided
Readme 9 MiB
Languages
Python 100%