Inteligência artificial é profunda para derrotar humanos no poker

As máquinas estão finalmente conseguindo o melhor dos humanos no poker.

dolgachov / iStockphoto

Inteligência artificial é profunda para derrotar humanos no poker

Por Tonya RileyMar. 3, 2017, 14:15

Dois programas de inteligência artificial (AI) finalmente provaram que eles sabem quando segurar e quando dobrar, recentemente vencendo jogadores profissionais profissionais de cartas pela primeira vez no popular jogo de pôquer. do Texas Hold 'em. E nesta semana, a equipe por trás de uma dessas IAs, conhecida como DeepStack, divulgou alguns dos segredos de seu sucesso - um triunfo que poderia um dia levar as IAs a executar tarefas que vão desde o aprimoramento da segurança aérea até a simplificação das negociações comerciais. .

As IAs dominam há muito tempo jogos como xadrez e, no ano passado, venceram o Go, mas tornaram jogadores de poker relativamente ruins. No DeepStack, os pesquisadores romperam sua série de derrotas no pôquer, combinando novos algoritmos e profundo aprendizado de máquina, uma forma de ciência da computação que de alguma forma imita o cérebro humano, permitindo que as máquinas se ensinem.

"É uma abordagem escalável para lidar com [informações complexas] que podem rapidamente tomar uma decisão muito boa ainda melhor do que as pessoas", diz Murray Campbell, pesquisador sênior da IBM em Armonk, Nova York, e um dos criadores. da IA ​​do xadrez, Deep Blue.

O Xadrez e o Go têm uma coisa importante em comum que permite aos IA vencê-los primeiro: eles são jogos de informação perfeitos. Isso significa que ambos os lados sabem exatamente com o que o outro está trabalhando, uma grande ajuda ao projetar um jogador de IA. O Texas Hold 'em é um animal diferente. Nesta versão do poker, dois ou mais jogadores recebem aleatoriamente duas cartas viradas para baixo. Na introdução de cada novo conjunto de cartas públicas, os jogadores são convidados a apostar, manter ou abandonar o dinheiro em jogo na mesa. Devido à natureza aleatória do jogo e duas cartas privadas iniciais, as apostas dos jogadores são baseadas em adivinhar o que seu oponente pode fazer. Ao contrário do xadrez, onde uma estratégia vencedora pode ser deduzida do estado do tabuleiro e de todos os movimentos potenciais do oponente, o Hold'em exige o que geralmente chamamos de intuição.

O objetivo das IAs tradicionais de jogo é calcular os resultados possíveis de um jogo o máximo possível e, em seguida, classificar as opções de estratégia usando uma fórmula que pesquisa dados de outros jogos vencedores. A desvantagem desse método é que, para compactar os dados disponíveis, os algoritmos às vezes agrupam estratégias que realmente não funcionam, diz Michael Bowling, cientista da computação da Universidade de Alberta, em Edmonton, Canadá.

Sua equipe de IA de poker, DeepStack, evita abstrair dados calculando apenas alguns passos à frente, em vez de um jogo inteiro. O programa recalcula continuamente seus algoritmos à medida que novas informações são adquiridas. Quando a IA precisa agir antes que o oponente faça uma aposta ou mantenha e não receba novas informações, o aprendizado profundo entra em cena. As redes neurais, os sistemas que promovem o conhecimento adquirido pelo aprendizado profundo, podem ajudar a limitar as situações potenciais fatoradas pelos algoritmos porque eles foram treinados sobre o comportamento no jogo. Isso torna a reação da IA ​​mais rápida e precisa, diz Bowling. Para treinar as redes neurais do DeepStack, os pesquisadores exigiram que o programa resolvesse mais de 10 milhões de situações de jogos de pôquer gerados aleatoriamente.

Para testar o DeepStack, os pesquisadores o colocaram no ano passado contra um grupo de 33 jogadores profissionais selecionados pela Federação Internacional de Poker. Ao longo de 4 semanas, os jogadores desafiaram o programa a 44.852 jogos de Texas Hold em no Limit heads-up, uma versão para dois jogadores do jogo em que os participantes podem apostar tanto dinheiro quanto eles. Depois de usar uma fórmula para eliminar os casos em que a sorte, e não a estratégia, causou uma vitória, os pesquisadores descobriram que a taxa de vitória final do DeepStack era de 486 milhões de big blinds por jogo. Um milionésimo big blind é um milésimo da aposta necessária para ganhar um jogo. Isso é quase 10 vezes o que os jogadores profissionais de poker consideram uma margem considerável, informou a equipe nesta semana na Science.

As descobertas da equipe coincidem com o sucesso público há várias semanas do Libratus, uma IA de pôquer projetada por pesquisadores da Universidade Carnegie Mellon, em Pittsburgh, Pensilvânia. Em uma competição de poker de 20 dias realizada em Pittsburgh, Libratus venceu quatro dos jogadores humanos mais bem classificados do Texas Hold no mundo ao longo de 120.000 mãos. Ambas as equipes dizem que a superioridade de seu sistema em relação aos seres humanos é apoiada por resultados estatisticamente significativos. A principal diferença é que, devido à falta de aprendizado profundo, o Libratus exige mais poder de computação para seus algoritmos e, inicialmente, precisa resolver até o final de cada vez para criar uma estratégia, diz Bowling. O DeepStack pode ser executado em um laptop.

Embora não exista um consenso claro de que a IA é o verdadeiro campeão do pôquer e que nenhuma partida foi combinada até o momento, ambos os sistemas já estão sendo adaptados para resolver problemas mais complexos do mundo real em áreas como segurança e segurança. negociações. A equipe do boliche estudou como a IA poderia randomizar com mais êxito as verificações de ingressos para o transporte público do sistema de honra.

Os pesquisadores também estão interessados ​​nas implicações comerciais da tecnologia. Por exemplo, uma IA que possa entender cenários de informações imperfeitas pode ajudar a determinar qual seria o preço de venda final de uma casa para um comprador antes de conhecer os outros lances, permitindo que esse comprador planejasse melhor uma hipoteca. Um sistema como o AlphaGo, o jogo de informações perfeitas que jogou a IA que derrotou um campeão mundial de Go no ano passado, não poderia fazer isso por causa da falta de limitações no tamanho e número possíveis de outros lances.

Ainda assim, o DeepStack está a alguns anos de ser capaz de imitar a complexa tomada de decisões humanas, diz Bowling. A máquina ainda precisa aprender a lidar com cenários com mais precisão, onde as regras do jogo não são conhecidas antecipadamente, como as versões do Texas Hold em que suas redes neurais não foram treinadas, diz ele.

Campbell concorda. "Embora o poker seja um passo mais complexo do que os jogos de informação perfeitos, ele diz que ainda há um longo caminho a percorrer para chegar à bagunça do mundo real."