Algoritmos para multi-armed bandits: teoria e aplicação à precificação dinâmica

Bastos, Ismael Sampaio

Please use this identifier to cite or link to this item:


			http://hdl.handle.net/11422/27329

Type:	Dissertação
Title:	Algoritmos para multi-armed bandits: teoria e aplicação à precificação dinâmica
Author(s)/Inventor(s):	Bastos, Ismael Sampaio
Advisor:	Iacobelli, Giulio
Abstract:	Este trabalho versa sobre o problema da tomada de decisões sequenciais, focando especificamente no problema de multi-armed bandit. Em sua concepção clássica, o problema de multi-armed bandits é caracterizado pela existência de um agente que se encontra diante de uma fileira de máquinas caça-níquéis (bandits), possuindo um número limitado de vezes que pode puxar a alavanca (arm) das máquinas, tendo por objetivo realizar a sequência de ações que maximize a recompensa obtida. O desafio consiste em equilibrar a escolha entre a ação que parece ser a mais lucrativa até aquele momento e a busca por informações sobre outras alternativas ainda não exploradas. Esse dilema é chamado de exploração (exploration) versus explotação (exploitation). Neste trabalho estudaremos vários algoritmos para auxiliar a tomada de decisões no problema de multi-armed bandits. Veremos também uma aplicação dessa teoria ao problema de precificação dinâmica, i.e., a determinação de preços de venda ótimos para produtos e serviços. Nesse caso, o vendedor ocupa o papel do agente que deseja vender um determinado produto, possuindo um conjunto finito de possíveis preços, sem saber nem a demanda do produto nem o comportamento do consumidor, cabendo ao vendedor adotar uma estratégia que vise encontrar o preço ótimo.
Abstract:	This work addresses the problem of sequential decision-making, focusing specifically on the multiarmed bandit (MAB) framework. In its classical formulation, the MAB problem involves an agent facing a row of slot machines (bandits), with a limited number of pulls (arms) available. The agent’s goal is to determine a sequence of actions that maximizes the total reward. The core challenge lies in balancing the trade-off between choosing the action that currently appears to yield the highest reward and exploring lesser-known alternatives (a dilemma known as exploration versus exploitation). In this study, we explore several algorithms designed to support decision-making within the multiarmed bandit setting. We also examine an application of this theory to the problem of dynamic pricing, i.e., determining optimal selling prices for products and services. In this context, the seller takes the role of the agent who aims to sell a product by selecting from a finite set of possible prices, without prior knowledge of demand or consumer behavior. The seller must therefore adopt a strategy that enables the identification of the optimal price over time.
Keywords:	Algoritmos Exploração pura Precificação Algorithms Pure exploration Pricing Multi-armed bandits
Subject CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
Program:	Programa de Pós-Graduação em Estatística
Production unit:	Instituto de Matemática
Publisher:	Universidade Federal do Rio de Janeiro
Issue Date:	2025
Publisher country:	Brasil
Language:	por
Right access:	Acesso Aberto
Appears in Collections:	Estatística

Files in This Item:

File	Description	Size	Format
ISBastos.pdf		1.33 MB	Adobe PDF	View/Open

Show full item record Recommend this item View Statistics

Pantheon Institutional repository