Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/11422/27329

Especie: Dissertação
Título : Algoritmos para multi-armed bandits: teoria e aplicação à precificação dinâmica
Autor(es)/Inventor(es): Bastos, Ismael Sampaio
Tutor: Iacobelli, Giulio
Resumen: Este trabalho versa sobre o problema da tomada de decisões sequenciais, focando especificamente no problema de multi-armed bandit. Em sua concepção clássica, o problema de multi-armed bandits é caracterizado pela existência de um agente que se encontra diante de uma fileira de máquinas caça-níquéis (bandits), possuindo um número limitado de vezes que pode puxar a alavanca (arm) das máquinas, tendo por objetivo realizar a sequência de ações que maximize a recompensa obtida. O desafio consiste em equilibrar a escolha entre a ação que parece ser a mais lucrativa até aquele momento e a busca por informações sobre outras alternativas ainda não exploradas. Esse dilema é chamado de exploração (exploration) versus explotação (exploitation). Neste trabalho estudaremos vários algoritmos para auxiliar a tomada de decisões no problema de multi-armed bandits. Veremos também uma aplicação dessa teoria ao problema de precificação dinâmica, i.e., a determinação de preços de venda ótimos para produtos e serviços. Nesse caso, o vendedor ocupa o papel do agente que deseja vender um determinado produto, possuindo um conjunto finito de possíveis preços, sem saber nem a demanda do produto nem o comportamento do consumidor, cabendo ao vendedor adotar uma estratégia que vise encontrar o preço ótimo.
Resumen: This work addresses the problem of sequential decision-making, focusing specifically on the multiarmed bandit (MAB) framework. In its classical formulation, the MAB problem involves an agent facing a row of slot machines (bandits), with a limited number of pulls (arms) available. The agent’s goal is to determine a sequence of actions that maximizes the total reward. The core challenge lies in balancing the trade-off between choosing the action that currently appears to yield the highest reward and exploring lesser-known alternatives (a dilemma known as exploration versus exploitation). In this study, we explore several algorithms designed to support decision-making within the multiarmed bandit setting. We also examine an application of this theory to the problem of dynamic pricing, i.e., determining optimal selling prices for products and services. In this context, the seller takes the role of the agent who aims to sell a product by selecting from a finite set of possible prices, without prior knowledge of demand or consumer behavior. The seller must therefore adopt a strategy that enables the identification of the optimal price over time.
Materia: Algoritmos
Exploração pura
Precificação
Algorithms
Pure exploration
Pricing
Multi-armed bandits
Materia CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
Programa: Programa de Pós-Graduação em Estatística
Unidade de producción: Instituto de Matemática
Editor: Universidade Federal do Rio de Janeiro
Fecha de publicación: 2025
País de edición : Brasil
Idioma de publicación: por
Tipo de acceso : Acesso Aberto
Aparece en las colecciones: Estatística

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
ISBastos.pdf1.33 MBAdobe PDFVisualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.