Por favor, use este identificador para citar o enlazar este ítem:
http://hdl.handle.net/11422/27329
| Especie: | Dissertação |
| Título : | Algoritmos para multi-armed bandits: teoria e aplicação à precificação dinâmica |
| Autor(es)/Inventor(es): | Bastos, Ismael Sampaio |
| Tutor: | Iacobelli, Giulio |
| Resumen: | Este trabalho versa sobre o problema da tomada de decisões sequenciais, focando especificamente no problema de multi-armed bandit. Em sua concepção clássica, o problema de multi-armed bandits é caracterizado pela existência de um agente que se encontra diante de uma fileira de máquinas caça-níquéis (bandits), possuindo um número limitado de vezes que pode puxar a alavanca (arm) das máquinas, tendo por objetivo realizar a sequência de ações que maximize a recompensa obtida. O desafio consiste em equilibrar a escolha entre a ação que parece ser a mais lucrativa até aquele momento e a busca por informações sobre outras alternativas ainda não exploradas. Esse dilema é chamado de exploração (exploration) versus explotação (exploitation). Neste trabalho estudaremos vários algoritmos para auxiliar a tomada de decisões no problema de multi-armed bandits. Veremos também uma aplicação dessa teoria ao problema de precificação dinâmica, i.e., a determinação de preços de venda ótimos para produtos e serviços. Nesse caso, o vendedor ocupa o papel do agente que deseja vender um determinado produto, possuindo um conjunto finito de possíveis preços, sem saber nem a demanda do produto nem o comportamento do consumidor, cabendo ao vendedor adotar uma estratégia que vise encontrar o preço ótimo. |
| Resumen: | This work addresses the problem of sequential decision-making, focusing specifically on the multiarmed bandit (MAB) framework. In its classical formulation, the MAB problem involves an agent facing a row of slot machines (bandits), with a limited number of pulls (arms) available. The agent’s goal is to determine a sequence of actions that maximizes the total reward. The core challenge lies in balancing the trade-off between choosing the action that currently appears to yield the highest reward and exploring lesser-known alternatives (a dilemma known as exploration versus exploitation). In this study, we explore several algorithms designed to support decision-making within the multiarmed bandit setting. We also examine an application of this theory to the problem of dynamic pricing, i.e., determining optimal selling prices for products and services. In this context, the seller takes the role of the agent who aims to sell a product by selecting from a finite set of possible prices, without prior knowledge of demand or consumer behavior. The seller must therefore adopt a strategy that enables the identification of the optimal price over time. |
| Materia: | Algoritmos Exploração pura Precificação Algorithms Pure exploration Pricing Multi-armed bandits |
| Materia CNPq: | CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA |
| Programa: | Programa de Pós-Graduação em Estatística |
| Unidade de producción: | Instituto de Matemática |
| Editor: | Universidade Federal do Rio de Janeiro |
| Fecha de publicación: | 2025 |
| País de edición : | Brasil |
| Idioma de publicación: | por |
| Tipo de acceso : | Acesso Aberto |
| Aparece en las colecciones: | Estatística |
Ficheros en este ítem:
| Fichero | Descripción | Tamaño | Formato | |
|---|---|---|---|---|
| ISBastos.pdf | 1.33 MB | Adobe PDF | Visualizar/Abrir |
Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.