Um novo algoritmo agregação temporal para resolver processos de decisão markovianos com custo médio

Alexandre, Rodrigo e Alvim

Please use this identifier to cite or link to this item:


			http://hdl.handle.net/11422/28489

Type:	Tese
Title:	Um novo algoritmo agregação temporal para resolver processos de decisão markovianos com custo médio
Author(s)/Inventor(s):	Alexandre, Rodrigo e Alvim
Advisor:	Ferreira Filho, Virgílio José Martins
Abstract:	Esta Tese apresenta e prova a convergência de uma nova classe de algoritmos baseada em agregação temporal para resolver problemas de decisão markovianos com custo médio. Os novos algoritmos utilizam um novo esquema de particionamento que divide o espaço de estados em múltiplos subconjuntos formados por estados de fronteira e estados interiores. A união dos estados de fronteira dos diversos subconjuntos da partição gera um novo subconjunto, que compõe o espaço de estados da cadeia de Markov embutida. Em uma primeira etapa, o algoritmo fixa uma política ad-hoc para estados interiores e itera apenas nos estados de fronteira. Em contrapartida, na segunda etapa, o algoritmo itera apenas nos estados interiores. Uma das grandes vantagens da abordagem proposta é que o novo esquema de particionamento gera subconjuntos com propriedades de comunicação específicas que permitem uma melhoria de política distribuída nos estados interiores, limitando, assim, o esforço computacional. Foram implementadas e avaliadas diferentes estratégias de melhoria de política utilizando a abordagem proposta para resolver dois problemas: um problema de produção e gestão de estoques e outro de gestão de filas. Os resultados são muito encorajadores, pois os algoritmos propostos convergiram até 60(20) vezes mais rápido do que a iteração de política (valor) nos experimentos. Além dos novos algoritmos, esta Tese apresenta um conjunto de mapas conceituais por meio do qual será possível obter um panorama do estado da arte em processos de decisão markovianos.
Abstract:	This work introduces and proves the convergence of a new class of algorithms based on time aggregation to solve Markov decision problems with average cost. The new algorithms use a new partitioning scheme that divides the state space into multiple subsets comprised of frontier states and interior states. The frontier states give rise to a new subset that comprises the state space of the embedded Markov chain. In the first step, the algorithm sets an ad-hoc policy for interior states and iterates only on frontier states. In contrast, in the second step, the algorithm iterates only on the interior states. One of the great advantages of the proposed approach is that the new partitioning scheme generates subsets with specific communication properties that allow a distributed policy improvement in the interior states, thus limiting the computational effort. Different policy improvement strategies were implemented and evaluated using the proposed approach to solve two problems: one is a production and inventory management problem and the other is a queue management problem. The results are very encouraging, as the proposed algorithms converged up to 60(20) times faster than the policy(value) iteration in the experiments. In addition to the new algorithms, this work presents a set of conceptual maps that characterise the state-of-the-art in Markov decision processes.
Keywords:	Processos de Markov Programação dinâmica Agregação temporal Algoritmos Markov processes Dynamic programming Temporal aggregation Algorithms
Subject CNPq:	CNPQ::ENGENHARIAS::ENGENHARIA DE PRODUCAO::PESQUISA OPERACIONAL::PROCESSOS ESTOCASTICOS E TEORIAS DA FILAS
Program:	Programa de Pós-Graduação em Engenharia de Produção
Production unit:	Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia
Publisher:	Universidade Federal do Rio de Janeiro
Issue Date:	Apr-2024
Publisher country:	Brasil
Language:	por
Right access:	Acesso Aberto
Citation:	ALEXANDRE, Rodrigo e Alvim. Um novo algoritmo agregação temporal para resolver processos de decisão markovianos com custo médio. 2024. 103 f. Tese (Doutorado) - Programa de Pós-Graduação em Engenharia de Produção, COPPE, Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2024.
Appears in Collections:	Engenharia de Produção

Files in This Item:

File	Description	Size	Format
RodrigoeAlvimAlexandre.pdf		1.54 MB	Adobe PDF	View/Open

Show full item record Recommend this item View Statistics

Pantheon Institutional repository