Please use this identifier to cite or link to this item:
http://hdl.handle.net/11422/18241
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor | Evsukof, Alexandre Gonçalves | - |
dc.contributor.author | Cano, Lyang Higa | - |
dc.date.accessioned | 2022-08-05T21:41:51Z | - |
dc.date.available | 2023-12-21T03:00:22Z | - |
dc.date.issued | 2019-08 | - |
dc.identifier.uri | http://hdl.handle.net/11422/18241 | - |
dc.language | por | pt_BR |
dc.publisher | Universidade Federal do Rio de Janeiro | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.subject | Aprendizado Por Reforço | pt_BR |
dc.subject | IA | pt_BR |
dc.title | Aprendizado por reforço com aproximadores não lineares aplicados a jogos eletrônicos | pt_BR |
dc.title.alternative | Reinforcement learning with non-linear approximants applied to electronic games | pt_BR |
dc.type | Trabalho de conclusão de graduação | pt_BR |
dc.contributor.referee1 | Figueiredo, Daniel Ratton | - |
dc.contributor.referee2 | Resende Junior, Fernando Gil Vianna | - |
dc.description.resumo | A Inteligência Artificial tem se tornado cada vez mais importante no mundo atual e o Aprendizado por Reforço tem ocupado uma área de destaque. No entanto, ainda há diversos problemas em aberto, como o problema de Convergência de Política Ótima, que ocorre ao combinar três elementos essenciais, o Bootstrapping, a metodologia Off-Policy e os Aproximadores Não Lineares. Até que o Artigo Human Level Control Through Deep Reinforcement Learning [1] do grupo de pesquisa Deep Mind propõem uma nova abordagem que consegue contornar tal problema. Este trabalho tem como objetivo apresentar cada um destes três elementos, apresentar o Problema de Convergência de Política Ótima, verificar a abordagem proposta pelo Artigo [1], realizar um novo teste e avaliar se tal proposta é realmente eficaz. A contribuição deste trabalho consiste primeiramente na revisão bibliográfica deste tema, que é extenso e complexo, numa análise profunda do Artigo [1], especialmento do Algoritmo Deep Q-Network, e por fim em uma nova avaliação através de experimentos em um ambiente diferente dos utilizados no Artigo | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.publisher.department | Escola Politécnica | pt_BR |
dc.publisher.initials | UFRJ | pt_BR |
dc.subject.cnpq | CNPQ::ENGENHARIAS | pt_BR |
dc.embargo.terms | aberto | pt_BR |
Appears in Collections: | Engenharia de Computação e Informação |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
monopoli10029824.pdf | 1.89 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.