Sound pressure level prediction from video frames using deep convolutional neural networks

Mazza, Leonardo Oliveira

Please use this identifier to cite or link to this item:


			http://hdl.handle.net/11422/14030

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	Gomes, José Gabriel Rodriguez Carneiro	-
dc.contributor.author	Mazza, Leonardo Oliveira	-
dc.date.accessioned	2021-04-05T01:56:49Z	-
dc.date.available	2023-12-21T03:07:35Z	-
dc.date.issued	2019-06	-
dc.identifier.uri	http://hdl.handle.net/11422/14030	-
dc.description.abstract	Some CCTV systems do not have microphones. As a result, sound pressure information is not available in such systems. A method to generate traffic sound pressure estimates using solely video frames as input data is presented. To that end, we trained several combinations of models based on pretrained convolutional networks using a dataset that was automatically generated by a single camera with a mono microphone pointing at a busy traffic crossroad with cars, trucks, and motorbikes. For neural network training from that dataset, color images are used as neural network inputs, and true sound pressure level values are used as neural network targets. A correlation of 0.607 in preliminary results suggest that sound pressure level targets are sufficient for convolutional neural networks to detect sound generating sources within a traffic scene. This hypothesis is tested by evaluating the class activation maps (CAM) of a model with the required global average pooling+fully connected layer structure. We find that the CAM strongly highlights sources that produce large sound pressure values such as buses and faintly highlights objects associated with lower sound pressure such as cars. The neural network with the lowest MSE was cross-validated with 6 folds and the best model was evaluated in the test set. The best model attained a correlation of approximately 0.6 in three of the test videos and correlations of 0.272 and 0.207 in two of the test videos. The low correlation in the two last videos was associated with a traffic warden that constantly whistles: a characteristic not present in the training set. The overall correlation using the whole test set was 0.647. A correlation of 0.844 with a longer term (1 minute) sound pressure level (Leq) estimate using all test videos indicate that estimation of longer term sound pressure levels is less sensitive to sporadic noise in the dataset.	pt_BR
dc.language	eng	pt_BR
dc.publisher	Universidade Federal do Rio de Janeiro	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.subject	Convolutional neural networks	pt_BR
dc.subject	Traffic noise intensity	pt_BR
dc.subject	Non-linear regression	pt_BR
dc.subject	Nonlinear prediction	pt_BR
dc.title	Sound pressure level prediction from video frames using deep convolutional neural networks	pt_BR
dc.title.alternative	Predição do nível de pressão sonora a partir de frames de vídeo com redes neurais convolucionais profundas	pt_BR
dc.type	Dissertação	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/0167354254513842	pt_BR
dc.contributor.authorLattes	http://lattes.cnpq.br/8123046464465333	pt_BR
dc.contributor.referee1	Torres, Julio Cesar Boscher	-
dc.contributor.referee2	Haddad , Diego Barreto	-
dc.description.resumo	Alguns sistemas de CCTV não possuem microfones. Como resultado, a informação de pressão sonora não está disponível nesses sistemas. Um método para gerar estimativas da pressão sonora usando apenas quadros de vídeos é apresentado. Para tal, 64 combinações de modelos baseados em redes convolucionais foram treinadas a partir de uma base de dados gerada automaticamente por dados de uma câmera com um microfone mono apontada para um cruzamento com tráfego intenso de carros, caminhões e motos. Para treinar as redes neurais, imagens coloridas são usadas como entradas da rede e valores reais de pressão sonora são usados como alvos da rede. Correlação 0.607 em resultados iniciais sugere que usar valores de pressão sonora média como alvos são suficientes para que redes neurais convolucionais detectem as fontes geradoras do áudio numa cena de tráfego. Essa hipótese é testada ao se avaliar os mapas de ativação de classe (CAM) de um modelo com o formato global average pooling+camada fully connected. Por fim, os CAMs ressaltaram fortemente objetos associados a altos valores de pressão sonora como ônibus e realçaram fracamente objetos associados a menores níveis de pressão sonora como carros. Foi feita validação cruzada no modelo com menor MSE com 6 folds e melhor modelo foi avaliado no conjunto de teste. Esse modelo obteve correlação próxima de 0.6 em três dos vídeos de teste e correlação 0.272 e 0.207 em outros dois vídeos de teste. A baixa correlação foi associada ao barulho constante do apito de um guarda de trânsito presente somente nesses dois últimos vídeos: característica ausente no conjunto de treino. A correlação nos dados de teste calculada conjuntamente foi de 0.647. Uma correlação de 0.844 ao usar Leq com intervalo de tempo maior (1 minuto) usando todos os videos de teste indica que a estimação do ruído no dataset.	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia	pt_BR
dc.publisher.program	Programa de Pós-Graduação em Engenharia Elétrica	pt_BR
dc.publisher.initials	UFRJ	pt_BR
dc.subject.cnpq	CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA	pt_BR
dc.embargo.terms	aberto	pt_BR
Appears in Collections:	Engenharia Elétrica

Files in This Item:

File	Description	Size	Format
LeonardoOliveiraMazza.pdf		8.75 MB	Adobe PDF	View/Open

Show simple item record Recommend this item View Statistics

Pantheon Institutional repository