Skip navigation
Please use this identifier to cite or link to this item: https://repository.esi-sba.dz/jspui/handle/123456789/71
Title: Implementation of A Temporal Video Coder Using Deep Neural Networks
Authors: EL MESTARI, SOumia Zohra
Keywords: Image Processing
Video Compression
Deep Neural Networks
Generative Models
Motion Estimation
Convolutional Neural Networks
Variational Auto-Encoder(VAE)
Issue Date: 2020
Abstract: During the last few years, the image and Video Compression technologies have grown by leaps and bounds. However, due to the popularization of image and video acquisition devices,the growth rate of image and video data is far beyond the improvement of the compression ratio. Moreover, it has been widely recognised that there are increasing challenges of pursuing further coding performance improvement within the traditional hybrid coding framework. Currently, existing standards perform poorly with specific contents. Thus, we find a tendency towards applying Neural Networks precisely and data driven techniques in general for Content based Compression. Capturing temporal redundancy for Video Coding purposes using Deep Learning can be done either Explicitly or Implicitly. In an explicit manner, the system has to be designed around a neural network unit made only to estimate motion given two successive frames. Such a system require another sub system to perform frame reconstruction given a previous frame and motion informations.This method is complex where the performance of the whole system rely entirely on the ability of the Motion Estimation unit. From another angle, in an implicit manner,a video can be seen as a set of frames related to one-another by a conditional temporal distribution. Hence by capturing and estimating this distribution using Variational Auto-Encoders, the video can be successfully projected into a lower dimensional space. This work have investigated both approaches, where the latest End-To-End Video Compression Using VAEs outperformed the latter one using Explicit Motion Estimation. Several design choices and techniques have been applied which led to competitive results. The variational Auto-encoder achieved a good reconstruction quality, PSNR reached 29.02 for related content video clips. While with explicit motion estimation the reconstruction scored lower: PSNR of 20.06 for video clips with motion patterns that similar to the the Flying Chairs dataset motion patterns.*** Au cours des dernières années, les technologies de compression d’images et de vidéo ont connu une croissance fulgurante. Cependant, en raison de la popularisation des dispositifs d’acquisition d’images et de vidéos, le taux de croissance des données d’images et de vidéos est bien supérieur à l’amélioration du taux de compression. En outre, il est largement reconnu que la poursuite de l’amélioration des performances de codage dans le cadre du codage hybride traditionnel pose de plus en plus de problèmes. Actuellement, les normes existantes sont peu performantes pour des contenus spécifiques. Ainsi, nous constatons une tendance à appliquer les réseaux neuronaux principalement, et les techniques axées sur les données en général pour la compression basée sur le contenu. La capture de la redondance temporelle pour le codage vidéo à l’aide de l’apprentissage approfondi peut être effectuée de manière explicite ou implicite. De manière explicite, le système doit être conçu autour d’une unité de réseau neuronal faite uniquement pour estimer le mouvement à partir de deux images successives. Un tel système nécessite un autre sous-système pour effectuer la reconstruction de l’image à partir d’une image précédente et des informations de mouvement. Une telle méthode est complexe lorsque la performance de l’ensemble du système dépend entièrement de la capacité de l’unité d’estimation du mouvement. Sous un autre angle, de manière implicite, une vidéo peut être vue comme un ensemble d’images liées les unes aux autres par une distribution temporelle conditionnelle. Par conséquent, en capturant et en estimant cette distribution à l’aide d’auto-encodeurs variationnels, la vidéo peut être projetée avec succès dans un espace dimensionnel inférieur. Ce travail a étudié les deux approches, où la compression vidéo de bout en bout utilisant les VAE a surpassé la dernière en utilisant l’estimation de mouvement explicite. Plusieurs modifications au niveau des architectures neuronales ont permis d’obtenir des résultats compétitifs. L’auto-codeur variationnel a atteint une bonne qualité de reconstruction , PSNR a atteint 29,02 pour les clips vidéo de contenu connexe. Alors qu’avec l’estimation explicite du mouvement, la reconstruction a obtenu un score inférieur : PSNR de 20,06 pour les clips vidéo dont les modèles de mouvement sont similaires à ceux de l’ensemble de données Flying Chairs.
Description: M BENSLIMANE Sidi Mohamed Encadreur Mme MOKRAOUI Anissa Co-Encadreur
URI: https://repository.esi-sba.dz/jspui/handle/123456789/71
Appears in Collections:Ingénieur

Files in This Item:
File Description SizeFormat 
PFE_ElMestari_Soumia_Zohra.pdf231,21 kBAdobe PDFView/Open
Show full item record


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.