Generating 3D Building Models from Textual Descriptions

MESBOUT, DJamel EDdine; BABAOUSMAIL, ZAkaria

Full metadata record

DC Field	Value	Language
dc.contributor.author	MESBOUT, DJamel EDdine	-
dc.contributor.author	BABAOUSMAIL, ZAkaria	-
dc.date.accessioned	2024-09-18T09:10:01Z	-
dc.date.available	2024-09-18T09:10:01Z	-
dc.date.issued	2024	-
dc.identifier.uri	https://repository.esi-sba.dz/jspui/handle/123456789/611	-
dc.description	Supervisor : Mr. Belkacem KHALDI Co-Supervisor : Mr. Mohammed BEKKOUCHE	en_US
dc.description.abstract	This report introduces a novel two-stage approach for generating accurate 3D building models from textual descriptions, addressing a critical challenge in architectural design and game asset creation. In the first stage, we leverage the power of a finetuned Stable Diffusion model, a leading text-to-image synthesis approach, to generate high-fidelity images from textual prompts detailing specific building features. Subsequently, these generated images are processed by InstantMesh, a state-of-the-art 3D object reconstruction model, to generate detailed 3D representations. To enhance the accuracy and quality of the generated models, we meticulously curated a specialized dataset of building images, employing the advanced annotation and summarization capabilities of LLaVa and LLaMa 3. Our experimental results demonstrate the effectiveness of this dual-stage pipeline in accurately translating textual descriptions into precise 3D models. While the current framework shows promising results, we acknowledge there is room for further refinement and optimization. This work paves the way for streamlining the creation of 3D building models, offering significant benefits to architects in the early stages of conceptual design and providing valuable assets for the gaming industry. *** Ce rapport pr´esente une nouvelle m´ethode en deux ´etapes pour cr´eer des mod`eles 3D r´ealistes de bˆatiments `a partir de donn´ees textuelles, r´esolvant ainsi un d´efi majeur dans les domaines de la conception graphique et de la cr´eation de ressources pour les jeux vid´eo. Dans un premier temps, nous utilisons la puissance du mod`ele Stable Diffusion, une technique de g´en´eration d’images avanc´ee, pour g´en´erer des images fiables `a partir de descriptions textuelles de bˆatiments sp´ecifiques. Ensuite, ces images sont trait´ees avec InstantMesh, une m´ethode de g´en´eration 3D d’´etat de l’art, pour cr´eer des objets 3D d´etaill´es. Pour am´eliorer la pr´ecision et la qualit´e des mod`eles g´en´er´es, nous avons soigneusement constitu´e un ensemble de donn´ees d’images et d’objets 3D en tirant parti des capacit´es avanc´ees d’annotation et de r´esum´e de LLaVa et LLaMa 3. Les r´esultats de la recherche d´emontrent l’efficacit´e de ce r´eseau pour g´en´erer des informations d´etaill´ees sur chaque bˆatiment. Bien que le cadre actuel donne des r´esultats prometteurs, nous reconnaissons qu’il existe des possibilit´es de raffinement et d’optimisation suppl´ementaires. Ce travail fournit un moyen de simplifier la cr´eation de mod`eles 3D de bˆatiments, ce qui b´en´eficiera grandement aux architectes d`es les premi`eres ´etapes de la conception et fournira des outils pr´ecieux pour la production de jeux vid´eo.	en_US
dc.language.iso	en	en_US
dc.subject	3D	en_US
dc.subject	Computer Vision	en_US
dc.subject	Natural Language Processing	en_US
dc.subject	Text To Image	en_US
dc.subject	Tmage To 3D	en_US
dc.subject	Text To 3D	en_US
dc.title	Generating 3D Building Models from Textual Descriptions	en_US
dc.type	Thesis	en_US
Appears in Collections:	Ingenieur