Home > Vol. 37, No. 1

그래픽 디자인 분야에서 GAN의 활용 방안 및 영향 연구
The Usage and Impact of GAN in Graphic Design
  • Mingzhu Cui : Department of Life Human Environment & Design/Human life & Innovation Design, Student, Yonsei University, Korea
  • Mingzhu Cui : 연세대학교 생활디자인학과/인간생애와 혁신디자인학과, 학생, 서울, 대한민국
  • Mansoo Kim : Department of Life Human Environment & Design, Student, Yonsei University, Korea
  • 김 만수 : 연세대학교 생활디자인학과, 학생, 서울, 대한민국
  • Suji Choi : Department of Life Human Environment & Design/Human life & Innovation Design, Student, Yonsei University, Korea
  • 최 수지 : 연세대학교 생활디자인학과/인간생애와 혁신디자인학과, 학생, 서울, 대한민국
  • Sangwon Lee : Department of Life Human Environment & Design, Professor, Yonsei University, Korea
  • 이 상원 : 연세대학교 생활디자인학과/인간생애와 혁신디자인학과, 교수, 서울, 대한민국

연구배경 최근 인공지능은 급속히 응용 영역을 확장하고 있으며 디자인 분야에서도 마찬가지 인공지능의 발전에 대하여 크게 주목하고 있다. 디자인 분야에서의 인공지능에 대한 논의는 대부분은 거시적이거나 추상적인 관점에서 살펴보는 연구들이며 실제로 디자인과 관련된 사례나 응용에 대한 연구와 논의는 매우 드물다. 이에 본 연구에서는 최근 급속히 응용 영역이 확장되고 있는 딥러닝 모델인 GAN을 살펴봄으로써 그래픽 디자인 분야에 미치게 될 영향을 알아보고자 한다.

연구방법 인공지능 학술지에 등재된 리뷰 논문에 대하여 면밀하게 살펴보았고 그중 연구 범위에 포함된 그래픽 디자인 세부 요소와 연관된 애플리케이션들을 선택하였다. 추가로 인공지능 분야에 가장 영향력이 있는 학술지 7개를 선택하여 컬러, 폰트, 레이아웃, 로고를 GAN과 결합하여 검색하였으며, 수학적 모델보다는 디자인적 응용에 초점을 두었다. 각 GAN 모델의 핵심 개념과 특징에 대하여 분석함으로써 미래 그래픽 디자인 프로세스에서 어떻게 활용 가능할지에 대한 시사점을 도출하였다.

연구결과 GAN 프로그램은 생성 능력, 혼합 능력, 지능화, 모방성 및 자동화라는 특징을 가지므로 그래픽 디자이너에게 소소 확장, 영감 촉진 및 효율 증대를 가져다줄 것이다. 이러한 효과는 그래픽 디자인을 하는 과정에서 클라이언트와의 대화에 유용한 커뮤니케이션 도구로 사용될 수 있으며 아이디어를 제안하거나 방안을 수립하는 단계에서도 영감을 촉진하고 편리를 상승하는 효과를 초래할 수 있다. 그 외 GAN은 지능화된 인터랙션 도구로서, 특히 아이디어 창출은 기존의 디자인 프로그램에 비해 더 뛰어난 효과를 가져다줄 것이다.

결론 GAN 프로그램은 그래픽 디자이너에게 무한한 이미지 소스 확장은 물론이고 영감 촉진, 효율 증대를 가져다줄 것이다. GAN 프로그램의 한계점이라면 데이터를 기반으로 학습된 모델이므로 전혀 새로운 아이디어를 창조하기에는 어려움이 존재할 수 있다는 것이다. 또한 현재까지는 GAN 모델에 대한 이해는 한정적이라 할 수 있으며 향후 더 주목하여 살펴볼 필요가 있다.

Abstract, Translated

Background Artificial intelligence had been rapidly expanding its application areas and the design discipline is not an exception. While the majority of previous design studies viewed artificial intelligence from the macroscopic or abstract point of view, few studies have investigated its implication in terms of practical applications. This study intends to understand and predict the impact that artificial intelligence will have on the graphic design field by focusing on GAN (Generative Adversarial Network) of deep learning models.

Methods We looked closely at review papers registered in AI journals, and selected applications related to graphic design elements included in the research scope. Especially, typography (font), layout, color and logos were searched by combining them with GAN. We also focused on design applications rather than mathematical models. By analyzing the core concepts and characteristics of each GAN model, implications for how it can be utilized in the future graphic design process, were derived.

Results Since the GAN program has the characteristics of generation, mix generation, intelligence, imitativeness and automation, it will bring source expansion, promotion of inspiration and increase of convenience to graphic designers. This effect can be used as a useful communication tool for conversations with clients in the graphic design process, and can promote inspiration and increase convenience even at the stage of proposing ideas or establishing plans. In addition, GAN is an interactive tool that is composed of intelligence. Especially, idea creation will bring more excellent effects than existing design programs.

Conclusions The GAN program will not only enhance the current graphic design tasks, but also bring changes to idea generation, the scope of expression, and even the role itself. However, its data-based nature may restrict itself from coming up with a truly novel idea. We have a limited understanding of the program’s capacity and potential and need to carefully monitor its future progress.

Keywords:
Generative Design, Graphic Design, GAN, Generative Adversarial Network, Artificial Intelligence, 그래픽 디자인, 인공지능.
pISSN: 1226-8046
eISSN: 2288-2987
Publisher: 한국디자인학회Publisher: Korean Society of Design Science
Received: 13 Dec, 2021
Revised: 15 Aug, 2022
Accepted: 26 Aug, 2022
Printed: 30, Nov, 2022
Volume: 35 Issue: 4
Page: 285 ~ 307
DOI: https://doi.org/10.15187/adr.2022.11.35.4.285
Corresponding Author: Sangwon Lee (sangwon.lee@yonsei.ac.kr)
PDF Download:

Funding Information ▼
Citation: Cui, M., Kim, M., Choi, S., & Lee, S. (2022). The Usage and Impact of GAN in Graphic Design. Archives of Design Research, 35(4), 285-307.

Copyright : This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0/), which permits unrestricted educational and non-commercial use, provided the original work is properly cited.

1. 서론
1. 1. 연구 배경 및 목적

최근 인공지능 관련 기술은 비약적으로 발전하고 있으며 우리의 삶에 빠르게 침투하고 있다. 디자인과 연관된 연구를 보면 인공지능에 대한 정의에서 시작하여 인공지능에 대한 인식(Kang & Joo, 2020; Lee, 2019), 인공지능 시대의 창의성(Esling & Devis, 2020), 인공지능의 창의력(Choi & Son, 2017), 인공지능 활용 사례 연구(Han, 2020), 인공지능 시대의 디자인 프로세스(Joung & Kim, 2018), 인공지능 시대의 디자이너 역할(Joung & Kim, 2018) 등이 있다. 그러나 대부분의 연구들이 인공지능을 거시적, 추상적 관점에서 본 것으로 실제 디자인과 관련된 개별 연구는 무엇이고 구체적으로 어떻게 응용할 수 있는지에 대한 연구는 매우 미흡하다. 이에 본 연구는 그래픽 디자인 분야에 초점을 두고 인공지능 생성 모델의 일종인 Generative Adversarial Network(GAN)의 응용 방향 및 디자인에 미칠 영향에 대해 알아보고자 한다. GAN은 2014년 출시로부터 현재에 이르기까지 여전히 폭발적인 성장세를 보여주고 있으며(Gui et al., 2020) 혁신적 연구도 매년 등장하고 있다(Wu et al., 2017; Creswell et al., 2018; Hong et al., 2019; Gui et al., 2020; Xia et al., 2021). 하지만 이러한 연구들은 모두 인공지능 전문가들을 위한 기술에 초점을 둔 연구들이며 주로 GAN의 이론과 학습 개선 및 아키텍처에 관하여 연구하였다. 따라서 본 연구에서는 1) 디자이너에게 GAN의 기본원리를 설명하고, 2) 그래픽 디자인과 관련된 GAN을 활용한 애플리케이션을 소개한 후, 3) 이러한 애플리케이션들의 특징을 분석하여 그래픽 디자인 분야에 어떠한 영향을 미칠지에 대하여 파악하고자 한다.

1. 2. 연구 범위 및 방법
1. 2. 1. 연구 범위

그래픽 디자인 분야에는 브랜딩 디자인, 편집 디자인, 패키지 디자인, 웹 디자인, 앱 디자인, 포스터 디자인 등 다양한 디자인(Table 1)이 포함되므로 본 연구에서는 Table 1을 기반으로 그래픽 디자인 분야에서 자주 사용되는 세부적인 시각적인 디자인 요소인 이미지, 컬러, 레이아웃, 로고 및 타이포그래피를 중심으로 연구를 진행하였다.

Table 1
Graphic design element

그래픽 디자인 시각적인 요소 출처
브랜딩 디자인 시각요소 네이밍, 심벌, 컬러, 타이포그래피 (2차 요소- 슬로건, 캐릭터) 김장훈, 2020
편집 디자인 시각요소 타이포그래피, 레이아웃, 시각 이미지 김정아, 2015
패키지 디자인 시각요소 네이밍, 로고, 컬러, 레이아웃, 타이포그래피, 일러스트레이션 장창식, 2017
웹사이트 디자인 시각요소 레이아웃, 그래픽, 컬러, 타이포그래피 황진원, 2012
앱 UI/UX 디자인 시각요소 레이아웃, 컬러, 타이포그래피, 아이콘 박일권, 2015
포스터 디자인 시각요소 (정적) 레이아웃, 로고, 일러스트레이션, 이미지, 컬러, 사이즈 전혜연, 2020

2장에서는 GAN의 기본원리, 3장에서는 GAN에 관한 연구들을 기능별로 소개할 것이며 리뷰 논문에서 언급된 논문 중에서 질적으로 우수한 논문을 선정하기 위하여 Table 2에 등재된 논문을 중심으로 선택하였다. Table 2는 2021년 Google Scholar 기준으로 인공지능(Artificial Intelligence), 컴퓨터 시각(Computer Vision Pattern Recognition), 컴퓨터 그래픽(Computer Graphics) 분야에서 각각 상위 학술지 10개 중 GAN에 관련된 연구가 매우 적은 학술지가 23개를 제거한 후 ArXiv를 추가한 학술지 리스트이다. ArXiv를 추가한 이유는 심사 중인 연구 및 비기술적인 연구도 포함시키기 위함이다.

Table 2
List of selected journals

No. Journal Title
1 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
2 IEEE/CVF International Conference on Computer Vision (ICCV)
3 European Conference on Computer Vision (ECCV)
4 International Conference on Learning Representations (ICLR)
5 International Conference on Machine Learning (ICML)
6 ACM Transactions on graphics (TOG)
7 International Conference on Machine Learning and Applications (ICMLA)
8 https://Arxiv.org

1. 2. 2. 연구 방법

1) 먼저 인공지능 학술지에 등재된 GAN에 관한 리뷰 논문에 대하여 면밀하게 살펴보았고 리뷰 논문에서 정리된 애플리케이션에 대하여 재정리 및 통합 작업을 진행하였다. 2) 다음으로 그래픽 디자인과 완전히 관련성이 없는 타 분야 애플리케이션과 그래픽 디자인 분야와는 연관성이 매우 적은 애플리케이션에 대하여서도 제거하였다. 3) 제거 후 남은 애플리케이션들은 대부분은 이미지와 관련된 연구이며 컬러, 레이아웃, 로고 및 타이포그래피와 관련된 연구는 매우 미흡하였다. 그리하여 컬러, 레이아웃, 로고 및 타이포그래피에 관한 연구들을 앞에서 언급한 Table 2 학술지에서 추가로 검색하여 연구 범위에 포함 시켰다. 4) 마지막으로 최종 선택된 애플리케이션에 대하여 면밀하게 살펴보았으며 대응되는 GAN에 대하여 기능별로 하나씩 선택하여 서술하였고 이들의 특징을 종합적으로 분석하여 그래픽 디자인 분야에 어떠한 영향을 미칠지에 대한 시사점을 도출하였다.

구체적으로 설명하면 GAN 출시로부터 2021년까지 인공지능 학술지에 등재된 리뷰 논문 (Wu et al., 2017; Creswell et al., 2018; Hong et al., 2019; Gui et al., 2020; Xia et al., 2021)에서 그래픽 디자인 세부 요소와 관련된 애플리케이션들은 어떤 것이 있고 또한 어떠한 기능을 구현할 수 있는지 파악하고자 하였으며, 이에 대하여 정리해본 결과는 다음과 같다(Table 3).

Table 3
Review papers and applications

Authorship Application
Wu et al.,2017 1. Image Synthesis (Texture synthesis, Image super resolution, Image inpainting)
2. Face image synthesis (Face aging, Face frontalization, Human image synthesis)
3. Constrained Image Synthesis(Image to image translation, Text to image, Sketch to image)
4. Image Editing and Videos(Image editing, Video generation)
Creswell et al.,2018 1. Classification and regression 2. Image synthesis
3. Image-to-image translation 4. Super resolution
Hong et al.,2019 1. Image (Image translation, Super resolution, Object detection, Object transfiguration, Joint image generation, Video generation, Text to image, Change facial attributes
2. Sequential data (Music generation, Text generation, Speech conversion)
Gui et al.,2020 1. Image processing and computer vision (Super resolution, Image synthesis and manipulation, Face, General object, Texture synthesis, Object detection, Video applications )
2. Other image and vision applications (Object transfiguration, semantic segmentation, visual saliency prediction, object tracking, image dehazing, natural image matting, image inpainting, image fusion, image completion, image classification)
3. Sequential data (Natural language processing, Music, Speech and Audio)
4. Other application (Medical field, Data science)
Xia et al.,2021 1. Image Manipulation 2. Image Restoration 3. Image Interpolation 4. Style Transfer
5. Compressive Sensing 6. Other Tasks (Interactive Generation, Semantic Diffusion,
Category Transfer, Adversarial Defense, image classification)

보다시피 저자가 다름에 의하여 분류 방식과 사용되는 용어가 달랐으며, 또한 매년 새롭게 등장하는 애플리케이션 때문에 통합 및 재정리 작업이 필요하였다. 먼저 매개 애플리케이션에 대한 기능에 관하여 면밀하게 파악한 후 용어상 같은 의미를 제시하는 단어끼리 하나로 묶었으며, 다음으로 GAN의 발전으로 인하여 통합이 필요한 애플리케이션도 존재하므로 통합 및 정리 작업을 진행하였다(Table 4). Image synthesis에는 얼굴, 개체, 사람, 텍스처 등 다양한 생성을 모두 포함 시켰고, Change facial attributes, Test to image, Sketch to image는 이미지 생성으로부터 편집까지 모두 가능하도록 발전되었으므로 Interactive Generation에 포함시켰으며, Image Interpolation, Classification and regression은 이미지 간의 점진적 변화 등을 의미하므로 이미지 생성의 일종으로 간주하여 Image synthesis에 포함시켰다.

Table 4
Terms before and after integration

통합 전 통합 후
Image synthesis, General object, Face synthesis, Texture synthesis, Human image sythesis, Face aging, Face frontalization, Image Interpolation, Classification and regression, Joint image generation Image synthesis
Interactive Generation, Image synthesis and manipulation, Change facial attributes, Test to image, Sketch to image Interactive Generation
Image Super resolution, Super resolution Image Super resolution
Image editing, Image manipulation, Image editing
Image Translation, Style Transfer, Image to image transfer, Category Transfer Image Translation

통합 작업을 마친 후 먼저 그래픽 디자인과 완전히 관련이 없는 애플리케이션에 대하여서도 제거 작업을 진행하였으며, 이에는 음악, 텍스트, 스피치와 같은 순차적 데이터를 활용한 연구와 의료, 데이터 사이언스 등과 같은 타 분야 연구가 포함된다. 2017년과 2018년에서는 제거한 것이 없고, 2019년에서는 Music generation, Text generation, Speech conversion을 제거, 2020년에서는 Natural language processing, Music, Speech and Audio, Medical field, Data science를 제거하였으며, 2021년에서는 Compressive Sensing과 Adversarial Defense를 제거하였다.

다음으로 나머지 애플리케이션에 중 그래픽 디자인과 연관성이 적다고 판단되는 애플리케이션에 대하여서도 필터링 작업을 진행하였다. 구체적으로 설명하면 Image dehazing, Image fusion은 CCTV, 카메라, 영상 촬영 등과 같은 화면 속의 안개를 제거하거나 밝기를 조절하는 애플리케이션이고, Semantic segmentation, Image classification, Visual saliency prediction, Natural image matting은 자율주행에 많이 활용 가능한 애플리케이션인데, 주로 화면 속의 모든 개체에 대하여 의미론적 분할, 분류 및 중요한 요소를 찾아내는 애플리케이션들이며, Video generation, Joint image generation, Object tracking은 영상 생성과 움직이는 개체를 추적하는 애플리케이션이다. 이러한 애플리케이션들은 모두 그래픽 디자인의 세부 요소 중 하나인 이미지와 일정한 관련성은 있지만, 영상에 더 가까운 애플리케이션들이며, 본 연구에서는 영상에 관련 연구를 포함시키지 않았으므로 이상의 애플리케이션들도 연구 범위에 포함시키지 않았다. 그 외 추가로 제거하기로 판단한 애플리케이션들로는 삭제되거나 오래된 이미지를 회복할 수 있는 Image completion, Image Restoration, Image inpainting이 존재한다(Figue 1). 하지만 이러한 애플리케이션들도 향후 다양한 방향으로 발전되어 그래픽 디자인 분야에서도 활용될 가능성도 존재한다.


Figure 1 Application included and excluded from the scope of the study

보다시피 이상의 리뷰 논문에서는 연구 범위에 포함한 그래픽 디자인 세부 요소인 컬러, 로고, 타이포그래피, 레이아웃에 관한 연구는 매우 미흡하였다. 그리하여 보편적으로 많이 사용되고 있는 Google scholar와 Web of science에서 2014년 GAN의 출시로부터 2021년 6월까지 컬러, 로고, 타이포그래피, 레이아웃에 관련된 GAN 연구들에 대해 추가적인 검색을 진행해 보았다. 검색 방법으로는 “color”+“gan”과 같이 디자인 요소에 gan과 generative adversarial network를 키워드를 각각 조합하여 검색하였다. 타이포그래피는 타 분야에서는 익숙한 단어가 아니므로 "폰트"라는 키워드로 추가로 검색하여 포함시켰다. 검색한 결과로는 로고에 관한 연구는 총 15개, 컬러는 325개, 레이아웃은 88개, 타이포그래피(폰트)는 24개가 검색되었다. 여기에는 반도체에 사용되는 GaN(질화갈륨) 연구도 포함되므로 양적으로 많은 결과가 나왔다. 하지만 그중 Table 2에 등재된 논문만 선택하면 타 분야 논문은 모두 필터링이 되며, 중복되는 연구와 같은 기능을 구현하는 연구 중 하나만 선택하면 최종 컬러는 3개, 로고는 3개, 레이아웃은 1개, 타이포그래피는 2개가 남는다. 레이아웃을 제외한 모든 연구들은 리뷰 논문에서 언급한 애플리케이션에 포함될 수 있고 레이아웃은 디자인 파일에 tag를 추가하여 데이터를 입력해야 한다는 점에서 특이한 사례였다(Figue 1).

2장에서는 디자이너가 쉽게 이해할 수 있는 방식으로 GAN의 정의 및 구조에 대하여 설명하였다. 3장에서는 Table 4에서 최종 연구에 포함한 애플리케이션에 연관되는 GAN에 대해 살펴보았고, 그 외 추가로 검색한 컬러, 로고, 레이아웃, 타이포그래피에 관련된 연구에 대하여서도 면밀하게 연구를 진행하였다. 그 외 시중에 있는 유명한 사례도 몇 개 추가하여 설명하였다. 4장에서는 이러한 애플리케이션들에 대해 분석하였으며 향후 그래픽 디자이너에게 어떠한 영향을 미칠지 연구 및 논의하였다.

2. GAN의 정의 및 구조

Generative Adversarial Network(GAN)은 생성 모델의 일종으로서, Ian Goodfellow에 의해 2014년에 소개되었다(Goodfellow et al., 2014). GAN의 기본 구조 및 학습 과정은 다음과 같다(Figure 2). GAN은 적대적(Adversarial)이라는 용어에서 유추할 수 있듯이, GAN을 구성하는 생성기(Generator)와 판별기(Discriminator)가 서로 경쟁하는 과정을 통해 데이터를 학습하며 새로운 데이터를 생성하는 인공지능 모델이다(Figure 1). Real은 학습에 사용할 진짜 데이터이고 Z(Latent vector)는 가짜 데이터를 생성하는데 필요한 잠재적 변수이다. Z는 생성기를 거쳐 가짜 데이터(Fake)를 생성한 후 진짜 데이터와 함께 판별기에 입력된다. 판별기는 가짜 데이터와 진짜 데이터를 판별하는 작업을 하며, 판별 과정 판별손실(D loss)과 생성손실(G loss)을 얻는다. 판별손실과 생성손실은 이를 최소화하는 과정을 통해 판별기와 생성기의 능력을 향상시킨다. 이렇게 생성기와 판별기는 ‘서로 대적하는 과정’을 통해 능력이 강화되며, 최종 생성기의 생성능력이 강해져 판별기가 더 이상 가짜 데이터와 진짜 데이터를 판별하지 못하는 것을 목표로 한다.


Figure 2 Generative Adversarial Network (GAN)

Goodfellow는 GAN에 대하여 생성기에 해당하는 위조지폐범과 판별기에 해당하는 경찰관의 관계로 설명하였다. 위조지폐범은 경찰을 속이기 위하여 위조지폐 생성 기술을 발전시키고, 반대로 경찰관은 위조지폐범을 잡기 위해서 판별 기술을 발전시킨다. 시간이 흐름에 따라 위조지폐 생성 기술은 완벽에 가까워지며 경찰관은 더 이상 진위를 판별할 수 없게 된다. 이러한 방식의 가장 큰 장점은 우리가 원하는 데이터를 얻어내기 위해 생성기나 판별기에게 그 어떤 수치나 공식을 제시할 필요가 없다는 것이다. 우리는 이론적으로 닮기를 원하는 진짜 데이터와 적대적 경쟁 관계 및 참/거짓 판정만으로도 실제와 닮은 그럴듯한 데이터들을 얻어낼 수 있다.

3. 응용 분야

이 장에서는 최종 연구 범위에 포함한 애플리케이션과 추가로 검색한 컬러, 레이아웃, 타이포그래피, 로고에 관한 애플리케이션에 대하여 서술하였다(Figure 1). 특히, 그래픽 디자인 분야에서 활용 가능성이 높은 대표적 GAN 확장 구조인 Conditional GAN(Mirza & Osindero, 2014)과 CycleGAN(Zhu et al., 2017)를 상세히 분석하였다.

3. 1. 이미지

이미지는 그래픽 디자인 분야에서 가장 기본적이고 중요한 요소로서 이미지 생성, 이미지 편집, 이미지 변환, 인터랙티브 제너레이션, 이미지 초 해상도로 분류하였다.

3. 1. 1. 이미지 생성 (Image synthesis)

① 제어 불가능한 이미지 생성 모델

제어 불가능한 이미지 생성 모델은 학습 데이터양에 따라 1) 대량의 데이터를 학습시키는 모델과 2) 단일 데이터를 학습시키는 모델로 분류할 수 있다. 대량의 데이터를 학습시키는 대표적인 모델에는 기본 GAN 있으며, 이외에 BiGAN(Donahue et al., 2017), PROGAN(Karras et al., 2018), Self-Attention GAN(Zhang et al., 2019), BigGAN(Brock et al.,2019) 등이 있다. Self-Attention GAN(SAGAN)을 기반으로 한 BigGAN은 큰 치수 이미지를 생성시키는데 발생하는 학습 붕괴 문제를 해결함으로써 품질 및 치수 면에서 좋은 성과를 얻었다(Wang et al., 2020). 이는 큰 치수 이미지 생성 발전을 촉진시켰으며, 근미래에 그래픽 디자이너가 원하는 품질과 규격을 모두 만족시키는 모델이 등장할 것으로 본다. Figure 3은 BigGAN을 활용하여 같은 장소에서 촬영한 나비 이미지들을 학습시켜 유사한 나비 이미지를 무작위로 생성시킨 사례이다.


Figure 3 BigGAN

단일 이미지 생성 모델은 입력한 단일 이미지를 학습 데이터로 사용하며, 이미지 내의 모든 구성 요소들을 재구성하여 새로운 이미지를 생성시킨다. 이와 유사한 모델에는 InGAN(Shocher et al., 2019), SinGAN(Shaham et al., 2019) 등이 있다. SinGAN은 단일 이미지 생성은 물론이고 이미지 편집, 이미지 초 해상도 및 영상 생성까지도 가능하다. 단일 이미지만으로도 이러한 기능들을 모두 구현 가능하다는 점에서 디자이너에게 현실적으로 매우 유의미하다. Figure 4는 SinGAN을 활용하여 새롭고 다양한 크기 이미지를 재구성한 사례이다.


Figure 4 SinGAN

대량의 데이터를 학습시키는 생성 모델은 학습 완료 후, 일정한 양의 유사한 데이터를 무작위로 생성할 수 있으므로 그래픽 디자이너에게 필요한 이미지 소스를 짧은 시간 내에 대량으로 제공할 수 있다. 단일 이미지를 학습시키는 생성 모델은 입력한 이미지를 새로운 이미지로 재구성할 뿐만 아니라 다양한 크기로 출력할 수 있으므로, 별도의 이미지 편집 없이 이미지 소스를 다양화시킬 수 있다. 그러나 두 유형은 모두 디자이너의 제어 및 조작이 제한되었기 때문에, 원하는 이미지를 정확하게 얻어내는 데에는 어려움이 있다. 이런 경우 앞으로 살펴볼 제어가 가능한 이미지 생성 모델 더 활용도가 높고 실용적일 수 있다.

② 조건부 생성 모델

이미지 생성 시 조건을 통해 제어가 가능한 모델을 CGAN(Conditional GAN)이라고 한다. 이 모델은 이미지 외에 조건 정보를 추가로 받는다.

기본적인 CGAN의 구조는 다음과 같다(Figure 5). G는 생성기이고 D는 판별기이다. 학습에 사용하는 진짜 이미지는 X, Y이며 각각 강아지와 고양이라는 정보(레이블)가 부가되어 있다. 잠재 변수 Z는 X, Y에 부가된 정보(강아지 또는 고양이)와 결합한 뒤 생성기 G를 거쳐 가짜 이미지를 생성한다. 이때 가짜 이미지와 진짜 이미지는 모두 원래 정보와 결합되어 판별기에 보내지는데, 판별기는 진짜 이미지와 이에 매칭하는 정보를 가진 입력만 진짜로 판정하고자 노력하며, 생성기는 이를 속이기 위해 강아지 또는 고양이라는 정보에 매칭하는 진짜와 비슷한 개나 고양이를 생성하고자 노력한다. 학습이 완료되면 결과적으로 생성기는 사용자가 제공하는 정보(개 또는 고양이)에 따라 이에 해당하는 실제와 비슷한 이미지를 생성한다.


Figure 5 Conditional GAN

CGAN의 처음으로 이미지 생성을 제어할 수 있는 방향으로 발전 가능케 하였으며, 이 모델을 기반으로 텍스트, 배치, 스케치, 의미론적 맵 등 다양한 제어 방식이 등장하게 되었다. 구체적으로는, 자연어를 입력하면 이미지를 생성시키는 모델은 사람이 서술한 문구들을 분석, 조건 정보로 사용한다. 대표적으로 StackGAN++(Zhang et al., 2018)는 새의 형태와 색상을 간단한 문구로 서술하여 부합되는 이미지를 생성시켰다(Figure 6A). BachGAN(Li et al., 2020)은 단어와 프레임의 조합을 조건 정보로 사용하여 이미지 속 구성 요소와 그에 대응하는 위치 및 크기를 제어할 수 있다(Figure 6B).


Figure 6 (A) StackGAN++ (B) BachGAN

Pixel2style2pixel(Richardson et al., 2021)은 백인, 황인, 흑인의 얼굴 형태, 머리, 표정 등을 구역으로 나누어 제어할 수 있으며(Figure 7A), Wang et al.(2021)은 간략한 스케치와 단어 조합을 조건으로 입력해서 이에 부합하는 다양한 이미지를 생성시켰다(Figure 7B).


Figure 7 (A) Pixel2style2pixel (B) Wang et al., 2021

이러한 다양한 제어 방식은 사용 시나리오에 따른 디자이너의 사용 가능한 선택의 폭을 확장시켰다. 기존에는 디자이너들이 촬영 혹은 소스 사이트에서의 구매를 통해 포스터, 잡지, 광고 등에 필요한 이미지를 얻었다면 근미래에는 조건부 생성 모델로 자신이 원하는 이미지를 얻을 수 있을 것이다. 생성된 이미지는 저작권에 대한 제한이 없어 상업적으로 자유롭게 사용할 수 있는 것이 큰 장점이다. 또한 텍스트를 통해 원하는 이미지를 즉시 생성이 가능하다는 점에서 클라이언트와 의사소통하는 과정에서 특정 감성 어휘에 해당하는 시각적 레퍼런스를 즉시 제공하여 효율적인 커뮤니케이션을 도울 수 있을 것이다.

③ 반 제어 생성 모델(Style Mixing & Image Interpolation)

조건부 생성 모델보다 더 섬세한 제어가 가능한 모델의 일종으로, 본 연구에서는 예시 이미지를 통해 새로운 이미지 생성을 제어하는 것을 반 제어 생성 모델로 정의하였다. 여기에는 스타일 믹서(Karras et al., 2019)와 두 이미지 간의 점진적 변화(Donahue et al., 2017)가 포함된다. 스타일 믹싱은 StyleGAN에서 제시되었으며, Source A와 Source B 간의 특징을 혼합하여 매우 해상도가 높은 새로운 이미지를 생성시킨다(Figure 8). 또한 혼합 정도를 조절할 수 있는데, 얼굴 형태와 같은 고 수준의 변형에서부터 눈매, 머리칼과 같은 점차 작은 수준에서의 스타일 혼합이 가능하다. 이러한 제어 방식은 CGAN과 전혀 다르며, 학습 과정에서 집어넣은 노이즈를 제어하여 이미지의 특징을 제어한다. 이를 활용한 얼굴 생성은 이미 진위를 구분하기 힘든 고품질 이미지를 생성할 수 있으며 디자이너가 활용할 수 있는 수준까지 도달하였다.


Figure 8 StyleGAN (Style Mixing)

비주얼 아티스트 NATHAN SHIPLEY(www.nathanshipley.com)은 StyleGAN2를 활용하여 WikiArt(a) 작품과 Beeple 작품(b)을 혼합하여 Figure 9(a+b) 이미지를 생성시켰다. 이는 스타일 믹서가 두 가지 서로 다른 스타일의 이미지의 특징을 혼합하여 새로운 스타일의 이미지를 생성하는 창조력을 갖고 있음을 보여준다.


Figure 9 StyleGAN2 (Style Mixing)

'두 이미지 간의 점진적 변화'(Image Interpolation)도 두 이미지 스타일 혼합의 일종으로 간주할 수 있다. BigGAN, StyleGAN, Glyph(Hayashi et al., 2019), PISE(Zhang et al., 2021) 등 다양한 GAN 모델은 모두 이 기능을 구현할 수 있으며, Figure 10은 BigGAN을 활용한 사례이다.


Figure 10 BigGAN (Image Interpolation)

이미지 간의 점진적 변화(BigGAN)는 생성된 데이터 간의 픽셀 분포를 여러 단계로 나누어서 보여주는 결과이다. 기존에서는 생성된 데이터 간에서만 점진적 변화가 가능하였으나, 현재는 입력한 데이터도 가능케 발전되었다(SalS-GAN), 이것이 가능한 이유는 입력한 데이터를 역전 및 분석하여 똑같은 이미지를 생성시켜 통계 된 노이즈 분포를 찾아갈 수 있기 때문이다. 그러므로 디자이너들은 자신이 촬영한 이미지를 입력하여 두 이미지 간의 점진적 변화를 관찰할 수 있다.

반 제어 생성 모델은 그래픽 디자이너에게 이미지 소스를 제공 가능할 뿐만 아니라 아이디어 발상에도 도움이 될 것이다. '스타일 믹서'는 서로 다른 스타일 이미지를 믹서하여 여러 이미지를 소스로 제공해 줄 뿐 아니라 중간 단계의 새로운 스타일을 제공해 줄 수 있으므로 디자이너가 특정 방향으로 발전시키거나 새로운 스타일을 모색하는 데에 도움이 될 수 있다. '두 이미지 간의 점진적 변화'는 중간 단계의 다양한 시각적 변화를 보여줄 수 있으므로, 기술적으로 발전한다면 로고, 폰트, 패턴, 이미지 등의 미세한 변화를 보여주어 다양한 그래픽 디자인 영역에서 아이디어 발상 또는 최적의 안 도출에도 도움이 될 것이다.

3. 1. 2. 이미지 변환(Image translation)

이미지 변환은 어떠한 특성을 공유하는 한 이미지 집합을 다른 특성을 가진 이미지 집합으로 변환하는 것으로 그 연구의 역사가 오랜 편이다(Hertzmann et al., 2001). 제일 처음으로 이 기능을 구현한 GAN 모델은 지도 학습을 사용한 Pix2pix(Isola et al., 2017)이며 뒤이어 스타일은 다르나 똑같은 내용의 데이터라는 필요조건을 제거한 비지도 학습인 CycleGAN(Zhu et al., 2017)이 등장하였다. 이후 StarGAN(Choi et al., 2018), pixel2style2pixel 등 다양한 모델이 출시되었는데 이 중 가장 대표적인 모델은 CycleGAN이라 할 수 있다.

CycleGAN은 두 개 생성기(G, F)와 두 개 판별기(Dx, Dy)로 구성되어 있고 두 가지 서로 다른 스타일 이미지 집합을 학습 데이터를 사용한다(Figure 11). G와 F는 주어진 이미지를 원래 이미지가 가진 스타일과 다른 스타일의 이미지로 변환시키는 생성기이며 Dx와 Dy는 각각의 스타일을 판별하는 것으로 생성기의 성능 향상을 돕는다. 그러나 이것만으로는 스타일뿐만 아니라 원 이미지의 내용조차도 완전히 변경될 수 있으므로 원래 이미지 Y를 생성기 F와 G를 연속해서 적용하여 나온 이미지가 원래 Y가 같도록 하는 조건을 추가한다(Figure 11c). 이를 cycle consistency loss라고 하며 X에 대해서도 같은 조건을 부여한다(Figure 11b).


Figure 11 CycleGAN

StyleGAN도 한 이미지의 스타일도 변화시킨다는 측면에서 반 제어 생성 모델일 뿐만 아니라 이미지 변환 모델이기도 한데, 비주얼 아티스트 NATHAN SHIPLEY는 Figure 12와 같이 실제 이미지를 투니파잉(Toonifying)하여 다양한 스타일로 재탄생시켰다. 이러한 이미지 변환 기술은 현재 모바일 마켓 또는 틱톡의 앱으로 상용화되어 실제 판매되고 있다. 기존에는 그래픽 디자인 작업 중 캐릭터화나 투니파잉 등이 쉽지 않았는데 한 이유는 디자이너가 이러한 작업을 위한 훈련이 되어 있지 않았거나 가능할지라도 업무량이 적지 않았기 때문이다. 따라서 이러한 이미지 변환 기능은 그래픽 디자이너에게 더 다양한 시각적 표현력의 가능성을 제공해 줄 것이다.


Figure 12 StyleGAN2
3. 1. 3. 이미지 편집(Image editing)

이미지 편집에 관한 GAN 모델도 매우 다양하다. PISE 모델(Zhang et al., 2021)은 입력한 이미지 속의 사람의 자세를 제시한 자세 라인에 맞게 재생성할 수 있다(Figure 13A). 인체의 모든 요소를 구역으로 나누고 구역의 모양(Semantic map)을 변경함으로써 실제 이미지 속의 요소도 함께 변경되는 편집 방식도 존재한다(Figure 13B).


Figure 13 (A) PISE(Change pose) (B) PISE (Edit part of an image)

FEGAN(Dong et al., 2020)은 흰 배경을 추가 및 스케치하는 방식으로 복장에 패턴을 추가하거나, 복장을 교환 및 변경하거나, 인체의 일부 부위를 수정하는 등과 같은 편집을 구현할 수 있고(Figure 14A) StyleCLIP(Patashnik et al., 2021) 모델은 간단한 명령어를 입력하는 방식으로 이미지 내의 일부 요소가 자동으로 편집된다(Figure 14B). 그 외에도 두 이미지 간의 자동 합성이 가능한 GP-GAN(Wu et al., 2019)도 존재한다.


Figure 14 (A) FEGAN (B) StyleCLIP

대량의 데이터를 기반으로 학습된 GAN은 이미지에 대한 의미론적 이해가 매우 뛰어나므로 전통적인 편집과 달리 지능적이고 더 높은 수준이 편집을 가능케 한다(Wu et al., 2017). 추후 대량의 데이터 학습을 통해 더욱 범위가 넓어지고 고도화된다면 이미지 조작을 하는 디자이너의 자유도가 훨씬 높아질 것이다.

3. 1. 4. 인터랙티브 제너레이션(Interactive Generation)

인터랙티브 제너레이션은 이미지 생성과 편집이 동시에 실현 가능하며 생성된 이미지로부터 세부적인 편집이 가능하다. 주로 스케치(GANpaint) 거나 속성(Wang et al., 2020), 텍스트(GauGAN2), 의미론적 맵(GauGAN2) 등 다양한 방식을 사용하고 있다. Figure 15는 NVIDA에서 출시한 GauGAN2 기반으로 개발한 Canvas 프로그램이다. 디자이너는 인터랙티브 제너레이션을 통하여 자신이 원하는 이미지를 찾아가거나 디자인 방안을 모색하는 데 활용할 수 있다. 특별히 지능화된 인터랙션은 스케치 스킬과 같은 전문 능력이 필요 없이 누구나 모두 활용 가능하다는 점에서 큰 장점을 갖고 있다.


Figure 15 Canvas (NVIDA)
3. 1. 5. 이미지 초 해상도(Image Super Resolution)

이미지 초 해상도는 저 해상도 이미지(LR)를 입력하여 고해상도 이미지(HR)를 출력하는 기능을 의미한다. SRGAN은 제일 처음으로 GAN을 활용하여 이미지 초 해상도를 실현한 모델이며(Chen et al., 2020), 그 후로 Pix2style2pix과 같은 다양한 모델이 등장하였다. 이미지 초 해상도 기술은 GAN 이미지 생성 기능과 결합하여 지적 재산권에 대한 염려 없이 사용할 수 있는 이미지 소스 시장에 큰 변화를 가져다줄 것이다.

3. 2. 컬러

GAN을 활용한 이미지 채색 연구도 매우 활발하게 이루어지고 있으며 다양한 컬러링 방식이 등장하고 있다. 흑백 이미지 컬러링, 라인 스케치 컬러링, 컬러 이미지에 대한 재 컬러링이 모두 포함된다. 흑백 이미지에 대한 컬러링 모델에는 Pix2pix, Tag2pix(Kim et al., 2019), Auto-painter(Liu et al., 2017)가 있으며, 라인 스케치에 대한 컬러링 모델에는 Tag2pix, AlacGAN(Ci et al., 2018) 등이 있다. Tag2pix는 색상에 대한 텍스트 묘사를 통하여 이에 부합되는 색상을 스케치에 입힐 수 있고(Figure 16A), AlacGAN은 이미지 내의 요소에 색상을 지정해 주면 자동으로 컬러링 한다(Figure 16B).


Figure 16 (A) Tag2pix (B) AlacGAN

GAN을 활용하면 색채에 대한 전문적 지식 없이도 이미지 컬러링 작업을 손쉽게 수행할 수 있게 해 주며, 이는 편리할 뿐만 아니라 색채 조화라는 디자인 지식에 기반한 문제까지 동시에 해결해 줄 수 있다.

3. 3. 폰트

폰트의 대표적인 연구로 Attribute2Font(Wang et al., 2020)는 37가지 속성을 설정해 자신이 원하는 폰트를 생성할 수 있으며 현재 출시된 폰트 중에서 본인이 설정한 속성과 유사한 폰트를 검색 및 추천해 준다(Figure 17). 이것이 가능한 이유는 학습에 사용되는 모든 폰트에 속성에 관한 정보를 포함하여 생성기를 훈련하였기 때문이다.


Figure 17 Attribute2Font

GlyphGAN(Hayashi et al., 2019)은 폰트 간의 점진적 변화를 통하여 대량의 폰트를 생성시키는 방안을 제시하였다(Figure 18). 이 기능은 디자이너에게 시각적으로 미세한 변화를 한눈에 보여주므로 폰트 디자인 프로세스에 아이디어 발상이나 선택에 도움을 줄 수 있다.


Figure 18 GlyphGAN
3. 4. 레이아웃

레이아웃에 관한 가장 대표적인 GAN 모델은 LayoutGAN(Li et al., 2020)이다. 레이아웃이 되는 디자인 요소에 대해 태그를 입력하면 마치 디자이너가 의도적으로 작업한 것과 같이 크기, 위치 및 순서가 자연스럽게 배치된다. 이는 대량의 데이터를 통하여 디자인 요소 간의 읽기 순서 및 면적을 학습시킨 모델을 사용한다. 광고 디자인에 관한 비교 실험에서 템플릿이나 초보 디자이너에 비해 훨씬 좋은 결과를 보여주나 프로 디자이너에 비해서는 낮은 결과를 보여주었다(Figure 19B). 자동 레이아웃은 디자이너가 직접 작업하는 것과 비교할 때 질적으로 떨어지더라도 매우 효율적이므로 높은 수준의 결과물이 필요하지 않을 경우 단순노동을 대폭 줄여줄 수 있다. 전문 디자이너가 사용할 경우 자동 레이아웃 결과 중에서 하나를 선택하여 미세한 수정을 통하여 높은 수준의 레이아웃을 짧은 시간 내에 얻을 수 있을 것이다.


Figure 19 (A) LayoutGAN (B) LayoutGAN (Comparative experiment)
3. 5. 로고

로고 생성에 처음으로 활용된 GAN 모델은 LoGAN(Mino & Spanakis, 2018)이다. 이를 발전시킨 LoGANv2(Oeldorf & Spanakis, 2019)는 서로 다른 조건 정보를 입력하여 이에 부합하는 다양한 로고를 생성하였다 (Figure 20A).


Figure 20 (A) LoGANv2 (B) Sage et al.(2018)

Sage et al.(2018)은 비슷한 스타일을 갖춘 로고 데이터 세트를 학습시켜 그와 유사한 로고를 생성 시켰다(Figure 21B). 그 외에도 로고 생성에 관한 인터페이스를 제안하였으며(Figure 21A) 4개 로고 간의 점진적 변화를 시각화하여 로고 디자인 과정에서 아이디어 발상에 일정한 도움을 줄 수 있다고 하였다(Figure 21B).


Figure 21 (A) Logo generation interface (B) Logo Interpolation

현재 GAN을 활용한 로고 자동 생성은 무엇보다 해상도가 높은 벡터 이미지 생성이라는 측면에 있어 아직 미흡해 보인다. 하지만 로고 간의 점진적 변화는 폰트와 마찬가지로 미세한 시각적 변화를 짧은 시간 내에 한눈에 보여줌으로써 로고 아이디어 발상과 방향성 수립에 도움을 줄 수 있을 것이다.

4. 논의

3장에서 언급한 GAN 모델에 대하여 각각의 입력 및 출력 형식과 주요 기능에 따라 표로 정리하면 위와 같다(Figure 22). 총 13개의 범주는 이미지 생성 4개, 생성 및 편집 4개, 편집 2개, 이미지 초해상도 1개, 이미지 스타일 변환 1개, 자동 레이아웃 1개로 이루어져 있었다.


Figure 22 13 classifications of GAN

모델들의 기능과 디자인 작업과의 연계를 알아보기 위해 먼저 입력 및 출력 형식의 성격에 따라 GAN 모델을 매핑해 보았다(Figure 23). x축은 출력(output)으로서 그 형식은 그래픽 디자인의 이미지이며, 디자이너의 명확한 의도에 대응하는 한정된 수의 결과물을 도출하는 경우(+방향, 계획적)와 보다 모호한 의도에 대한 다양한 결과물이 가능한 경우(-방향, 발산적)를 따라 변하는 차원이다. GAN 기술이 얼마나 디자이너가 예측 가능한 결과(+방향) 또는 예상 가능한 범위 밖의 결과(-방향)를 위해 사용되는지에 관한 지표가 된다. 참고로 ‘발산적’의 반대를 ‘수렴적’이 아니라 ‘계획적’으로 설정한 것은 GAN 프로그램이 다양한 입력의 비교, 평가보다는 하나의 입력에 대한 출력이 주를 이루기 때문이다. y축은 입력(input)으로서 저수준(low-level, +방향)과 고수준(high-level, -방향)을 의미하며 이는 입력 형식이 모델이 받아들이는 수치적 데이터에 가까운가(+방향) 아니면 디자이너의 사고에 가까운가(-방향)를 뜻한다. GAN 모델이 내부적으로 픽셀 수치를 주로 다룬다는 것을 고려하면 대체적으로 이미지, 스케치 등이 저수준, 텍스트 내지는 기호 등이 고수준에 가까우나, 매우 디테일한 형상을 묘사하는 텍스트는 많은 지식을 함축하고 있는 대강의 스케치보다 더 저수준일 수 있다.


Figure 23 Analysis of the GAN

이러한 입출력 기반 분류 방식은 디자이너가 GAN 모델과 상호작용하는 방법을 구분함으로써 각 GAN 응용 프로그램이 어떤 성격을 가지는지, 어느 분야에 더 연구가 필요한지, 어느 디자인 단계에서 활용 가능한지, 어떤 숙련도의 디자이너에게 적합한지 등의 질문에 대한 실마리를 제공한다. 예를 들어, 1사분면은 주어진 저수준 입력 데이터가 도달해야 할 목표가 명확한 경우, 2사분면은 입력된 저수준 데이터를 기반으로 한 포괄적 탐색이 필요한 경우, 3사분면은 다양한 고수준 입력을 기반으로 한 포괄적 탐색이 이뤄지는 경우, 그리고 4사분면은 고수준 입력 데이터에 대해 도달해야 할 목표가 명확한 경우이다. Figure 22를 기반으로 각 GAN 프로그램을 배열한 결과가 Figure 23으로, 대체적으로 3사분면에서 1사분면을 향해 분포되어 있는데 이는 입력이 구체적일수록 출력도 그러하다는 일반적인 경향의 반영으로 보인다. 특기할 것은 4사분면의 사례가 거의 존재하지 않는다는 것인데 본 논문을 통해 조사된 GAN 모델의 출력이 이미지에 한정되어 있기 때문이다. 또한 x축의 방향에 더 많이 몰려있다는 것은 GAN 프로그램이 주어진 입력에 대해 보다 예측 불가능한 다양한 결과를 보여주는 데에 활용된다는 것을 암시한다.

이상의 GAN 프로그램의 특징과 기존 시각 디자인 프로그램의 특징을 비교해 보았으며, 기존 디자인 시각 프로그램의 변화추세와도 매핑해 보았다(Figure 24). x축의 방향(발산적)은 주로 아이디어를 얻는 데 사용 가능한 것을 의미하며 +방향(계획적)은 계획적인 임무를 수행하는 데 사용 가능한 것을 의미한다. y축은 도구가 얼마나 지능적(+방향)인지, 또는 수동적(-방향)인지를 의미한다. 따라서 1사분면은 명확한 목표를 자동으로 수행하는 경우, 2사분면은 지능화된 인터랙션을 통하여 창의적 사고에 도움을 얻는 경우, 3사분면은 수동적인 작업을 통하여 창의적 사고에 도움을 얻는 경우, 4사분면은 명확한 목표의 달성을 위해 수동으로 일일이 수행하는 경우에 해당한다. 가장 두드러지는 차이는 기존 디자인 프로그램은 대부분 수동을 통한 발산적/계획적 임무를 수행하였다면, GAN 프로그램은 의미론적 지능화를 통한 발산적/계획적 임무를 수행한다는 것이다. GAN 프로그램은 기존 프로그램보다 x축에 더 폭넓게 분포되어 있다. 즉, 더 창의적인 작업과 더 다양한 자동화를 할 수 있다는 것이다. 기존 디자인 프로그램을 살펴보면, 래스터 그래픽 편집일 경우 GAN 모델을 도입하여 지능화로 확장되고 있음을 표현하였다. 래스터 그래픽 편집에서 제일 대표적인 프로그램인 Adobe Photoshop은 2020년부터 GAN 모델을 활용한 Neural Filters를 출시하며 '몇 초 안에 창의적인 아이디어를 탐험할 수 있는 도구'로 소개하였다. 현재까지는 나이나 표정의 변화, 이미지 해상도 개선, 색상 화, 스타일 화, 피부 보정 등 8가지 기능이 이미 출시되었으며, 베타버전으로는 색상조화, 풍경 혼합 등 4가지 기능이 주기적으로 업그레이드되는 중이고 근 미래에는 초상화 생성, 노이즈 제거 등 5개 기능이 출시될 예정이다. 기타 벡터 드로잉, 출판 레이아웃, Prototype 제작에 관한 프로그램들은 벡터 파일을 주로 사용되므로 픽셀을 기반으로 학습시키는 GAN 모델을 활용하지 않고 있다.


Figure 24 Comparison of GAN programs and existing design programs

다음으로 GAN 프로그램이 디자인 실무에 구체적으로 어떠한 변화를 가져다줄 수 있을지를 알아보기 위해 주요 기능을 크게 5가지로 범주화했다(Figure 25). 각 범주에 대한 구체적인 기술은 Table 5와 같으며 GAN의 특징과 연관 지어 요약해 보면, 첫째 생성 능력은 다양한 입력으로부터 사실적인 이미지를 만드는 능력을, 둘째 지능화는 디자이너의 추상적, 고차원적 의도를 이해하고 수행하는 능력을, 셋째 혼합 능력은 픽셀 차원이 아닌 의미론적 차원에서 복수의 입력 데이터의 특성들을 혼합하는 능력을, 넷째 모방성은 내용의 차이를 최소화한 채 스타일을 이식하는 능력을, 마지막으로 다섯째 자동화는 도메인 간의 학습을 통한 단순 반복적인 작업을 효율적으로 수행할 수 있는 것을 의미한다. 이러한 다섯 가지 능력을 디자이너에게 주는 효과적 측면을 중심으로 다시 요약하면 효율 증대, 영감 촉진, 소스 확장으로 나눌 수 있으며, 하나의 능력이 여러 측면의 효과를 줄 수도, 여러 능력이 하나의 효과에 기여할 수도 있을 것이다. 이들을 프로세스 측면에서 보자면 클라이언트와의 커뮤니케이션, 아이디어의 탐색, 그리고 최종 제작 단계와 연계해 볼 수 있다(Figure 25).


Figure 25 Features and Effects of GAN programs in the Design Process
Table 5
GAN Programs Features

GAN의 특징 내용
생성 능력 다양한 입력 방식을 통해 사실적이거나 설득력이 있는 이미지 생성. 무작위 생성/재구성, 배치로 생성, 믹스하여 생성, 텍스트로 생성, 스케치로 생성, 의미론적 맵으로 생성, 속성으로 생성 등
지능화 텍스트, 속성, 스케치, 믹서, 포즈, 의미론적 맵 등 다양한 입력 방식과 학습된 지능형 인터랙션을 통한 생성 및 편집. 저해상도 이미지의 고해상도화를 포함함
혼합 능력 서로 다른 이미지 간의 특징을 혼합하여 생성시키는 능력. 서로 다른 폰트, 로고, 패턴, 이미지들을 생성 벡터 공간(z-space)에서 혼합, 점진적이고 단계적인 변화를 출력함
모방성 주어진 입력의 내용의 변화를 최소화한 채 다른 입력의 스타일을 모방하는 능력. 이미지 스타일화, 로고 생성, 디자인 요소 간의 관계를 학습, 유사한 레이아웃 생성 등.
자동화 디자이너의 지식을 활용한 반복 작업을 효율적으로 자동화 하는 능력. 균형 있는 레이아웃 배치의 자동화, 일부 색상 지정을 통한 자동 컬러링 등

마지막으로 그래픽 디자인 프로세스에서 GAN이 제공할 수 있는 이점을 크게 세 가지로 예측해 보았다(Figure 26). 첫째로 클라이언트와의 커뮤니케이션 측면에서, 실시간 시각화 및 지능화된 인터랙션은 디자이너가 추상적인 클라이언트의 요구사항을 정확하게 이해할 수 있도록 돕고 소통으로 인한 오류를 감소시켜 반복적인 작업의 감소와 시간 단축 효과를 가져다 줄 것이다. 둘째로 디자인 제안 단계에서는 아이디어 탐색을 더 넓고 세밀하게 할 수 있도록 하여 더 많은 시안들을 빠르게 만들어낼 수 있도록 할 수 있을 것이다. 이는 창의적이면서도 최적의 안을 도출하는 데에 도움을 줄 수 있다. 마지막으로 제작 단계에서는 저비용 고품질의 소스 제공 및 지능적인 인터랙션이 가능해짐에 따라 수정 및 보완이 편리해질 뿐만 아니라 최종 수정이 가능한 시점을 물리적으로 더욱 후퇴시킬 수 있다. 궁극적으로 제작의 부담을 덜어 디자이너들은 디자인 자체에 더 힘을 쏟을 수 있게 해 줄 것이다.


Figure 26 The use of GAN programs in the design process.
5. 결론

우리는 이 논문에서 주요 GAN 모델의 기술적 기능 및 의의를 살펴보고, 이들이 시각 디자인에서 어떠한 의미를 지니는지에 대해 고찰해 보았다. GAN 연구 전체를 살펴보았을 때 아직은 기술적 측면에 대한 연구가 가장 많았으나 시각 디자인과 연관된 응용도 광범위하고도 빠르게 이루어지고 있는 것을 확인할 수 있었다. GAN 모델 디자인 도구를 기존 도구와 구별 짓는 결정적인 특성은 디자이너의 의도에 가까운 추상적 입력의 허용과 발산적 출력이었으며 이는 비용이나 시간 단축뿐만 아니라 지능적 도구와의 협업을 통한 보다 창의적 대안 탐색에도 큰 영향을 줄 것이다. 이는 비단 디자이너뿐만 아니라 초보 또는 비디자이너들의 역량 향상에도 기여함으로써 디자인의 교육적, 직능적 변화도 예상된다.

물론 GAN 자체에 한계가 없는 것은 아니다. 어디까지나 데이터에 기반한 생성 모델이므로 기존에 없는 전혀 새로운 창의적 아이디어가 나올 가능성은 낮다. 또한 현재까지는 생성 모델이 어떻게 작동하는지, 또는 왜 작동하는지에 대한 이해가 한정적이므로 매우 높은 수준의 미세한 제어는 불가능하다고 할 수 있다. 그러나 이러한 조작은 모델에 대한 분석과 함께 더욱 고도화될 것이고, 또한 여러 데이터 간의 내삽(interpolation)을 통한 새로운 발견이나 영감의 제공은 상당히 이른 미래에 일어날 수 있다. 결국 디자이너는 외삽(extrapolation)을 통해 GAN과 함께 진화할 수 있을 것이다.

Acknowledgments

본 연구는 연세대학교 미래융합연구원(ICONS)의 지원을 받아 수행되었습니다.

References
  1. 1 . Afifi, M., Brubaker, M. A., & Brown, M. S. (2021). HistoGAN: Controlling Colors of GAN-Generated and Real Images via Color Histograms. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 7941-7950. [https://doi.org/10.1109/CVPR46437.2021.00785]
  2. 2 . Brock, A., Donahue, J., & Simonyan, K. (2019).Large scale gan training for high fidelity natural image synthesis. International Conference on Learning representations (ICLR).
  3. 3 . Choi, Y., Choi, M., Kim, M., Ha, J.-W., Kim, S., & Choo, J. (2018). StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 8789-8797. [https://doi.org/10.1109/CVPR.2018.00916]
  4. 4 . Chon, W., & Yeoun, M. H. (2019). A Case Study of AI-Driven Generative Logo Design - Compared with the Traditional Logo Design Production -. Journal Korea Society of Visual Design Forum, 63(0), 171-181.
  5. 5 . Ci, Y., Ma, X., Wang, Z., Li, H., & Luo, Z. (2018).User-Guided Deep Anime Line Art Colorization with Conditional Adversarial Networks. ArXiv:1808.03240 [cs.CV]. [https://doi.org/10.1145/3240508.3240661]
  6. 6 . Creswell, A., White, T., Dumoulin, V., Arulkumaran, K., Sengupta, B., & Bharath, A. A. (2018). Generative Adversarial Networks: An Overview. IEEE Signal Processing Magazine, 35(1), 53-65. [https://doi.org/10.1109/MSP.2017.2765202]
  7. 7 . Donahue, J., Krähenbühl, P., & Darrell, T. (2017). Adversarial Feature Learning. ArXiv:1605.09782 [Cs, Stat].
  8. 8 . Dong, H., Liang, X., Zhang, Y., Zhang, X., Xie, Z., Wu, B., Zhang, Z., Shen, X., & Yin, J. (2020). Fashion Editing with Adversarial Parsing Learning. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 8120-8128. [https://doi.org/10.1109/CVPR42600.2020.00814]
  9. 9 . Esling, P., & Devis, N. (2020). Creativity in the era of artificial intelligence. arXiv:2008.05959 [cs].
  10. 10 . Gui, J., Sun, Z., Wen, Y., Tao, D., & Ye, J. (2020). A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications. ArXiv:2001.06937 [Cs, Stat].
  11. 11 . Han, A. (2020). A Case Study on Product Design Based on Artificial Intelligence Technology -Focused on Beauty Devices-. Journal of the Korean Society Design Culture 26(1), 525-535. [https://doi.org/10.18208/ksdc.2020.26.1.525]
  12. 12 . Hayashi, H., Abe, K., & Uchida, S. (2019). GlyphGAN: Style-consistent font generation based on generative adversarial networks. ArXiv:1905.12502 [cs.CV]. [https://doi.org/10.1016/j.knosys.2019.104927]
  13. 13 . Hong, Y., Hwang, U., Yoo, J., & Yoon, S. (2019). How Generative Adversarial Networks and Their Variants Work: An Overview. ACM Computing Surveys, 52(1), 1-43. [https://doi.org/10.1145/3301282]
  14. 14 . Isola, P., Zhu, J.-Y., Zhou, T., & Efros, A. A. (2017). Image-to-Image Translation with Conditional Adversarial Networks. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 1125-1134. [https://doi.org/10.1109/CVPR.2017.632]
  15. 15 . Jabbar, A., Li, X., & Omar, B. (2021). A survey on generative adversarial networks: Variants, applications, and training. ACM Computing Surveys (CSUR), 54(8), 1-49. [https://doi.org/10.1145/3463475]
  16. 16 . Jiang, Y., Lian, Z., Tang, Y., & Xiao, J. (2017). DCFont: An end-to-end deep chinese font generation system. SIGGRAPH Asia 2017 Technical Briefs, 1-4. [https://doi.org/10.1145/3145749.3149440]
  17. 17 . Joung, J., & Kim, M. (2019). A Study on AI-based Design Process Innovation in Fashion Industry. Journal of Communication Design, 67. [https://doi.org/10.25111/jcd.2019.67.11]
  18. 18 . Joung, Y., & Kim, S. (2018) A Study on the Role of Designer in the 4th Industrial Revolution]. Journal of Digital Convergence, 16(8), 279-285.
  19. 19 . Kang, M., & Joo, J. (2020). A Study on the Creation of Artificial Intelligence(AI) in the Fourth Industrial Revolution -Focused on Artists' Perception-. Journal of Digital Contents Society, 21(1), 121-130. [https://doi.org/10.9728/dcs.2020.21.1.121]
  20. 20 . Karras, T., Aila, T., Laine, S., & Lehtinen, J. (2018). Progressive Growing of GANs for Improved Quality, Stability, and Variation. ArXiv:1710.10196 [Cs, Stat].
  21. 21 . Karras, T., Laine, S., & Aila, T. (2019). A Style-Based Generator Architecture for Generative Adversarial Networks. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 4401-4410. [https://doi.org/10.1109/CVPR.2019.00453]
  22. 22 . Karras, T., Laine, S., Aittala, M., Hellsten, J., Lehtinen, J., & Aila, T. (2020). Analyzing and Improving the Image Quality of StyleGAN. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 8107-8116. [https://doi.org/10.1109/CVPR42600.2020.00813]
  23. 23 . Kim, H., Jhoo, H. Y., Park, E., & Yoo, S. (2019). Tag2Pix: Line Art Colorization Using Text Tag With SECat and Changing Loss. IEEE/CVF International Conference on Computer Vision (ICCV), 9056-9065. [https://doi.org/10.1109/ICCV.2019.00915]
  24. 24 . Lee, S. (2019) Designer's Cognition of Artificial Intelligence-based Design System]. The Korean Society of Illustration Research, 60, 137-146. [https://doi.org/10.37379/JKSIR.2019.60.13]
  25. 25 . Li, J., Yang, J., Zhang, J., Liu, C., Wang, C., & Xu, T. (2020). Attribute-conditioned layout gan for automatic graphic design. IEEE Transactions on Visualization and Computer Graphics, 27(10), 4039-4048. [https://doi.org/10.1109/TVCG.2020.2999335]
  26. 26 . Li, Y., Cheng, Y., Gan, Z., Yu, L., Wang, L., & Liu, J. (2020). BachGAN: High-Resolution Image Synthesis from Salient Object Layout. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 8365-8374. [https://doi.org/10.1109/CVPR42600.2020.00839]
  27. 27 . Liu, Y., Qin, Z., Luo, Z., & Wang, H. (2017). Auto-painter: Cartoon Image Generation from Sketch by Using Conditional Generative Adversarial Networks. ArXiv:1705.01908 [Cs]. [https://doi.org/10.1016/j.neucom.2018.05.045]
  28. 28 . Mao, L., Wang, J., & Jiang, J. (2020). Computerized Logo Synthesis with Wavelets-Enhanced Adversarial Learning. 2020 IEEE International Symposium on Circuits and Systems (ISCAS), 1-5. [https://doi.org/10.1109/ISCAS45731.2020.9180825]
  29. 29 . Mino, A., & Spanakis, G. (2018). LoGAN: Generating Logos with a Generative Adversarial Neural Network Conditioned on color. 2018 17th IEEE International Conference on Machine Learning and Applications (ICMLA), 965-970. [https://doi.org/10.1109/ICMLA.2018.00157]
  30. 30 . Mirza, M., & Osindero, S. (2014). Conditional Generative Adversarial Nets. ArXiv:1411.1784 [Cs, Stat].
  31. 31 . Oeldorf, C., & Spanakis, G. (2019). LoGANv2: Conditional Style-Based Logo Generation with Generative Adversarial Networks. 2019 18th IEEE International Conference On Machine Learning And Applications (ICMLA), 462-468. [https://doi.org/10.1109/ICMLA.2019.00086]
  32. 32 . Patashnik, O., Wu, Z., Shechtman, E., Cohen-Or, D., & Lischinski, D. (2021). StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery. IEEE/CVF International Conference on Computer Vision (ICCV), 2085-2094. [https://doi.org/10.1109/ICCV48922.2021.00209]
  33. 33 . Richardson, E., Alaluf, Y., Patashnik, O., Nitzan, Y., Azar, Y., Shapiro, S., & Cohen-Or, D. (2021). Encoding in Style: A StyleGAN Encoder for Image-to-Image Translation. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2287-2296. [https://doi.org/10.1109/CVPR46437.2021.00232]
  34. 34 . Sage, A., Agustsson, E., Timofte, R., & Van Gool, L. (2018). Logo Synthesis and Manipulation with Clustered Generative Adversarial Networks. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 5879-5888. [https://doi.org/10.1109/CVPR.2018.00616]
  35. 35 . Shamsolmoali, P., Zareapoor, M., Granger, E., Zhou, H., Wang, R., Celebi, M. E., & Yang, J. (2021). Image synthesis with adversarial networks: A comprehensive survey and case studies. Information Fusion, 72, 126-146. [https://doi.org/10.1016/j.inffus.2021.02.014]
  36. 36 . Shoshan, A., Bhonker, N., Kviatkovsky, I., & Medioni, G. (2021). GAN-Control: Explicitly Controllable GANs. ArXiv:2101.02477 [Cs]. [https://doi.org/10.1109/ICCV48922.2021.01382]
  37. 37 . Wang, K., Gou, C., Duan, Y., Lin, Y., Zheng, X., & Wang, F.-Y. (2017). Generative adversarial networks: Introduction and outlook. IEEE/CAA Journal of Automatica Sinica, 4(4), 588-598. [https://doi.org/10.1109/JAS.2017.7510583]
  38. 38 . Wang, Y., Gao, Y., & Lian, Z. (2020). Attribute2Font: Creating fonts you want from attributes. ACM Transactions on Graphics, 39(4). [https://doi.org/10.1145/3386569.3392456]
  39. 39 . Wang, Z., She, Q., & Ward, T. E. (2021). Generative Adversarial Networks in Computer Vision: A Survey and Taxonomy. ACM Computing Surveys, 54(2), 1-38. [https://doi.org/10.1145/3386252]
  40. 40 . Wu, H., Zheng, S., Zhang, J., & Huang, K. (2019). GP-GAN: Towards Realistic High-Resolution Image Blending. ArXiv:1703.07195 [Cs]. [https://doi.org/10.1145/3343031.3350944]
  41. 41 . Wu, X., Xu, K., & Hall, P. (2017). A survey of image synthesis and editing with generative adversarial networks. Tsinghua Science and Technology, 22(6), 660-674. [https://doi.org/10.23919/TST.2017.8195348]
  42. 42 . Xia, W., Zhang, Y., Yang, Y., Xue, J.-H., Zhou, B., & Yang, M.-H. (2021). GAN Inversion: A Survey. ArXiv:2101.05278 [Cs].
  43. 43 . Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., & Metaxas, D. (2018). StackGAN++: Realistic Image Synthesis with Stacked Generative Adversarial Networks. ArXiv:1710.10916 [Cs, Stat]. [https://doi.org/10.1109/ICCV.2017.629]
  44. 44 . Zhang, J., Li, K., Lai, Y.-K., & Yang, J. (2021). PISE: Person Image Synthesis and Editing with Decoupled GAN. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 7982-7990. [https://doi.org/10.1109/CVPR46437.2021.00789]
  45. 45 . Zhu, J., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation Using Cycle-Consistent Adversarial Networks. IEEE International Conference on Computer Vision (ICCV), 2242-2251. [https://doi.org/10.1109/ICCV.2017.244]
  46. 46 . Zhu, J. Y., Krähenbühl, P., Shechtman, E., & Efros, A. A. (2016, October). Generative visual manipulation on the natural image manifold. In European conference on computer vision (pp. 597-613). Springer, Cham. [https://doi.org/10.1007/978-3-319-46454-1_36]