최근들어 각종 커뮤니티와 SNS를 통해 실사와 구분이 어려울 만큼 발전한 AI 그림이 퍼지면서 큰 주목을 받고 있습니다. 말하는 대로 그려주는 AI 그림, 2023년 현 주소는 어디일까요? 본 글에서는 AI 그림의 발전현황과 직접 그림을 그려보는 방법에 대해 구체적으로 살펴보도록 하겠습니다.
말하는 대로 그려주는 AI 그림 어디까지 왔나?
최근 전 세계를 놀라게 만든 ChatGPT와 더불어 AI 그림 또한 굉장한 인기를 누리고 있습니다. 최근들어 높아진 인기라고 하지만 사실 AI 그림은 인공지능 연구의 한 분야로 학계에서는 꽤 오래전부터 현재까지도 수많은 연구가 진행되고 있습니다.
학계에 머물던 관심이 본격적으로 세상으로 진출한 것은 아무래도 2022년 4월 공개된 DALL-E2의 영향이 크다고 볼 수 있습니다. 아래에서는 DALL-E2부터 현재 오픈소스로 가장 인기가 많은 WEBUI까지 AI 그림의 현주소를 간략히 되짚어보겠습니다.
달E(DALL-E2)
최근 인공지능 업계에서 가장 유명한 곳은 누가 뭐라해도 OpenAI일 것입니다. 전문가들은 Open AI의 Chat GPT의 등장으로 전세계 검색기반 인터넷의 기반이 흔들릴 것이란 예측까지 내놓고 있는데요, DALL-E는 바로 이 Chat GPT를 발표한 OpenAI에서 만든 그림을 위한 AI 입니다. 2021년 1월 DALL-E를 공개했으며 이듬해인 2022년 4월에는 화질이 4배나 상승하고 기존 이미지를 수정 및 변형하는 능력까지 갖춘 DALL-E2가 공개되며 세상을 놀라게 했습니다.
그림의 완성도 높은 퀄리티와 일반인의 접근 가능성 덕분에 최초로 DALLE-2가 공개되었을 당시 대중의 큰 관심을 받았습니다. 하지만 가입후 승인이 필요하단 점과 개인이 직접 AI 그림 학습을 시킬 수 없다는 점, 그리고 무엇보다도 그림을 그릴 때 검열(선정성 등)에 따른 제약이 많기에, 대중들의 관심이 ‘우와 신기하다.’ 정도에 머물렀습니다. 더욱이 현재는 개인에게는
미드저니(Midjourney)
DALLE-2 이후 유명했던 또다른 그림 AI는 바로 미드저니(Midjourney)입니다. 미드저니는 특히 디스코드 채널에서 프롬프트(prompt)만 입력하면 누구나 나만의 인공지능 그림을 그릴 수 있다는 점 덕분에 수많은 사람들이 큰 수고 없이 ‘우와 나도 인공지능으로 그림 그려봤다.’는 경험을 공유할 수 있게 되었습니다.
단 DALLE-2와 마찬가지로 개인이 인공지능에 학습을 시킬 수는 없다는 점과 역시나 그릴 수 있는 그림에 제약이 있다는 점에서 단순 경험해보는 수준에 머물게 됩니다.
스테이블 디퓨전 (Stable Diffusion)
스테이블 디퓨젼(Stable Diffusion)은 2022년 8월 공개된 Stability AI의 무료(오픈소스 라이센스) 배포 AI 그림 모델입니다. 기존의 DALL-E2 또는 미드저니 등 AI 그림 모델은 개인이 접근하기 어려운 고사양의 컴퓨터 연산 능력(특히 그래픽 카드)이 필요했던 것과 달리, 상대적으로 저사양인 4GB 이하의 그래픽 메모리(VRAM)를 갖춘 컴퓨터에서도 AI 그림을 그릴 수 있는 경량화 모델입니다.
무료(오픈소스 라이선스) + 저사양 = 대중화
무료인데다 고사양을 요구하지 않다보니 스테이블 디퓨젼의 등장은 게이밍 컴퓨터를 갖춘 개인이 가정에서도 직접 그림을 그려볼 수 있을 정도로 접근성이 낮아져 AI 그림의 대중성 확보에 굉장한 역할을 하게 됩니다.
노벨AI(NovelAI)
아무리 오픈소스라 하더라도 스테이블 디퓨젼이 처음 공개되었을 당시에는 아무것도 모르는 개인이 이를 다루기는 쉽지 않았습니다. 무료인 덕분에 검열도 없을뿐더러 사양 요구치도 낮다보니 무제한 학습이 가능했고 이를 알아본 일부 업체들은 스테이블 디퓨젼을 기반으로 유료 AI 그림 서비스를 런칭하기 시작합니다. 이 중 가장 대표적인 업체가 바로 노벨AI(NovelAI)입니다.
노벨AI는 원래 업체명에서도 알 수 있듯 소설 AI를 서비스하고 있었는데요, 2022년 10월 3일 스테이블 디퓨전 모델을 기반으로 2D 그림을 그려주는 노벨AI 이미지 제너레이터(NovelAI Image Generator)를 공개했습니다. 당시 놀라운 수준으로 구현하며 AI 그림으로 큰 유명세를 타게 되는데요 그림의 수준이 높다보니 일각에서는 애니메이션 업계를 걱정하는 수준까지 올 정도였습니다. 유료서비스임에도 불구하고 일반인들도 높은 수준의 그림을 생성해볼 수 있다는 점 덕분에 엄청난 관심을 끌게 됩니다.
WEBUI
WEBUI는 Stability AI에서 스테이블디퓨젼 모델과함께 공개한 AI 그림 생성 툴이라고 할 수 있습니다. 무료로 공개가 되었다고 해도 사용법이나 원리 등이 잘 알려지지 않은 상태에서 개인이 그럴듯한 그림을 그리는데는 한계가 있었는데요, 2022년 10월 7일 AI 그림 관련 큰 사건이 발생하면서 수많은 개인들이 WEBUI로 유입되게 됩니다.
그 사건은 바로 노벨AI 이미지 제너레이터가 해킹을 당한 것입니다. 노벨AI 이미지 제너레이터가 공개된 10월 3일로부터 단 4일 밖에 지나지 않은 10월 7일, 노벨 AI 이미지 제너레이터의 소스 코드와 이미지 모델 등이 전부 해킹되어 전세계로 유출되게 됩니다. 유출된 데이터가 토렌트를 통해 순식간에 유포되면서 기존 스테이블디퓨전 개인 실행판을 돌리던 사람들은 본격적으로 노벨AI 그림을 연구하기 시작합니다. 마치 설명서 없이 레고를 선물받아 머리만 긁고있던 찰나 옆집에서 설명서를 발견하고 유레카를 외친 격입니다.
이때부터 전세계 개인사용자들이 우후죽순 늘어나면서 엄청난 속도로 WEBUI 그림이 발전하기 시작했습니다. 오픈소스의 특성상 이렇게 집단지성으로 발전하게 되면 그 속도가 어마무시할 수 밖에 없습니다. 2023년 3월 현재 노벨 AI의 이미지 제너레이터 수준의 그림을 넘어선것은 아득히 먼 옛일이 되었으며, 현재는 2D가 아닌 실사까지 굉장한 수준으로 구현하며, AI 그림이 아닌 AI 사진을 생성하는 수준에 이르렀습니다.
AI 그림 동작 원리, 그림 모르는 나도 그릴 수 있을까?
현재 인터넷에서 뜨거운 관심을 받고 있는 AI 그림은 대부분 스테이블 디퓨젼 모델을 기반으로 WEBUI를 활용해 생성한 이미지입니다. 인스타그램에서 자주 접할 수 있는 사진과 구분이 어려울 정도로 정교한 실사를 구현하는 수준인데요, 과연 그림을 하나도 모르는 분들도 WEBUI를 이용해 이런 그림을 그릴 수 있을까요?
컴퓨터를 사용할 줄 만 안다면 초등학생도 어렵지 않게 실사와 같은 그림을 그릴 수 있습니다. 이를 위해서는 먼저 AI 그림을 그리는 방법에 대해 간략한 이해가 필요합니다. 대부분의 AI 그림은 보통 Text-to-Image로 그려지게 됩니다. 즉 우리가 원하는 그림을 글(Text)로 입력하면 AI가 입력된 글을 해석하여 그림(Image)로 그려내는 것입니다. 이 때 사용자가 입력하는 글을 프롬프트(Prompt)라고 하는데요, 프롬프트 상 내가 그리고자하는 그림의 특징을 자세하게 적으면 적을수록 AI는 더더욱 정교한 그림을 그려냅니다. 프롬프트는 키워드처럼 단어를 나열하거나 혹은 완성형 문장으로 적어도 되는데요, 만약 프롬프트가 구체적이지 않더라도 걱정할 필요가 없습니다. 내가 적지 않았지만 그림을 생성하는데 꼭 필요한 부분이라면 AI가 알아서 해당 부분을 무작위로 그려주기 때문에 누구나 그림을 그릴 수 있습니다.
이렇게 프롬프트만 입력하면 그림이 생성되는 이유는 바로 그림을 그릴 때 사용하는 모델에 이미 AI 학습이 되어 있기 때문입니다. 예를 들어 스테이블 디퓨젼 모델로 그림을 그린다면, 이미 학습이 완료된 스테이블 디퓨젼 모델을 다운받은 뒤 해당 모델에게 프롬프트에 적힌 특징들을 반영하여 그림을 그려달라고 주문하면 된다는 것입니다. 자, 이렇게 쉬운 AI 그림, 도전해보고 싶으신 분들은 아래를 참고하시기 바랍니다.
AI 그림 그려주는 사이트 모음
DALL-E2와 미드저니를 포함해 수많은 AI 그림 사이트가 주목받고 있습니다. 본문에서 살펴본대로 대부분 사이트가 Text-to-Image 형태로 동작합니다. 즉 말하는 대로 그려주는 AI 그림 사이트라고 할 수 있는데요, 이런 그림 사이트 모음을 아래에서 확인할 수 있습니다.
자주 묻는 질문
맥에서는 WEBUI 사용이 불가한가요?
맥에서도 WEBUI 사용이 가능합니다. M1 프로세서 이상을 탑재한 아이패드 및 맥이라면 현재 WEBUI 실행 및 이미지 생성이 가능하지만 NVIDIA 그래픽카드를 탑재한 데스크탑에 비해 이미지 생성 속도가 매우 느린 것으로 알려져있습니다. 만약 맥이나 아이패드로 그림을 그리실 분들은 앱스토어의 DrawThings를 이용해보세요.
AI 그림으로 실존인물 얼굴의 사진을 그릴 수 있나요?
네 가능합니다. 실존인물 얼굴을 추가 학습한뒤 해당 학습 파일을 활용해 기존 모델과 함께 사용하면 특정인물의 얼굴을 가진 가상의 사진을 그려낼 수 있습니다. 반대로 특정 옷차림이나 배경, 포즈 등을 사용자가 원하는대로 구현해내는 것도 가능합니다. 2023년 3월 현재까지는 사용자의 의도대로 100% 구현이 되지 않는 부분들이 있으나, 굉장히 빠른 속도로 이런 부분 또한 발전하고 있습니다. 학습 관련해서는 Lora 학습 글을 참고해주시기 바랍니다.
왜 AI가 그린 사진은 대부분 정면을 바라보고 있나요?
현재 WEBUI를 사용해서 생성하는 대부분 그림의 사용 모델이 학습당시부터 전세계 웹을 참고하고 있습니다. 특히 인물사진 같은 경우 SNS 사진을 많이 학습한 것으로 알려져있는데, 이때 SNS 사진의 대부분이 카메라 렌즈를 바라보는 시선으로 촬영되어 있기 때문에 학습된 사진도 대부분 얼굴이 정면을 보고 있습니다. 때문에 이 모델을 기반으로 그림을 그리게 되면 결과물 역시 높은 확률로 정면을 보게 됩니다.
제 그래픽카드가 GTX 1060인데 WEBUI 실행이 가능할까요?
네 WEBUI 설치 및 실행이 가능합니다. 다만 그림을 그리는데 시간이 오래 걸리며, 프로그램 내 확장기능 활용과 그림 해상도 확장에 제약이 있습니다. RTX 3060 12GB 이상의 GPU 사용을 추천드리며 자세한 내용은 WEBUI 권장사양 글을 참고하시기 바랍니다.