국내외 핫딜정보

스테이블디퓨전 요즘 AI 그림(사진)의 놀라움

배달의 비밀 2023. 5. 22. 12:03
반응형

 

 

프롬프트 이미지출처 :

https://civitai.com/

#스테이블디퓨전 #인공지능사진 #AI사진 #AI그림 #AI모델 #AI MODEL #StableDiffusion

Stability AI에서 오픈소스 라이선스로 배포한 text-to-image 인공지능 모델이다. 2022년 8월 22일 출시했다.

Stable Diffusion은 독일 뮌헨 대학교 Machine Vision & Learning Group (CompVis) 연구실의 "잠재 확산 모델을 이용한 고해상도 이미지 합성 연구"[1]를 기반으로 하여, Stability AI와 Runway ML 등의 지원을 받아 개발된 딥러닝 인공지능 모델이다.

Stability AI는 방글라데시계 영국인 에마드 모스타크(Emad Mostaque)가 사비로 만든 회사로, Stable Diffusion에 방대한 LAION-5B 데이터베이스를 학습시킬 수 있도록 컴퓨팅 자원을 제공하였다. OpenAI의 Dall-e 2나 구글의 Imagen과 같은 기존 text-to-image 모델들과는 다르게 컴퓨터 사용 리소스를 대폭 줄여 4GB 이하의 VRAM을 가진 컴퓨터에서도 돌릴 수 있다.

또한 개발 비용이 클 것임에도 불구하고[2] 통 크게 오픈 소스로 공개해서 일반인들도 사용을 할 수 있다.

사실상 그림 인공지능의 시대를 연 인공지능이며, 오픈소스로 공개된 덕분에 해당 인공지능을 기반으로 하는 AI 이미지 서비스 기능이 우후죽순으로 늘어나고 있다.

 

컨트롤넷이라는 플러그인으로 포즈 지정이 가능하다. 신체 부위에 해당하는 각색의 작대기를 조절하는 Openpose에서 선화 수준의 밑그림 구도를 기반으로 이를 보조해주는 Canny 모델등 여러가지 ControlNet 대응 보조모델을 사용할수 있다.[3]

3. 버전 업[편집]


4. 모델 아키텍처[편집]


Stable dIffusion은 크게 보면 CLIP, UNet, VAE(Variational Auto Encoder, 자기부호화기)이라는 세 가지 인공신경망으로 이루어져 있다. 유저가 텍스트를 입력하면 텍스트 인코더(CLIP)가 유저의 텍스트를 토큰(Token)이라는 UNet이 알아들을 수 있는 언어로 변환하고, UNet은 토큰을 기반으로 무작위로 생성된 노이즈를 디노이징하는 방식이다. 디노이징을 반복하다 보면 제대로 된 이미지가 생성되며, 이 이미지를 픽셀로 변환하는 것이 VAE의 역할이다.

해상도가 높아질수록 리소스를 기하급수적으로 사용하게 되는 종전의 확산 확률 이미지 생성 모델과 달리, 앞뒤에 오토인코더를 도입하여 이미지 전체가 아닌 훨씬 작은 차원의 잠재공간(latent space)에서 노이즈를 삽입/제거하므로, 비교적 큰 해상도의 이미지를 생성하는데도 리소스 사용량을 대폭 줄여 일반 가정의 그래픽카드 정도로도 이용이 가능해진 것이 특징이다.

 
반응형