☕️ 일상 속 당연한 그림이 된 생성AI

불과 1년 사이에 달라진 인터넷 세상
오늘은 이미지 생성 AI의 최근 발전에 대한 이야기를 전해드립니다. 세상을 놀라게 하며 등장한 지 이제 1년이 조금 넘었는데, 2D를 넘어서 3D 이미지를 만들고 영상을 생성하는 도구들이 속속 등장하는 중입니다. 어떤 연구들이 진행되고, 어떤 사례들이 만들어지고 있는지를 살펴볼게요. 

+ 샷 추가하면 커피팟의 모든 뉴스레터 꾸준히 받아보실 수 있어요. 저자와 독자가 함께하는 커피팟 '모임'에도 참여하실 수 있고요 :) 

[AI] #생성AI #속도경쟁
일상 속 당연한 그림이 된 생성AI
불과 1년 사이에 달라진 인터넷 세상
이미지 생성 AI가 본격적으로 시장에 출시된 지 이제 1년이 조금 넘어갑니다. (커피팟도 가끔 사용하는) 달리(DALL-E)와 미드저니(Midjourney)를 중심으로 고퀄리티 이미지 생성AI 시장은 어느덧 형성되었고, 스테이블 디퓨전(Stable Diffusion)을 중심으로 오픈 소스 커뮤니티가 형성되며 다양한 이미지 생성AI 도구들이 우후죽순 생겨났다고 할 수 있는데요.

이제는 사용자들이 원하는 구도의, 원하는 이미지를 뽑을 수 있게 도와주는 다양한 도구들도 개발되어 사용되고 있죠. 그 결과 인터넷은 이제 AI가 만든 이미지들로 넘쳐나고 있습니다. 그리고 불과 1년 사이에 관련 기술은 '새로운 차원'을 바라보며 발전 중이에요.
1년 만에 왼쪽의 결과물이 오른쪽이 되었어요. 이제 이미지 생성 AI가 화제가 된 지 1년밖에 되지 않았는데, 그 발전은 수많은 시간을 뛰어넘은 것 같습니다.
더 생생한 이미지를 만드는 단계
지금 이미지 생성 AI 발전 국면을 (다시) 정리해 말하자면, 생성AI 도구들을 통해 생성되는 이미지의 퀄리티는 아주 높은 수준에 올라섰고 그 기술도 끊임없이 다듬어져 가는 과정이라고 할 수 있습니다. 이제 상상만 할 수 있다면 원하는 느낌의 이미지를 생성하는 것은 정말로 어렵지 않은 일이 되었죠.

그렇기에 연구자와 사용자들은 이처럼 정적인 '2D' 이미지의 다음 스텝인, 영상과 3D에 대한 탐구로 나아가고 있습니다. 연구의 방향성은 현재 생성된 2D 이미지를 3D로 바꾸거나, 혹은 움직이게 만들거나, 혹은 이미지 없이도 바로 텍스트 프롬프트를 통해 3D 이미지와 영상을 생성하는 것인데요. 

이미 그 발전은 눈에 띄게 진행되었어요. 지난 봄에는 아래의 해리 포터와 발렌시아가 영상(매시업 비디오)이 세상을 놀라게 했고요.
얼마 전 인터넷 화제의 밈(meme)이 되었던 해리 포터 발렌시아가 영상도 새로운 영상 생성 AI 툴로 만든 것이죠.
놀랍게 발전하는 '영상' 생성 도구들
영상을 만들기 위해 대표적으로 사용되는 AI 도구는 런웨이(Runway)의 '젠-2(Gen-2)'라고 불리는 서비스입니다. 이미지 한 컷이나 영상, 혹은 원하는 모습을 텍스트로 묘사하면 그에 맞는 영상을 생성해 주죠.

현재 인터넷에서 사용자들이 접하는 대부분의 AI 생성 영상이라 함은 젠-2 모델로 만들어진 영상을 편집했을 가능성이 높아요. 가만히 서 있는 사람이 말하는 장면만을 원할 경우, D-ID라는 서비스를 많이 이용하고요. (위에서 언급한 해리 포터 발렌시아가의 영상이 바로 D-ID를 통해 만들어졌습니다)

만약 바꾸고 싶은 기준이 되는 영상이나 이미지가 있으면 스테이블 디퓨전을 이용하는 방법도 있습니다. 스테이블 디퓨전의 확장 프로그램을 이용해 프레임 단위로 이미지를 추출한 다음, 모든 프레임을 원하는 스타일의 이미지로 변환한 다음 다시 영상으로 합치는 방법이에요.
이미지가 바로 이렇게 애니메이션으로 생성되는 것이에요. (이미지: 코리더 크루(Corrider Crew) 유튜브)
사실상 애니메이션을 만드는 원리와 같지만, 프레임을 AI가 만들어 준다는 것이 차이점입니다. 다만 이 방법을 이용했을 경우 사람이 만든 애니메이션처럼 일관적으로 캐릭터들의 디테일이 유지되기가 쉽지 않습니다. 대략적인 느낌은 비슷하지만, 옷의 단추 등이 사라졌다 나타났다 한다든지, 머리 모양이 조금씩 프레임 단위로 계속 바뀐다든지 하는 부작용이 있어요.

이는 AI로 매 컷을 생성하기 때문에 생기는 현상이며, 아직까지 이를 완벽하게 컨트롤하는 방법은 없는 상황이에요. 하지만 기술이 발전하며 점점 디테일한 부분까지도 해결되리라 예상합니다.
3D 생성이 얼마나 생생한지 보여주는 중
정지된 이미지를 움직이게 하는 것뿐 아니라, 깊이라는 차원을 더하여 3D로 만드는 도구들도 계속 출시되고 있어요. 단연 주목받는 기술은 NeRF(Neural Radiance Field)라는 기술입니다. NeRF는 간단히 말해 머신 러닝을 이용해 2D 이미지의 물체나 장면을 3D로 만드는 것이에요.

2020년 처음 소개된 이 기술은, 스마트폰으로 찍은 이미지들을 AI가 학습해, 보이지 않는 부분을 예측 및 합성해 내는 것입니다. 간단하고도 높은 퀄리티의 3D 모델링을 만들어 낼 수 있어 각광받았고, 현재까지도 활발하게 연구가 진행되고 있죠.

루마 AI(Luma AI)는 이런 NeRF 기술을 활용해 아래 맥도날드의 광고 영상을 만들기도 했어요. 
모두 3차원으로 제작된 이미지를 통해 만들어진 맥도날드의 광고예요. 전체 영상은 여기서도 살펴보세요. (이미지: 맥도날드 광고 캡처)
사진을 3D로 만드는 것 외에도, 텍스트 프롬프트를 통해 3D 물체들을 바로 생성해 내는 기술도 상용화되고 있습니다. 3D 에셋과 모델 디자인을 위한 도구를 만드는 스플라인(Spline)은 최근 텍스트 프롬프트를 통해 3D 모델을 바로 생성해 내는 스플라인 AI(Spline AI) 기능을 소개했어요.

스플라인을 이용해 아래와 같은 3D 모델을 생성하려면, "빨간색 자동차와 나무"라고 입력만 하면 되는 것이에요.
프롬프트 텍스트를 입력만 하면 위와 같은 모델이 생성되는 것이에요. (이미지: 스플라인 AI)  
NeRF 기술을 활용해 사용자가 입력한 프롬프트를 기반으로 다양한 각도의 이미지를 생성한 후, 이를 3D로 만드는 연구도 최근 공개되었고요. 최근 로블록스는 개발자 컨퍼런스에서 AI 챗봇을 통해 로블록스의 3D 맵을 만드는 기능을 선보이기도 했습니다

이전에는 모든 것을 직접 해야 했지만, AI 조수와 함께 대화하며 손쉽게 3D 맵을 만들 수 있게 된 것이죠.

'다차원' 세상이 만들어지는 중 
인터넷은 사실 2차원의 공간입니다. 아무리 스크린 안에 있는 물체들이 3D로 구현되었다고 하더라도, 그 물체를 보는 것은 평평한 스크린을 통해서이니까요.

그런데 이제는 진정한 3D 디지털 세상으로의 퍼즐도 맞추어지고 있습니다. 3D로 구현된 물체와 배경들을 제대로 경험하려면 그에 맞는 폼 팩터(form factor)를 가진 기기가 필요하죠. 이런 기기가 바로 이제 애플의 비전 프로 출시를 계기로 점점 더 관심이 커지는 VR/AR 글래스입니다. 

비전 프로를 필두로 앞으로 나올 다양한 AR 글래스를 통해 보게 될 '디지털 세상'에는 생성 AI로 만들어진 3D 물체들이 채워질 것입니다. 상상을 더 이어 나가 보자면 그중 가치가 있는 물체는 NFT로 거래가 될 수 있을 텐데요.

예를 들어, 어떤 유명한 디자이너가 자신의 3D 작품 원본을 딱 하나만 만들어 판매하고 싶다면, NFT가 그 수단이 될 확률이 높습니다. 수집가들 또한 자신이 유일한 작품을 샀다는 뿌듯함을 가질 수 있겠죠.

"세상은 점점 디지털화되고 있다"라는 건 부정할 수 없는 사실로 보입니다. 지금까지의 디지털화는 우리의 눈에 잘 보이지 않는, 사회의 근간을 이루는 것들이 중심이었습니다. 종이 위에 기록된 데이터들이나 현금, 편지, 음악 등이 디지털화의 주 대상이었죠.

하지만 이제 사람들은 점점 스마트폰 카메라를 통해 디지털 필터가 덧씌워진 자신, 혹은 상대방을 찍는 데 익숙해지고 있습니다. 스마트폰과 AR 글래스 같이 디지털 세상을 '들여다볼 수 있는' 기기들이 점점 더 늘어난다면, 우리가 발을 딛고 있는 물리적 세상은 더 빨리 '디지털화' 될 수도 있어요.

-
By 준. 글로벌 IT 기업에서 일하고 있어요. 스타트업, 웹3, AI 등 새로운 기술이 바꾸어 나가는 세상의 모습에 많은 관심을 두고 있습니다.

[국제경제] #부엉이의차트피셜 #롱폼아티클
나는 네가 지난 (잭슨홀) 미팅에서 한 말을 알고 있다
지난 8월 말에는 연례 잭슨홀(Jackson Hole) 회의가 열렸습니다. 잭슨홀 회의는 미국 연방준비제도의 12개 지점 중 하나인 캔자스시티 연방준비은행이 미국 와이오밍주의 아름다운 휴양지, 잭슨 홀에서 1978년부터 매년 8월 개최하는 회의입니다. 연방준비제도(Fed) 의장을 비롯해 전 세계 중앙은행장과 경제학자들이 경제 및 통화정책 등에 대해 논의하는 자리이죠.

전 세계의 통화정책에 영향을 끼치는 경제학자들이 모이는 자리이니만큼 회의를 통해 나오는 발언과 내용 외에도 미 연준의장의 기조연설은 특히 큰 주목을 받습니다. 이후 통화정책의 향방을 가늠할 수 있는 중요한 단서가 되는 내용이 되기도 하기 때문이에요.

현 연준의장인 제롬 파월의 2018년 첫 기조연설은 통화정책 결정에 대한 인상적인 비유와 명확한 논거로 명연설로 평가를 받습니다. 당시 통화정책을 결정하는 주요 요소를 '별'에 비유하고, 이 "별을 보며 항해하는 것(Navigating by the stars)"이 통화정책 과정이라고 했죠.

하지만 5년이 지난 올해는 "구름 낀 하늘에서 별을 보며 항해하고 있다(Navigating by the stars under cloudy skies)"면서 다시 첫 기조연설의 비유를 불러내며 불확실성이 커졌음을 강조했는데요.

이렇게 강조한 이유는 무엇일까요? 이번 [부엉이의 차트피셜]은 제롬 파월 연준의장의 지난 주요 기조연설 내용을 뜯어보면서 현재 연준의 정책 결정이 어떤 방향으로 나아가고 있는지 짚습니다. 급격히 오른 금리의 배경과 맥락을 파악하고, 앞으로의 방향을 가늠해 볼 수 있습니다.

[스트리밍] #냅킨메모 #팟캐스트
스포티파이 팟캐스트의 시장 문제
스포티파이가 팟캐스트에 큰 베팅을 하면서 음악에만 기대는 서비스가 아닌 플랫폼으로 성장해 나가겠다고 한 것이 벌써 4년이 지났습니다. 지금까지 총 10억 달러(약 1조 3370억 원)가 넘는 금액을 팟캐스트 콘텐츠 확보 등에 써왔는데요.

현재까지는 큰 성과를 내지는 못한 상황입니다. 스포티파이의 스트리밍 플랫폼이 계속 확장하면서 이들의 베팅에 기대가 크기도 했지만, 결과적으로 팟캐스트 시장의 성장은 한계를 보이고 있어요. 

유럽의 유일한 '빅테크'라고도 불리며, 세계의 대표적인 오디오 플랫폼으로 성장해 온 스포티파이의 계획은 늘 "오디오 콘텐츠 시장이 그만큼 클 수 있을까?"라는 질문에 봉착해 왔어요. 하지만 앞으로 이 시장의 문제를 어떻게 해결할 수 있을지 명쾌한 답을 찾아내야 합니다. 그리고 그 답 중 하나는 플랫폼이 갖추어야 할 '콘텐츠'로 귀결되기도 합니다.

📌 [모임] 미국과 중국의 디커플링 현황
최근 미중 대결 구도의 영향으로 애플이 중국에서 맞이한 악재가 과연 앞으로 어떤 영향을 끼칠지에 대한 소식도 계속 이어지는 중인데요. [안젤라의 매크로 시선]을 통해서 꾸준히 전해온 미국과 중국의 대결 구도가 전체 산업과 기업들에 끼칠 영향은 무엇일지 살펴봅니다. 

거대한 현상의 맥을 늘 명확하게 짚어주는 저자인 안젤라 님과 함께 유익한 시간 만들고자 합니다. 함께 이야기 나누어요 :)

  • 주제: 미국과 중국의 디커플링은 잘 될까?
  • 일시: 9월 20일 수요일, 19:30~21:10
  • 장소: 로컬스티치 소공점 3층
  • 저자: 안젤라(박누리) / 진행: 오세훈(커피팟 발행인) 

☕️
오늘 커피팟 어땠나요?




good@coffeepot.me

© COFFEEPOT 2023
더는 받아보고 싶지 않으시다면
수신거부