☕️☕️ AI 대전의 세번째 라운드와 그 의미

1. AI 대전 제3라운드, 2. 에너지와 물이 더 필요한 AI
2024년 2월 27일 화요일 
오늘은 영상으로 시작된 AI 대전의 제3라운드 속 주요 플레이어들의 현황을 먼저 전해드립니다. 현재 AI 경쟁 구도와 향후 관련 업계에 끼칠 영향에 대해서 더 구체적으로 이해할 수 있는 이야기에요. 이어서 AI 개발 경쟁 속에서 간과되어서는 안 되는 자원에 관한 이야기도 잠시 짚고 갈게요.

[AI] #빅테크 #소라 #오픈AI
1. 영상으로 시작된 AI 대전 3라운드
지난 2월 15일, 오픈AI가 영상 생성 AI 소라(Sora)를 공개하자 그 퀄리티에 테크 업계는 큰 충격에서 한동안 빠져나오지 못했습니다. 2022년 말 챗GPT가 출시했던 것만큼의 큰 충격임을 가리키는 "영상 AI의 챗GPT 모먼트이다"라는 표현도 심심치 않게 볼 수 있었는데요. 영상 AI의 판을 벌이고, 뒤집었다고도 표현할 수 있을 것 같습니다.

그런 의미에서 텍스트에서 이미지, 마침내 비디오까지 3라운드째의 대전쟁을 펼치고 있는 AI 업계의 주요 플레이어들의 현황을 톺아 보고자 합니다. 
PIKA와 Gen2는 이미 좋은 평가를 받은 서비스들인데요. 소라가 이 서비스들을 훌쩍 뛰어넘어 버렸어요. (이미지: PIKA, Gen2)
누구도 해내지 못했던 것을 해낸 소라
사실 이미 시장에는 훌륭한 품질을 자랑하고, 칭찬받는 텍스트-투-비디오(text-to-video) 서비스들이 여럿 나와 있었습니다. 런웨이(Runway)의 Gen2나, PIKA와 같은 서비스들이 대표적입니다. 이들의 모델이 만들어 내는 영상은 AI에 열광하는 많은 사람들의 기대를 충족 시켜주기엔 충분했습니다.

다만, 한 번에 몇 초의 영상 밖에 만들 수 없는 점, 고개를 돌리거나 눈을 깜빡이는 등 작은 동작 위주로 퀄리티가 보장되며, 큰 동작을 기대하긴 어려운 점, 물리 법칙을 거스르는 부자연스러운 영상이 생성되는 점 등은 점차 극복해야 할 한계점으로 인식되고 있었죠. 하지만 이 단점들을 한 번에 모두 극복해 버린 소라를 오픈AI가 출시한 것입니다.

소라의 소개 페이지에 첫 번째로 보이는 1분짜리 영상은 위 제약 사항을 모두 극복한 것을 증명하는 압축적인 영상입니다.
단, 5개의 문장으로 만들어 낸 이 영상은 떠 세상을 놀라게 했죠. (이미지: 오픈AI)  
모델이 자연스럽게 걷는 모습, 가방이 흔들리는 모습, 젖은 도로와 비치는 네온사인들, 마치 편집된 듯한 컷 전환과 클로즈업, 인물을 담는 카메라의 워킹, 선글라스에 비치는 도시의 모습 등 AI 가 만들었을 것이라고는 상상할 수 없는 디테일들이 있음을 발견할 수 있죠.

1분의 영상으로 현재 시장 스탠다드인 초 단위 결과를 압도했고, 자연스러운 반사와 흔들림, 카메라 워킹 등을 통해 소라가 물리 법칙을 높은 수준으로 이해하고 영상을 만든다는 것이 보입니다. 이 밖에도 영상을 이어 붙인다거나, 원본 영상을 수정한다든가 하는 간단한(?) 일들도 가능합니다.
원본 영상에서 배경을 정글로 (간단하게!) 바꾸는 예시입니다. (이미지: 오픈AI)
진정 세상을 '구현'하기 시작하는 AI
"AI가 세상을 이해한다"라는 주제는 이전의 커피팟 레터를 통해서도 몇 번 전해드린 이야기였지만, 당시 이야기들은 주로 AI 모델에 대한 투입 데이터(Input)에 대한 이야기였습니다. 소라가 발표된 이후부터, 연구자들을 포함한 대중들은 영상 생성 모델이 결국 어떤 의미인가에 대해 점차 상상해 보기 시작했죠. 헌데 그 답은 오픈AI의 홈페이지에 떠 있는 영상 생성 모델에 대한 설명에 바로 나와 있습니다.

"우리의 연구 결과는 영상 생성 모델을 확장하는 것이 물리적 세계에 대한 범용 시뮬레이터를 구축하는 데 유효한 방법임을 시사합니다."
세상에 대한 시뮬레이터를 만드는 것이라고 이미 대놓고 써놓았죠. (이미지: 오픈AI)
오픈AI가 소라를 통해 만들고자 한 것은 "월드 시뮬레이터(World Simulator)"입니다. 즉, 말 그대로 세상을 움직이는 영상으로 구현해 보여주는 것이죠. '영상'을 만들어 내는 것은 위에서 언급했듯 세상이 움직이는 물리 법칙에 대한 이해 없이는 만들 수 없는 것이니까요.

엔비디아의 시니어 리서치 과학자 짐 팬(Jim Fan)은 소라를 보고 "데이터로 가동되는 물리 엔진(Data-Driven physics engine)"이라고 칭합니다. 하지만 이에 반대하는 이들은 소라는 물리 법칙을 배운 것이 아니라, 그저 학습된 패턴을 픽셀로 출력하고 있을 뿐이라고 말합니다. 이와 같은 논쟁은 챗GPT가 주목받았을 때도 동일하게 있었습니다.

챗GPT는 자신이 말하는 것을 이해하고 말하는 것이 아니라, 단순히 학습된 텍스트 데이터에서 이후 생성될 확률이 높은 텍스트들을 만들 뿐이라는 주장입니다. 유명 SF 소설가이자 테크니컬 라이터인 테드 창(Ted Chang)은 “챗GPT는 웹의 흐릿한 JPEG 파일일 뿐이다"라고 말하기도 했고 많은 이들이 이에 공감하기도 했었죠.

소라 역시 기존 이미지 생성 AI에서 쓰였던 확산 모델(Diffusion Model) 방식이 쓰이고 있습니다. 노이즈로부터 시작해 점차 인풋으로 받은 프롬프트에 맞는 이미지를 만들어 내는 방식입니다. 다만 오픈AI가 소라를 통해 다시 한번 증명한 것은, 압도적인 양과 퀄리티 높은 데이터를 넣는다면 이 정도 수준의 비디오를 생성할 수 있다는 점입니다. 이것은 챗GPT를 통해 혁신을 만든 공식과도 비슷한데요.

새로운 학습 방법론을 찾는다기보다는 기존의 학습 데이터 양과 질을 높이는 방향으로 한계점을 뚫은 것이라고 볼 수 있습니다.
소라는 이미지 생성과 동일한 확산 모델 방식으로 영상을 만듭니다. (이미지: 오픈AI)
학습 데이터의 퀄리티 측면에서는, 기존 비디오 생성 AI 서비스들이 시도하지 않았던 방식을 적용한 것으로 예상되고 있습니다. 영상뿐 아니라, 언리얼 엔진 등을 통해 생성된 3D 데이터들을 함께 학습하는 것인데요. 이를 통해 공간적인 실재감을 구현할 수 있었던 것으로 보입니다.

빠르게 따라올 것으로 보이는 구글
오픈AI가 소라를 공개하기 전, AI 판에서 가장 주목 받던 이슈는 바로 구글의 제미나이(Gemini) 1.5 발표였습니다. 챗GPT를 포함해 시중의 LLM 들은 인풋 가능한 데이터의 수가 사용자들이 원하는 것만큼 높지 않았던 반면, 제미나이 1.5 는 1시간 분량의 영상, 11시간 분량의 음성, 3만 줄 이상의 코드 및 70만 개가 넘는 단어 분량의 인풋 데이터를 지원하고, 그에 맞는 고도화된 추론 능력까지 지원하여 많은 기대를 모았는데요. 여기서 주목해 볼 점은 '1시간 분량의 영상'입니다.

제미나이는 현재 영상으로 특화된 모델은 아니지만, 영상을 인풋으로 받아 복잡한 추론을 간단하게 끝낼 수 있습니다. 영상을 이해한다는 것이죠. 자막 없이 영화 한 편을 통째로 인풋으로 받아 바로 몇 초 만에 요약을 해주기도 합니다.

시장에서 소라가 이렇게 주목을 받았던 만큼, 구글 또한 영상 생성 AI 쪽으로 힘을 많이 쏟을 것으로 보입니다. 그리고 구글은 전 세계에서 가장 큰 영상 데이터베이스인 유투브를 가지고 있는 기업이기도 하죠.
영화를 텍스트로 순삭간에 요약해 준 제미나이 1.5의 모습이에요. (이미지: 엑스)
새로운 방법론을 제시하는 메타
AI에 관해서는 오픈소스 및 개방 쪽에 힘을 싣고 있는 메타 또한 영상 관련한 새로운 학습 방법론을 제시했습니다.

적극적으로 대외 메시지를 내놓고 있기도 하는 메타의 수석 AI 과학자 얀 르쿤(Yann Lecun)이 제안한 것으로, V-JEPA(Video Joint Embedding Predictive Architectures)라고 불리는 이 방식은 간단하게 말하자면 매우 많은 양의 영상을 학습 시켜 AI가 세상이 돌아가는 방식에 대해 배우게 하는 것입니다. 마치 인간이 눈을 통해 주변을 관찰하며 배우는 것과 비슷하게요.

메타는 이 모델 역시 오픈소스로 공개했습니다. 메타가 오픈소스로 AI 모델을 공개하는 방향으로 가닥을 잡은 건 물론 단순히 사회 공헌 취지가 아닙니다.

"메타는 최신, 첨단의 AI 모델 개발에 많은 자원을 투입하며, 연구를 파격적으로 지원한다"라는 포지션 획득을 통해 귀하디귀한 AI 인재 경쟁에서 우위를 점할 수 있고, 모델 자체의 발전도 오픈소스 생태계를 통해 지속 가능할 수 있습니다.
메타는 이번 모델도 오픈소스로 공개했습니다. (이미지: 메타)
오픈AI의 소라가 촉발시킨 제 3라운드, 영상이라는 키워드를 주제로 대규모 레이스가 또 한 번 시작될 것으로 보입니다. 이러한 레이스 끝에는 인간 만큼 보고 듣고 말하거나, 전문가 수준의 영상까지도 만들어 내는 AI가 기다리고 있을 것이라고 예상됩니다.

단순하게는 짧은 광고 영상이나 브랜드 영상 등의 산업에 활용되겠지만, 장기적으로는 3D 및 실사 영상의 생성을 통한 게임 엔진 및 다양한 시뮬레이션까지 넘볼 수 있을 것으로 보입니다. 

미국의 엔터테인먼트 업계에서는 벌써 소라에 놀라 계획했던 대규모 확장 투자를 보류하는 영화 스튜디오도 나왔는데요. 해당 스튜디오 대표이자 유명 배우인 타일러 페리는 "(소라의 등장은) 우리 업계 구석구석에 영향을 끼칠 것이다"라면서 제작자로서 AI 활용의 '장점'을 이미 보고 있습니다. 

당장에는 큰 영향을 끼치지 않을 것이라는 시선도 크지만, 관련 업계에서는 어떤 변화가 일어날 지를 예상하고 있어야 하겠죠.

-
By 준. 글로벌 IT 기업에서 일하고 있어요. 스타트업, 웹3, AI 등 새로운 기술이 바꾸어 나가는 세상의 모습에 많은 관심을 두고 있습니다.

[AI] #데이터센터증가 #에너지증가
2. AI 이야기에 에너지가 중요한 이유
급속도록 발전하고 있는 산업이 있다면 꼭 생각해야 할 것이 그 이면에 쓰이는 '자원'입니다. 빅테크 기업들이 데이터 센터를 운영하며 드는 전력과 물 사용량 등의 증가는 최근 몇 년 사이 본격적으로 주목 받기 시작했는데요. 

커진 AI 수요로 인한 전력 사용과 물 사용량이 세심히 관리되어야 한다는 이야기도 이제 나오는 중입니다. 급격히 증가한 서비스들을 사용하는 수요로 인해 기존 화석 연료 발전소의 사용까지 증가하고, 뜨거워진 데이터 센터를 식히기 위해 물 사용이 급격히 증가했기 때문이에요. 

(찬물을 끼얹으려는 건 아니지만) 에너지와 물과 같은 자원의 사용 증가는 빅테크 기업도 오래 외면할 수 있는 사항이 아니고, 안정적인 사업 성장을 위해서라도 먼저 해결해야 할 중요한 문제 중 하나입니다.
전력 사용 예측을 다 다시 해야 할 상황이기도 합니다.  
점점 증가하는 AI 수요의 결과
최근 한 연구 결과가 AI 개발 경쟁으로 인한 각종 자원 사용량 증가를 바라보는 이들의 주목을 받았는데요. AI 모델의 개발과 이에 대한 수요 증가로 관련 기업들의 물 사용량이 점차 증가하고 있어 전 세계 땅속과 지표면의 물이 매년 상당량 소요될 것이라는 연구였습니다. 2027년까지 영국 전체에서 소비하는 양의 절반에 해당하는 규모에 이를 것이라는 결과이기에 가볍게 넘길 이야기가 아니었죠.

이를 보도한 파이낸셜타임스 AI 수요가 증가하면서 마이크로소프트(MS)와 구글의 물 소비량이 크게 증가해 왔다는 점을 지적했어요. 가장 최근 자료인 2022년을 기준으로 MS는 전년 대비 물 사용량이 34% 증가했고, 구글은 22% 증가했죠. 이 수치는 AI 기반 서비스들이 태동하던 당시가 기준이고, 본격적인 성장이 시작된 2023년에 더 크게 증가했을 것으로 예상되고 현재도 커지는 중이라고 예상할 수 있습니다.

물론 이런 AI의 수요는 전 세계 전력 수요에서 차지하는 그 비중도 늘렸습니다. 국제에너지기구(IEA)가 최근 발표한 리포트에 따르면, 2022년에 각종 데이터 센터와 크립토 그리고 AI가 전 세계 전력 수요에서 차지하는 비중은 약 2%에 이르렀다고 해요. 그리고 이는 2026년까지 2배 증가할 것으로 내다보고 있습니다. 증가량 가운데 상당 부분이 AI 수요가 될 것으로 보고 있죠.

훨씬 많은 에너지가 필요한 상황
엔비디아의 CEO인 젠슨 황 지난 2월 초 두바이에서 열린 세계 정부 서밋에서 현재의 페이스대로라면 최근 AI 수요를 뒷받침하기 위한 데이터 센터를 늘리는 데 드는 비용이 5년 안에 2배가 될 것이라고 내다보고 있어요. 그리고 "AI를 위한 청정 에너지의 생산은 AI의 성장 속도를 훨씬 앞서고 있다"라고도 지적했죠.  

오픈AI의 샘 알트먼도 지난 1월에 열린 다보스 포럼에서 "지금까지 우리가 필요하다고 생각했던 것보다 훨씬 더 많은 에너지가 필요하다"라고 하면서, "(AI) 기술이 필요로 하는 에너지에 대해 우리가 아직도 과소평가를 하고 있다"라고 강조했습니다. 

미국에서는 현재 AI 수요를 맞추기 위한 데이터 센터들을 돌리는 데 필요한 전력을 그동안 쓰지 않던 석탄 발전을 이용해서까지 생산하는 중입니다. 미국은 그간 전력 수요가 수십 년간 1% 이하로 증가했는데, 2023년부터 5년간은 1.5% 증가할 것으로 예상되고 있어요. 

예상치 못하게 커진 AI 산업은 예상치 못한 곳에서 에너지 사용의 증가를 가져왔고, 앞으로도 그 성장세에 따른 수요 예측은 쉽지가 않습니다. 이제 미국에 있는 데이터 센터들만 해도 2030년까지 전력 사용량이 (2022년 대비) 3배 이상 증가할 것으로 예상되는 상황이죠. 현재 나오고 있는 이 수치들은 산업이 어떻게 발전하느냐에 따라 또 다르게 예측될 것입니다. 

이제 제시해야 할 새로운 목표
AI 모델의 훈련은 다른 컴퓨팅 작업보다 더 많은 전력을 사용한다는 것은 이미 널리 알려져 있습니다. 대규모 언어 모델(LLM, Large Language Model)이 부상할 수 있었던 핵심인 그래픽 처리 장치(GPU)의 사용이 중앙 처리 장치(CPU)를 사용하는 것보다 더 많은 전력을 사용하죠. IEA의 관련 리포트는 하나의 AI 모델을 훈련 시키는 데 쓰이는 전력량이 100가구(미국 기준)가 1년 동안 사용하는 것보다 많다고 짚습니다.

구글의 경우에는, 지난 2022년에 이전 3년 동안 머신 러닝이 자사 전체 에너지 사용량 중 15%를 차지했다고 밝힌 바 있어요. 하지만 아직까지 AI의 에너지 사용과 환경적 영향에 대한 구체적인 데이터는 새로이 내놓지 못했어요. 구글은 물론 MS를 비롯한 다른 빅테크 기업들도 (제대로) 제시한 것이 없는 상황이죠. 

대부분의 빅테크 기업들은 이미 기업 운영 전 과정에 탄소중립을 이루겠다는 목표 설정을 하고, 100% 재생에너지 사용 목표 등을 이미 세워 놓긴 했습니다. 하지만 이런 목표들을 설정할 당시에는 AI가 이렇게 폭발적으로 증가하는 그림은 그려지지 않았습니다.

이제는 각 기업이 AI가 소비하는 각종 에너지 관련 데이터도 빨리 업데이트해야 할 때가 온 것인데요. 전력 사용과 그에 따른 물과 같은 자원의 확보 방법까지 새로운 목표와 가이드라인도 곧 제시해야 하는 상황이 되었습니다. 이는 브레이크 없는 개발 경쟁이 더 격화되기 전에 꼭 필요한 일이고요. 

오늘 커피팟은 어땠나요?



good@coffeepot.me

© COFFEEPOT 2023


구독자 정보 혹은 구독 상태 변경을 원하신다면