1. AI 대전 제3라운드, 2. 에너지와 물이 더 필요한 AI 오늘은 영상으로 시작된 AI 대전의 제3라운드 속 주요 플레이어들의 현황을 먼저 전해드립니다. 현재 AI 경쟁 구도와 향후 관련 업계에 끼칠 영향에 대해서 더 구체적으로 이해할 수 있는 이야기에요. 이어서 AI 개발 경쟁 속에서 간과되어서는 안 되는 자원에 관한 이야기도 잠시 짚고 갈게요.
|
[AI] #빅테크 #소라 #오픈AI 1. 영상으로 시작된 AI 대전 3라운드 |
지난 2월 15일, 오픈AI가 영상 생성 AI 소라(Sora)를 공개하자 그 퀄리티에 테크 업계는 큰 충격에서 한동안 빠져나오지 못했습니다. 2022년 말 챗GPT가 출시했던 것만큼의 큰 충격임을 가리키는 "영상 AI의 챗GPT 모먼트이다"라는 표현도 심심치 않게 볼 수 있었는데요. 영상 AI의 판을 벌이고, 뒤집었다고도 표현할 수 있을 것 같습니다. 그런 의미에서 텍스트에서 이미지, 마침내 비디오까지 3라운드째의 대전쟁을 펼치고 있는 AI 업계의 주요 플레이어들의 현황을 톺아 보고자 합니다.
|
PIKA와 Gen2는 이미 좋은 평가를 받은 서비스들인데요. 소라가 이 서비스들을 훌쩍 뛰어넘어 버렸어요. (이미지: PIKA, Gen2) |
누구도 해내지 못했던 것을 해낸 소라사실 이미 시장에는 훌륭한 품질을 자랑하고, 칭찬받는 텍스트-투-비디오(text-to-video) 서비스들이 여럿 나와 있었습니다. 런웨이(Runway)의 Gen2나, PIKA와 같은 서비스들이 대표적입니다. 이들의 모델이 만들어 내는 영상은 AI에 열광하는 많은 사람들의 기대를 충족 시켜주기엔 충분했습니다.
다만, 한 번에 몇 초의 영상 밖에 만들 수 없는 점, 고개를 돌리거나 눈을 깜빡이는 등 작은 동작 위주로 퀄리티가 보장되며, 큰 동작을 기대하긴 어려운 점, 물리 법칙을 거스르는 부자연스러운 영상이 생성되는 점 등은 점차 극복해야 할 한계점으로 인식되고 있었죠. 하지만 이 단점들을 한 번에 모두 극복해 버린 소라를 오픈AI가 출시한 것입니다.소라의 소개 페이지에 첫 번째로 보이는 1분짜리 영상은 위 제약 사항을 모두 극복한 것을 증명하는 압축적인 영상입니다. |
단, 5개의 문장으로 만들어 낸 이 영상은 떠 세상을 놀라게 했죠. (이미지: 오픈AI) |
모델이 자연스럽게 걷는 모습, 가방이 흔들리는 모습, 젖은 도로와 비치는 네온사인들, 마치 편집된 듯한 컷 전환과 클로즈업, 인물을 담는 카메라의 워킹, 선글라스에 비치는 도시의 모습 등 AI 가 만들었을 것이라고는 상상할 수 없는 디테일들이 있음을 발견할 수 있죠.
1분의 영상으로 현재 시장 스탠다드인 초 단위 결과를 압도했고, 자연스러운 반사와 흔들림, 카메라 워킹 등을 통해 소라가 물리 법칙을 높은 수준으로 이해하고 영상을 만든다는 것이 보입니다. 이 밖에도 영상을 이어 붙인다거나, 원본 영상을 수정한다든가 하는 간단한(?) 일들도 가능합니다. |
원본 영상에서 배경을 정글로 (간단하게!) 바꾸는 예시입니다. (이미지: 오픈AI) |
진정 세상을 '구현'하기 시작하는 AI"AI가 세상을 이해한다"라는 주제는 이전의 커피팟 레터를 통해서도 몇 번 전해드린 이야기였지만, 당시 이야기들은 주로 AI 모델에 대한 투입 데이터(Input)에 대한 이야기였습니다. 소라가 발표된 이후부터, 연구자들을 포함한 대중들은 영상 생성 모델이 결국 어떤 의미인가에 대해 점차 상상해 보기 시작했죠. 헌데 그 답은 오픈AI의 홈페이지에 떠 있는 영상 생성 모델에 대한 설명에 바로 나와 있습니다.
"우리의 연구 결과는 영상 생성 모델을 확장하는 것이 물리적 세계에 대한 범용 시뮬레이터를 구축하는 데 유효한 방법임을 시사합니다." |
세상에 대한 시뮬레이터를 만드는 것이라고 이미 대놓고 써놓았죠. (이미지: 오픈AI) |
오픈AI가 소라를 통해 만들고자 한 것은 "월드 시뮬레이터(World Simulator)"입니다. 즉, 말 그대로 세상을 움직이는 영상으로 구현해 보여주는 것이죠. '영상'을 만들어 내는 것은 위에서 언급했듯 세상이 움직이는 물리 법칙에 대한 이해 없이는 만들 수 없는 것이니까요.
챗GPT는 자신이 말하는 것을 이해하고 말하는 것이 아니라, 단순히 학습된 텍스트 데이터에서 이후 생성될 확률이 높은 텍스트들을 만들 뿐이라는 주장입니다. 유명 SF 소설가이자 테크니컬 라이터인 테드 창(Ted Chang)은 “챗GPT는 웹의 흐릿한 JPEG 파일일 뿐이다"라고 말하기도 했고 많은 이들이 이에 공감하기도 했었죠. 소라 역시 기존 이미지 생성 AI에서 쓰였던 확산 모델(Diffusion Model) 방식이 쓰이고 있습니다. 노이즈로부터 시작해 점차 인풋으로 받은 프롬프트에 맞는 이미지를 만들어 내는 방식입니다. 다만 오픈AI가 소라를 통해 다시 한번 증명한 것은, 압도적인 양과 퀄리티 높은 데이터를 넣는다면 이 정도 수준의 비디오를 생성할 수 있다는 점입니다. 이것은 챗GPT를 통해 혁신을 만든 공식과도 비슷한데요.
새로운 학습 방법론을 찾는다기보다는 기존의 학습 데이터 양과 질을 높이는 방향으로 한계점을 뚫은 것이라고 볼 수 있습니다. |
소라는 이미지 생성과 동일한 확산 모델 방식으로 영상을 만듭니다. (이미지: 오픈AI) |
학습 데이터의 퀄리티 측면에서는, 기존 비디오 생성 AI 서비스들이 시도하지 않았던 방식을 적용한 것으로 예상되고 있습니다. 영상뿐 아니라, 언리얼 엔진 등을 통해 생성된 3D 데이터들을 함께 학습하는 것인데요. 이를 통해 공간적인 실재감을 구현할 수 있었던 것으로 보입니다.
빠르게 따라올 것으로 보이는 구글 오픈AI가 소라를 공개하기 전, AI 판에서 가장 주목 받던 이슈는 바로 구글의 제미나이(Gemini) 1.5 발표였습니다. 챗GPT를 포함해 시중의 LLM 들은 인풋 가능한 데이터의 수가 사용자들이 원하는 것만큼 높지 않았던 반면, 제미나이 1.5 는 1시간 분량의 영상, 11시간 분량의 음성, 3만 줄 이상의 코드 및 70만 개가 넘는 단어 분량의 인풋 데이터를 지원하고, 그에 맞는 고도화된 추론 능력까지 지원하여 많은 기대를 모았는데요. 여기서 주목해 볼 점은 '1시간 분량의 영상'입니다. 제미나이는 현재 영상으로 특화된 모델은 아니지만, 영상을 인풋으로 받아 복잡한 추론을 간단하게 끝낼 수 있습니다. 영상을 이해한다는 것이죠. 자막 없이 영화 한 편을 통째로 인풋으로 받아 바로 몇 초 만에 요약을 해주기도 합니다.
시장에서 소라가 이렇게 주목을 받았던 만큼, 구글 또한 영상 생성 AI 쪽으로 힘을 많이 쏟을 것으로 보입니다. 그리고 구글은 전 세계에서 가장 큰 영상 데이터베이스인 유투브를 가지고 있는 기업이기도 하죠. |
영화를 텍스트로 순삭간에 요약해 준 제미나이 1.5의 모습이에요. (이미지: 엑스) |
새로운 방법론을 제시하는 메타 AI에 관해서는 오픈소스 및 개방 쪽에 힘을 싣고 있는 메타 또한 영상 관련한 새로운 학습 방법론을 제시했습니다.
메타는 이 모델 역시 오픈소스로 공개했습니다. 메타가 오픈소스로 AI 모델을 공개하는 방향으로 가닥을 잡은 건 물론 단순히 사회 공헌 취지가 아닙니다.
"메타는 최신, 첨단의 AI 모델 개발에 많은 자원을 투입하며, 연구를 파격적으로 지원한다"라는 포지션 획득을 통해 귀하디귀한 AI 인재 경쟁에서 우위를 점할 수 있고, 모델 자체의 발전도 오픈소스 생태계를 통해 지속 가능할 수 있습니다. |
메타는 이번 모델도 오픈소스로 공개했습니다. (이미지: 메타) |
오픈AI의 소라가 촉발시킨 제 3라운드, 영상이라는 키워드를 주제로 대규모 레이스가 또 한 번 시작될 것으로 보입니다. 이러한 레이스 끝에는 인간 만큼 보고 듣고 말하거나, 전문가 수준의 영상까지도 만들어 내는 AI가 기다리고 있을 것이라고 예상됩니다. 단순하게는 짧은 광고 영상이나 브랜드 영상 등의 산업에 활용되겠지만, 장기적으로는 3D 및 실사 영상의 생성을 통한 게임 엔진 및 다양한 시뮬레이션까지 넘볼 수 있을 것으로 보입니다.
미국의 엔터테인먼트 업계에서는 벌써 소라에 놀라 계획했던 대규모 확장 투자를 보류하는 영화 스튜디오도 나왔는데요. 해당 스튜디오 대표이자 유명 배우인 타일러 페리는 "(소라의 등장은) 우리 업계 구석구석에 영향을 끼칠 것이다"라면서 제작자로서 AI 활용의 '장점'을 이미 보고 있습니다.
당장에는 큰 영향을 끼치지 않을 것이라는 시선도 크지만, 관련 업계에서는 어떤 변화가 일어날 지를 예상하고 있어야 하겠죠.
- By 준. 글로벌 IT 기업에서 일하고 있어요. 스타트업, 웹3, AI 등 새로운 기술이 바꾸어 나가는 세상의 모습에 많은 관심을 두고 있습니다. |
[AI] #데이터센터증가 #에너지증가 2. AI 이야기에 에너지가 중요한 이유 |
급속도록 발전하고 있는 산업이 있다면 꼭 생각해야 할 것이 그 이면에 쓰이는 '자원'입니다. 빅테크 기업들이 데이터 센터를 운영하며 드는 전력과 물 사용량 등의 증가는 최근 몇 년 사이 본격적으로 주목 받기 시작했는데요.
커진 AI 수요로 인한 전력 사용과 물 사용량이 세심히 관리되어야 한다는 이야기도 이제 나오는 중입니다. 급격히 증가한 서비스들을 사용하는 수요로 인해 기존 화석 연료 발전소의 사용까지 증가하고, 뜨거워진 데이터 센터를 식히기 위해 물 사용이 급격히 증가했기 때문이에요.
(찬물을 끼얹으려는 건 아니지만) 에너지와 물과 같은 자원의 사용 증가는 빅테크 기업도 오래 외면할 수 있는 사항이 아니고, 안정적인 사업 성장을 위해서라도 먼저 해결해야 할 중요한 문제 중 하나입니다. |
[국제경제] #안젤라의매크로시선 #금융허브 3. 우리가 알던 홍콩은 돌아올까? |
홍콩 하면 떠오르는 장면들은 지난 몇 년 사이에 많이 달라졌죠. 전 세계 대표 금융 허브로서의 입지는 2019년 홍콩 민주화 시위 그리고 팬데믹 이후 강화된 중국 정부의 통제의 영향으로 더 흔들리기 시작했고요. 입지의 흔들림은 홍콩 증시 추락, 기업공개(IPO) 숫자 등 대표적인 수치들로도 명확하게 증명되고 있습니다. 홍콩 증권거래소의 항셍 지수는 1997년 반환 당시의 수준까지 거의 떨어진 상황이죠.
홍콩이 1997년 반환된 이후에도 오랜 기간 흔들리지 않던 입지는 어디서부터 무엇이 잘못되어 흔들리기 시작했을까요? 광활한 중국 시장으로 들어가기 위한 관문이었기에 더욱 잘 나가던 홍콩이었는데, 아무리 여러 요소가 겹쳤다 하더라도 이렇게까지 위상이 추락할 이유는 무엇일까요? 그리고 저명한 전문가들은 왜 "홍콩의 시대는 끝났다"라고까지 선언하고 있는 걸까요?
이번 [안젤라의 매크로 시선]은 최근 위기론이 더욱 커진 홍콩의 상황을 우선 살펴봅니다. 중국 정부의 통제가 더욱 큰 영향을 미치게 된 홍콩은 해외 자본이 계속 빠져나갔고, 결국 중국에 대한 의존도가 너무 높아진 홍콩이 홍콩 달러까지 포기하게 될 수도 있는 최악의 상황도 현재 그려볼 수 있는데요.
최악의 상황이기도 하지만, 동시에 쉽게 무너지지 않을 이유가 큰 홍콩이 가진 '입지'의 힘은 무엇인지도 같이 살펴봅니다. '포스트 홍콩'으로 거론되는 여러 곳이 결국 홍콩이 오랜 기간 쌓아온 시스템과 중국의 주요 경제 지구들과 연결되는 지리적 장점을 쉽게 넘어설 수 없다는 것을 핵심으로 짚으면서요.
홍콩과 중국 그리고 나아가 아시아를 넘은 자본의 이동을 그려보며 읽으면 더욱 재밌는 이야기입니다. |
[금융] #찰리멍거 #워런버핏 4. 최고의 파트너를 위한 서한 |
버크셔 해서웨이는 현지 시각으로 지난 토요일에 2023년 실적과 함께 연례 주주서한을 내보내면서, 사상 최대의 순이익을 냈다고 알렸습니다. 총 971억 달러(약 129조 3500억 원)로 2022년 220억 달러(약 29조 3000억 원)의 순손실을 본 이후 거대한 반전을 만들어 냈습니다. 계속해서 변하는 버크셔의 거대한 투자 수익이 늘 합쳐지는 숫자이기에 정작 워런 버핏은 이 기준을 두고 "쓸모 없는 것보다 더 최악(worse than useless)"이라고 큰 의미를 두지는 않지만, 이 숫자는 늘 주목을 받으며 비중 있게 보도되기도 합니다.
물론 버크셔 해서웨이가 실적에서 가장 중요시하는 숫자인 (일부 투자 수익을 제외한 핵심 사업의) 영업이익도 374억 달러(약 49조 8200억 원)를 기록해 지난해의 309억 달러(약 41조 1600억 원)에서 크게 성장했죠.
하지만 이렇게 그 어느 때보다 건재함을 알린 버크셔는 찰리 멍거라는 거대한 버팀목을 잃었죠.
워런 버핏은 이번 연례 주주서한을 내보내면서, 첫 장에 찰리 멍거를 위한 헌사를 바쳤습니다. 여느 해와 다름 없이 담백하게 지난해 사업에 대한 주요 내용에 대한 분석과 견해를 밝힌 주주서한 앞에 찰리 멍거가 자신과 버크셔 해서웨이에 어떤 의미를 지닌 사람이었는지, 그가 왜 버크셔 해서웨이의 진정한 '설계자(아키텍트)'였는지에 대한 이야기를 전합니다.
+ 커피팟이 구독자분들을 위한 새로운 형식의 스핀-오프(spin-off) 뉴스레터를 시작했습니다. 이번과 같이 중요한 주주서한의 핵심 내용을 해석하거나, 주요 차트를 분석하는, 혹은 짧지만 의미 있는 이야기를 큐레이션 하면서 기존 뉴스레터와는 다른 형식으로 이야기를 담아 전할 예정인데요. 그 첫 번째 이야기입니다.
뉴스레터명은 '초안'이라는 의미도 담은 '드래프트(DRAFT)'이고, 더 컴팩트하게 좋은 내용을 수시로 전해드립니다. 한번 살펴보세요! |
☕️☕️ 모든 뉴스레터 받아보려면! 월스트리트부터 실리콘밸리, 그리고 전 세계 주요 경제 이슈까지. 실질적인 도움이 되는 분석과 새로운 시선을 쉽고 재밌게 전해드려요. 향후 저자들과 함께하는 오프라인 [모임]에도 참여할 수 있으니 구독하고 꾸준히 받아보세요. + 첫 1개월 50% 할인을 해드려요. 더 할인된 연간 구독도 가능하고요. 확인해 보세요!
|
good@coffeepot.me
© COFFEEPOT 2023 |
|
|
그런 의미에서 텍스트에서 이미지, 마침내 비디오까지 3라운드째의 대전쟁을 펼치고 있는 AI 업계의 주요 플레이어들의 현황을 톺아 보고자 합니다.
소라의 소개 페이지에 첫 번째로 보이는 1분짜리 영상은 위 제약 사항을 모두 극복한 것을 증명하는 압축적인 영상입니다.
"AI가 세상을 이해한다"라는 주제는 이전의 커피팟 레터를 통해서도 몇 번 전해드린 이야기였지만, 당시 이야기들은 주로 AI 모델에 대한 투입 데이터(Input)에 대한 이야기였습니다. 소라가 발표된 이후부터, 연구자들을 포함한 대중들은 영상 생성 모델이 결국 어떤 의미인가에 대해 점차 상상해 보기 시작했죠. 헌데 그 답은 오픈AI의 홈페이지에 떠 있는 영상 생성 모델에 대한 설명에 바로 나와 있습니다.
소라 역시 기존 이미지 생성 AI에서 쓰였던 확산 모델(Diffusion Model) 방식이 쓰이고 있습니다. 노이즈로부터 시작해 점차 인풋으로 받은 프롬프트에 맞는 이미지를 만들어 내는 방식입니다. 다만 오픈AI가 소라를 통해 다시 한번 증명한 것은, 압도적인 양과 퀄리티 높은 데이터를 넣는다면 이 정도 수준의 비디오를 생성할 수 있다는 점입니다. 이것은 챗GPT를 통해 혁신을 만든 공식과도 비슷한데요.
오픈AI가 소라를 공개하기 전, AI 판에서 가장 주목 받던 이슈는 바로 구글의 제미나이(Gemini) 1.5 발표였습니다. 챗GPT를 포함해 시중의 LLM 들은 인풋 가능한 데이터의 수가 사용자들이 원하는 것만큼 높지 않았던 반면, 제미나이 1.5 는 1시간 분량의 영상, 11시간 분량의 음성, 3만 줄 이상의 코드 및 70만 개가 넘는 단어 분량의 인풋 데이터를 지원하고, 그에 맞는 고도화된 추론 능력까지 지원하여 많은 기대를 모았는데요. 여기서 주목해 볼 점은 '1시간 분량의 영상'입니다.
제미나이는 현재 영상으로 특화된 모델은 아니지만, 영상을 인풋으로 받아 복잡한 추론을 간단하게 끝낼 수 있습니다. 영상을 이해한다는 것이죠. 자막 없이 영화 한 편을 통째로 인풋으로 받아 바로 몇 초 만에 요약을 해주기도 합니다.
AI에 관해서는 오픈소스 및 개방 쪽에 힘을 싣고 있는 메타 또한 영상 관련한 새로운 학습 방법론을 제시했습니다.
단순하게는 짧은 광고 영상이나 브랜드 영상 등의 산업에 활용되겠지만, 장기적으로는 3D 및 실사 영상의 생성을 통한 게임 엔진 및 다양한 시뮬레이션까지 넘볼 수 있을 것으로 보입니다.
+ 첫 1개월 50% 할인을 해드려요. 더 할인된 연간 구독도 가능하고요. 확인해 보세요!
수신거부