1. 로봇 뇌 역할 하기 시작한 AI, 2. 회복하는 디지털 광고 시장?, 3. 애플과 아마존의 영향 오늘은 AI 영역에서 본격적으로 걸음을 빨리하는 구글의 모습을 우선 전합니다. 최근 구글 검색에도 대규모 언어 모델(LLM)을 적용해 이미지와 영상 검색 결과를 제시하는 실험을 진행 중이고, 로봇의 뇌 역할을 하는 모습도 공개되었어요.
이어서 전체 광고 시장은 커가지만, 역시나 가장 큰 디지털 광고가 그 파이를 계속 키우고 있고, 그 파이도 빅테크 기업들이 가장 많이 차지하는 모습을 짚었습니다. 앞으로도 이들이 가진 기술 우위가 만드는 격차는 더욱 벌어질 것으로 보여요.
+ 샷 추가하면 이어지는 이야기들도 모두 보실 수 있어요. 이번 주에는 리테일 산업과 주요 기업을 분석하는 롱폼 아티클 [조디의 리테일 우화]도 이어집니다. |
[AI] #빅테크 #더빨라지는AI개발 1. 본격적으로 AI 움직이는 구글 |
AI 개발에 속도를 한껏 높여 온 빅테크 기업들이 이제는 한숨 돌리고 다양한 적용 사례들을 보여주면서 수익을 내기 위한 방법을 찾고 있다고 지난 이야기를 통해서 전해드렸는데요. 이들은 계속해서 바삐 움직이는 중입니다. 현재 시장을 이끄는 오픈AI는 마이크로소프트와의 협업, 그리고 GPT에 데이터 분석을 쉽게 해주는 코드 인터프리터(Code Interpreter)와 같은 기능을 붙이면서 시장과의 핏을 찾아가고 있어요. 애플은 드러나지 않지만 유용한 기능들을 위주로 AI를 적극 활용하는 중이며, 메타는 자신들의 모델을 적극적으로 오픈 소스로 공개하는 전략을 취하고 있고요. 그리고 이런 빅테크 중에서도 요즘 가장 크게 움직이는 선수가 있습니다. 바로 챗GPT에 선수를 뺏기며, 검색을 기반으로 한 사업 모델을 다듬어야 하는 구글이 가장 다양하고 적극적인 AI의 적용을 추진하는 모습을 보이는 중이죠.
오늘은 구체적으로 구글이 어떤 모습을 보여주는지 살펴보고자 합니다. 과연 사람들을 구글에 붙잡아 놓을 기능들일까요? |
이제 구글 검색에서도 이미지와 비디오가 결과에 함께 포함되고 있어요. 그리고 맨 상단에 "(현재) 적용된 생성 AI는 실험적인 기능이다. 정보의 질이 일정치 않을 수 있다."라고도 표시하는 중이에요. (이미지 출처: 구글, 더버지) |
구글 검색의 AI 확장 시작구글 홈(Home)과 같은 기기를 써 보신 분들이라면, “헤이 구글”이라고 말하고 무언가를 요청하는 것에 익숙하실 거예요. 바로 그때 사용되는 기능이 바로 구글 어시스턴트(Assistant)인데요. 최근 외부에도 알려진 구글의 내부 이메일을 통해 이 구글 어시스턴트가 대규모 언어 모델(LLM) 기술 활용에 집중하겠다는 사실이 밝혀졌습니다. 사용자의 입장에서라면 구글에 텍스트로 검색을 하든, 음성으로 검색을 하든, 지메일 내에서 검색을 하든 상관 없이 일관적으로 동일한 수준의 답변을 기대하게 되는데요. LLM과 같은 기술의 적용이 워낙 시급하게 진행된 터라 각 부서별, 기능별로 적용에 대한 시차가 존재할 수밖에 없었으리라 예상됩니다. 하지만 이제야 본격적으로 구글의 다양한 기능들에 AI의 적용이 시작된 것이라고 볼 수 있습니다.
구글이 실험적으로 지원하던 생성 AI를 활용한 검색 기능(SGE, Search Generative Experiment)에서도 최근 검색어에 관련된 이미지와 비디오까지 표시가 되도록 업데이트되었습니다. 만약 사용자가 (위의 이미지에서 처럼) "감자 써는 법"이라고 검색한다면, AI를 통해 생성된 답변 내부에 해당 답변의 정확도를 올려줄 수 있는 비디오 클립 등도 같이 표시된다는 것이죠.
(일단 해당 기능은 현재 미국에서만 지원되고 있는데요) 이런 기능이 가능하다는 것은 어떤 의미일까요? AI가 이제 사용자들의 질문을 이해하는 것은 물론, 이에 대한 적절한 답변과 함께 영상/이미지까지 표시하기 위해 사용자들이 올린 동영상, 이미지 등에 담긴 내용까지 모두 이해하기 시작했다는 것이라고 볼 수도 있습니다. 유튜브 영상에 음성이 있다면 자동 자막과 번역을 통해 음성을 텍스트로 바꾸어 이해하고요.
이미 우리는 유튜브를 검색을 위해서도 많이 쓰고 있죠. 특히 "무언가를 어떻게 하는 법(How-to)"과 같은 검색 쿼리들은 텍스트보다 동영상이 더 효율적인 학습이 될 가능성이 높습니다. |
"멸종한 동물을 집어줘"라고 하니 바로 공룡을 집었어요. (이미지 출처: 구글 딥마인드) |
이제 로봇의 뇌 역할 하는 AI
RT-2는 VLA(Vision-Language-Action(시각-언어-행동)) 모델이라고도 부르며, 웹과 로봇 공학에서 학습한 데이터를 기반으로 지시사항을 이해하고 행동하는 것이 가능케 해 주는 기술입니다. 원래 로봇을 잘 통제하는 것은 모든 지시 사항을 일일이 프로그래밍해 주어야 하는 대단히 복잡하고 시간이 오래 걸리는 일이었습니다. 무언가를 집게 만들고 싶다면, "팔을 50cm 옆으로 옮겨", "손가락을 모두 펴", "30cm 아래로 이동해", "손가락을 구부려" 등등 모든 행동을 명시해야 했습니다. 지시 사항에서 조금만 벗어난 예외 케이스가 입력되어도 동작이 잘못되거나 멈추어 버리는 일이 부지기수였죠.
하지만 LLM 기반의 기술들이 발전하며 텍스트를 넘어 이미지까지의 인식과 이해까지 가능해졌고, 구글의 연구자들은 이러한 기술을 로봇 공학에 적용하기 시작한 것입니다. 더 쉬운 말로 풀자면, 구글의 LLM인 바드(Bard)가 로봇 팔의 뇌 역할을 해 주고 있다고 생각해도 크게 틀리지 않습니다.
결과는 놀라웠습니다. 책상 위에 놓인 다양한 동물 장난감 중에서, "멸종한 동물을 집어 줘"라고 명령하자, 이를 정확하게 이해하고 공룡을 집는 모습을 보여주었습니다. 더불어 "'폭스바겐'을 독일 국기 옆으로 옮겨 줘"라는 명령도 틀리지 않고 수행하는 모습을 볼 수 있었습니다. 이후 진행된 실험에서 종종 틀리는 모습을 보여주었지만, 실제 물리적인 행동을 수행할 수 있는 로봇이 세상에 대한 추론 능력과 이해력을 가지게 된 것은 중요한 일입니다. 이러한 결과를 두고 뉴욕타임스와의 인터뷰에서 구글 딥마인드의 로보틱스 부서의 수장 빈센트 반후케(Vincent Vanhoucke)는 "우리가 이전에 쌓은 많은 작업이 완전히 부정되었다”라고 말합니다.
단순한 텍스트 입출력을 넘어 위 사례들에서 볼 수 있듯, 대규모 언어 모델은 이미 텍스트 기반을 넘어 이미지 및 동영상을 이해하는 수준으로 발전하고 있습니다. 그러한 모델을 대규모 "언어" 모델이라고 부르기보다는 멀티 모달(Multi-modal)*이라는 단어를 사용하는 것이 적합하지 않나 싶기도 합니다. * '멀티 모달'은 텍스트, 이미지, 영상, 음성 등 시청각 요소로 이루어진 여러 방법으로 정보를 주고받는 것을 말하는 개념이고, 이런 다양한 채널의 '모달리티(Modality, 양식)'를 동시에 받아들여서 학습하고 사고하는 AI를 '멀티모달 AI'라고도 합니다. 쉽게 말하면 사람이 사물을 받아들이는 방식으로 학습하는 AI라고도 할 수 있어요.
이제 이미지, 텍스트, 소리, 동영상 등을 단순히 생성하는 것을 넘어, 이를 이해하는 수준까지 무리 없이 성장하고 있는 것으로 보입니다. 작년 말부터 올해 초까지 대중에게 공개된 이미지 생성 AI들은 사용자의 프롬프트를 받아 이에 매칭되는 이미지를 생성하는 것이 주요한 기능이었어요. 하지만 GPT-4 나 바드와 같은 LLM들은 이제 서서히 이미지에서도 "어떤 일이 일어나고 있는지"를 파악하고 추론이 가능한 영역까지 발전했다는 이야기입니다.
|
GPT-4에게 "(위의) 사진들이 왜 웃겨?"라고 질문하니, 이 사진의 웃기는 포인트는 휴대폰에 모니터 단자가 꽂힌 것이라는 점을 설명해 주고 있다. (이미지 출처: 오픈AI) |
실제로 GPT-4의 연구 페이퍼에는 사용자가 사진을 보여주면서 "이 사진들이 왜 웃겨?"라고 질문하자, GPT-4가 사진 간의 관계, 해당 사진이 가지는 사회적인 의미 등까지 모두 고려하여, "휴대폰에 모니터 단자가 꽂힌 것이 웃깁니다"라고 대답하는 사례가 소개되어 있습니다. 이는 구글의 AI 로봇과 같은 사례라고 할 수 있어요. 아니, 엄밀히 따지면 더 나아간 것이죠. 기계가 자신이 보는 것을 이해하고, 실제로 물리적인 동작을 수행하는 것까지 발전한 것입니다.
기계는 의외로 복잡한 계산을 하는 데는 효율적이지만, "거기서 내가 어제 쓴 펜 좀 집어줘"와 같은 인간에게는 단순한 일은 처리하지 못했습니다. 추론 능력과 물리적인 동작 능력을 모두 프로그래밍하려면 엄청난 비용이 들었기 때문입니다. 하지만 상황이 달라졌습니다. 이제는 '뇌' 역할을 대신하는 AI가 점점 발전하는 만큼, 로봇의 동작, 검색 결과의 다양성 등을 넘어 자율주행이나 생산 자동화 등까지 지금보다 훨씬 더 간단하고 낮은 비용으로 더 많은 문제들을 해결하는 모습이 나올 것이라 예상됩니다. 각종 도구를 시각으로 구분하여 목공 일을 한다던가, 화장실을 구석구석 청소한다든가 하는 일들을 기계가 수행하는 것에 점점 더 낮은 비용이 들 것이라고 보이고요.
이제 또 한 차원 더 나아간 경쟁이 시작된 것으로 보입니다.
- By 준. O2O 스타트업에서 일했고, 현재는 글로벌 콘텐츠 회사에서 일하고 있어요. 스타트업, 웹3, AI 등 새로운 기술이 바꾸어 나가는 세상의 모습에 많은 관심을 두고 있습니다. |
[미디어] #디지털광고 #빅테크파이 2. 디지털 광고 시장, 회복되는 중? |
디지털 광고 시장의 비중은 점점 커지고 있어요. 글로벌 광고 에이전시인 그룹M에 따르면 전 세계 광고 시장 규모는 2023년에 8745억 달러(약 1148조 원)에 이를 것으로 예상돼요. 이 중 디지털이 6016억 달러(약 790조 원)를 차지하고요. (데이터: 그룹M) |
알파벳, 메타 등 빅테크 기업들이 최근 잇따라 광고 수익이 개선됐음을 알리면서 2021년 이후 침체되었던 디지털 광고 시장이 회복되고 있다는 낙관적인 전망이 나오고 있어요. 2분기 실적을 발표하면서 알파벳은 유튜브가 3분기 연속 광고 매출이 줄어든 이후 전년 동기 대비 다시 반등한 76억 7000만 달러(약 10조 760억 원)의 매출을 기록했다고 알렸고요. 메타는 전년 동기 대비 매출이 11%, 광고 수익은 12% 증가했다고 밝혔죠.
이외에도 우버, 인스타카트 등의 디지털 광고 사업도 성장하는 중이라고 알렸는데요. 성장이 크게 둔화되었던 광고 시장이 회복세를 보인다는 것이 애널리스트들의 공통된 의견이에요. 투자은행 맥쿼리의 애널리스트 팀 놀랜(Tim Nollen)은 2분기에 소비자 지출이 +1.6%로 성장이 둔화된 반면, 기업의 투자 지출은 +7.7%로 급등했고, 이는 기업의 광고 지출이 증가할 것임을 보여주는 가장 중요한 지표로 본다고 했죠. 물론, 이렇게만 보면 시장 전반의 상황이 다 좋아질 것으로도 보이는데요. 빅테크와 일부 기업을 제외한 소셜미디어나 미디어 기업들은 여전히 디지털 광고 수익을 회복하는데 어려움을 겪고 있으며, 이를 대체할 다른 수익원을 찾아야 하는 상황입니다.
|
[빅테크] #분위기다른 #2분기실적 3. 애플과 아마존으로 보는 현재 경기 |
전체 산업에서 막대한 비중을 차지하는 빅테크 중에서도 애플과 아마존의 비즈니스는 현재의 경제 상황이 어떤지를 가늠하는 중요한 요소가 될 수 있습니다. 둘 모두 소비자들의 씀씀이가 어떠한지를 판단할 수 있는 제품과 서비스를 제공하죠.
애플은 아이폰을 비롯한 하드웨어 그리고 그 하드웨어를 이용해 소비하는 각종 서비스로 경기 상황이 어떠한지를 보여주고요. 아마존은 지배적인 이커머스 사업을 통해 리테일 지표를 확인할 수 있습니다. 여기에 더해 아마존의 클라우드 사업도 현재 전반적인 디지털 비즈니스가 성장하는지 여부를 판단할 수 있는 지표가 되죠.
메타를 시작으로 빅테크의 실적 발표가 지난주에 줄줄이 이어진 가운데 애플과 아마존의 2분기 실적은 현재 소비 상황과 기업들의 비용 관리 현황이 어떤지도 일러주며 또 하나의 힌트를 더해주고 있습니다. |
[거시경제] #부엉이의차트피셜 4. 금리는 이제 오를 만큼 올랐다 |
현재의 경제 상황, 즉 경기 침체 여부 그리고 과연 연착륙(Soft Landing)이 가능할 것인가에 대한 시선이 커지고 있습니다. 7월에 열린 FOMC(연방공개시장위원회)에서 미 연준이 금리 인상을 25bp로 결정한 후 앞으로는 그동안의 긴축 기조가 변할 것이라는 기대를 하게 하는 메시지들이 전해졌죠.
얼마 전 커피팟의 롱폼 아티클 저자들과 진행한 <세계 경제와 산업을 보는 시선> 모임에서도 경기 침체 가능성에 대한 각기 다른 시선에 관해서 이야기를 나누었는데요. 이번 [부엉이의 차트피셜]은 그 연장선상에서 힌트가 되기도 합니다. 물론 지금까지 진행되어 온 상황들을 차근히 짚으면서 이야기를 전합니다.
과연 경기 침체는 오는 것일까요? 경제 연착륙은 가능할까요? 경기 '확장'은 계속될까요? 이번 이야기를 현재 관점에 더해보시면 좋을 것 같습니다. |
☕️☕️ 월스트리트부터 실리콘밸리까지 지금 가장 중요한 이슈의 '맥락'을 짚고, 재밌게 풀어 전합니다. 샷 추가하시면 커피팟 저자들과 함께 하는 오프라인 모임도 안내해 드려요!
📌 첫 달 50% 할인 중이에요. 더 할인된 연간 구독제도 있어요. |
good@coffeepot.me
© COFFEEPOT 2023 |
|
|
현재 시장을 이끄는 오픈AI는 마이크로소프트와의 협업, 그리고 GPT에 데이터 분석을 쉽게 해주는 코드 인터프리터(Code Interpreter)와 같은 기능을 붙이면서 시장과의 핏을 찾아가고 있어요. 애플은 드러나지 않지만 유용한 기능들을 위주로 AI를 적극 활용하는 중이며, 메타는 자신들의 모델을 적극적으로 오픈 소스로 공개하는 전략을 취하고 있고요.
그리고 이런 빅테크 중에서도 요즘 가장 크게 움직이는 선수가 있습니다. 바로 챗GPT에 선수를 뺏기며, 검색을 기반으로 한 사업 모델을 다듬어야 하는 구글이 가장 다양하고 적극적인 AI의 적용을 추진하는 모습을 보이는 중이죠.
구글 홈(Home)과 같은 기기를 써 보신 분들이라면, “헤이 구글”이라고 말하고 무언가를 요청하는 것에 익숙하실 거예요. 바로 그때 사용되는 기능이 바로 구글 어시스턴트(Assistant)인데요. 최근 외부에도 알려진 구글의 내부 이메일을 통해 이 구글 어시스턴트가 대규모 언어 모델(LLM) 기술 활용에 집중하겠다는 사실이 밝혀졌습니다.
사용자의 입장에서라면 구글에 텍스트로 검색을 하든, 음성으로 검색을 하든, 지메일 내에서 검색을 하든 상관 없이 일관적으로 동일한 수준의 답변을 기대하게 되는데요. LLM과 같은 기술의 적용이 워낙 시급하게 진행된 터라 각 부서별, 기능별로 적용에 대한 시차가 존재할 수밖에 없었으리라 예상됩니다. 하지만 이제야 본격적으로 구글의 다양한 기능들에 AI의 적용이 시작된 것이라고 볼 수 있습니다.
구글이 실험적으로 지원하던 생성 AI를 활용한 검색 기능(SGE, Search Generative Experiment)에서도 최근 검색어에 관련된 이미지와 비디오까지 표시가 되도록 업데이트되었습니다. 만약 사용자가 (위의 이미지에서 처럼) "감자 써는 법"이라고 검색한다면, AI를 통해 생성된 답변 내부에 해당 답변의 정확도를 올려줄 수 있는 비디오 클립 등도 같이 표시된다는 것이죠.
AI가 이제 사용자들의 질문을 이해하는 것은 물론, 이에 대한 적절한 답변과 함께 영상/이미지까지 표시하기 위해 사용자들이 올린 동영상, 이미지 등에 담긴 내용까지 모두 이해하기 시작했다는 것이라고 볼 수도 있습니다. 유튜브 영상에 음성이 있다면 자동 자막과 번역을 통해 음성을 텍스트로 바꾸어 이해하고요.
원래 로봇을 잘 통제하는 것은 모든 지시 사항을 일일이 프로그래밍해 주어야 하는 대단히 복잡하고 시간이 오래 걸리는 일이었습니다. 무언가를 집게 만들고 싶다면, "팔을 50cm 옆으로 옮겨", "손가락을 모두 펴", "30cm 아래로 이동해", "손가락을 구부려" 등등 모든 행동을 명시해야 했습니다. 지시 사항에서 조금만 벗어난 예외 케이스가 입력되어도 동작이 잘못되거나 멈추어 버리는 일이 부지기수였죠.
하지만 LLM 기반의 기술들이 발전하며 텍스트를 넘어 이미지까지의 인식과 이해까지 가능해졌고, 구글의 연구자들은 이러한 기술을 로봇 공학에 적용하기 시작한 것입니다. 더 쉬운 말로 풀자면, 구글의 LLM인 바드(Bard)가 로봇 팔의 뇌 역할을 해 주고 있다고 생각해도 크게 틀리지 않습니다.
결과는 놀라웠습니다. 책상 위에 놓인 다양한 동물 장난감 중에서, "멸종한 동물을 집어 줘"라고 명령하자, 이를 정확하게 이해하고 공룡을 집는 모습을 보여주었습니다. 더불어 "'폭스바겐'을 독일 국기 옆으로 옮겨 줘"라는 명령도 틀리지 않고 수행하는 모습을 볼 수 있었습니다. 이후 진행된 실험에서 종종 틀리는 모습을 보여주었지만, 실제 물리적인 행동을 수행할 수 있는 로봇이 세상에 대한 추론 능력과 이해력을 가지게 된 것은 중요한 일입니다.
이러한 결과를 두고 뉴욕타임스와의 인터뷰에서 구글 딥마인드의 로보틱스 부서의 수장 빈센트 반후케(Vincent Vanhoucke)는 "우리가 이전에 쌓은 많은 작업이 완전히 부정되었다”라고 말합니다.
위 사례들에서 볼 수 있듯, 대규모 언어 모델은 이미 텍스트 기반을 넘어 이미지 및 동영상을 이해하는 수준으로 발전하고 있습니다. 그러한 모델을 대규모 "언어" 모델이라고 부르기보다는 멀티 모달(Multi-modal)*이라는 단어를 사용하는 것이 적합하지 않나 싶기도 합니다.
작년 말부터 올해 초까지 대중에게 공개된 이미지 생성 AI들은 사용자의 프롬프트를 받아 이에 매칭되는 이미지를 생성하는 것이 주요한 기능이었어요. 하지만 GPT-4 나 바드와 같은 LLM들은 이제 서서히 이미지에서도 "어떤 일이 일어나고 있는지"를 파악하고 추론이 가능한 영역까지 발전했다는 이야기입니다.
이는 구글의 AI 로봇과 같은 사례라고 할 수 있어요. 아니, 엄밀히 따지면 더 나아간 것이죠. 기계가 자신이 보는 것을 이해하고, 실제로 물리적인 동작을 수행하는 것까지 발전한 것입니다.
이제는 '뇌' 역할을 대신하는 AI가 점점 발전하는 만큼, 로봇의 동작, 검색 결과의 다양성 등을 넘어 자율주행이나 생산 자동화 등까지 지금보다 훨씬 더 간단하고 낮은 비용으로 더 많은 문제들을 해결하는 모습이 나올 것이라 예상됩니다. 각종 도구를 시각으로 구분하여 목공 일을 한다던가, 화장실을 구석구석 청소한다든가 하는 일들을 기계가 수행하는 것에 점점 더 낮은 비용이 들 것이라고 보이고요.
투자은행 맥쿼리의 애널리스트 팀 놀랜(Tim Nollen)은 2분기에 소비자 지출이 +1.6%로 성장이 둔화된 반면, 기업의 투자 지출은 +7.7%로 급등했고, 이는 기업의 광고 지출이 증가할 것임을 보여주는 가장 중요한 지표로 본다고 했죠.
물론, 이렇게만 보면 시장 전반의 상황이 다 좋아질 것으로도 보이는데요. 빅테크와 일부 기업을 제외한 소셜미디어나 미디어 기업들은 여전히 디지털 광고 수익을 회복하는데 어려움을 겪고 있으며, 이를 대체할 다른 수익원을 찾아야 하는 상황입니다.
수신거부