☕️ 보고 듣고 말하는 AI 시대의 도래

1. 어느새 크게 발전한 멀티 모달 AI, 2. 일론 머스크의 레거시는?
오늘은 오픈AI와 메타 그리고 구글이 실생활에서도 광범위하게 쓰일 '멀티 모달 AI'를 지금 어떻게 발전시키고 있는지를 살펴봤어요. 일부 사용자에게 유용한 기능들이 아니라 누구나 쉽게 접근해 사용할 수 있는 기능들이 속속 나오는 중인데요.

스마트폰과 스마트 글래스 등의 하드웨어와 본격적으로 결합하는 모습도 보이면서 늘 함께하는 개인 비서를 만들어 주는 중입니다. 일상생활에서 AI는 어느덧 당연한 존재가 되어가고 있습니다.

+ 이번 주에는 룰루레몬 성장의 핵심을짚은 [조디의 리테일 우화]와 새로운 이야기가 담긴 [냅킨 메모]도 이어질 예정이에요. 샷 추가하고 계속 받아보세요!

[AI] #빅테크 #멀티모달AI
1. 보고 듣고 말하는 AI 시대의 도래
구글 바드(Bard)의 업데이트를 시작으로 '멀티 모달(Multi Modality)' LLM(대규모 언어 모델)의 시기가 금방 다가오면서 빅테크 간의 AI '비즈니스화' 경쟁이 벌어질 것이라는 예상을 전해드린 적이 있어요. 멀티모달은 텍스트, 이미지, 영상, 음성 등 시청각 요소로 이루어진 여러 방법으로 정보를 주고받는 것을 말하는 개념이고, 이런 다양한 채널의 '모달리티(Modality, 양식)'를 동시에 받아들여서 학습하고 사고하는 AI를 '멀티모달 AI'라고도 합니다.

쉽게 말하면 사람이 사물을 받아들이는 방식으로 학습하는 AI라고도 할 수 있죠. 이제는 구글을 필두로한 빅테크가 앞다투어 LLM의 다음 페이지인 이 멀티 모달로 본격 넘어가고 있는데요.

멀티 모달로 넘어간다는 것은 카메라에 탑재된 AI가 자신이 보고 있는 것을 이해할 수도 있고, 스피커로 들어오는 음성도 이해하게 된다는 것이에요. 소프트웨어에만 머물러 있던 AI가 하드웨어와 결합하면서 실제 세계에서 더 폭넓은 소통을 하고 활동하게 된다는 것이기도 하죠. 또, 각 빅테크가 개발 속도를 더 내면서, 더 광범위한 경쟁이 빠르게 진행 중임을 의미하기도 합니다.
사진을 올리고 질문을 하면 답변을 하면서 대화를 이어가죠. (이미지: 챗GPT)  
이제 보고 듣고 말하는 챗GPT
오픈AI는 최근 챗GPT에 이미지 인식 기능과 텍스트-투-스피츠(TTS(Text-To-Speech)) 기능을 추가하며, "이제 챗GPT는 보고, 듣고, 말할 수 있다"라고 공지했습니다.

위 이미지와 같이, 챗GPT에게 자전거 사진과 함께 안장을 내리는 법에 대해 질문하면 챗GPT가 이를 인식하고 답변해 줍니다. 대화를 계속해 이어갈 수도 있는데, "너에게 도구가 있다면 나에게 보여줘. 내가 더 (자세히) 알려줄게"라고도 이야기를 하는 모습을 볼 수 있어요. 

이해가 안 가는 부분에 대해서는 사용자가 사진을 찍고 "이 레버 말이야?"라고 추가 질문을 하는 모습도 보입니다. 마치 인간 전문가에게 사진을 보내주며 물어보는 것과 동일하죠. 

해당 기능이 추가 되자, 사용자들은 다양한 용도로 이미 사용을 하는 중이고 흥미로운 케이스들이 쌓여가고 있어요. 간단하게는 문제집을 찍어 올리며 답을 알려달라고 한다거나, 집 사진을 올리고 인테리어 제안을 해달라고 하고, 심지어 엑스레이 사진을 올리며 증상을 물어보기도 하고 있죠. 

이에 챗GPT는 대부분의 상황에서 꽤나 훌륭한 답변을 해주고 있다는 것을 볼 수 있습니다. 어떤 해결책이나 조언보다도 편리하게 받아볼 수 있고, 유효하다고 할 수 있을 정도이죠. (물론, 의학 및 약학과 같은 분야에 대해선 챗GPT를 따르지 말라고 오픈AI는 강력하게 권고하고 있어요.)
사진만 보고 수학 문제도 풀어주고, 인테리어 조언도 바로 해주죠. (이미지: 챗GPT)  
응용 사례도 점점 진화하는 중
추가적으로, 최근 오픈AI는 이미지 생성 AI인 달리(Dall-E)의 다음 버전인 달리 3을 공개했어요. 달리는 별개의 웹사이트가 아닌 챗GPT 내에서 연동되며, 대화 속에서 이미지를 바로 생성해 줄 수 있도록 개선되었어요.

이제 사용자들은 GPT-4에게 이미지를 보여준 후 프롬프트(Prompt)를 만들어 달라고 한 후, 달리에 이 프롬프트를 적용해 바로 비슷한 느낌의 이미지를 생성하는 사용 사례도 보여주고 있어요.

이미지를 인식하고 생성하는 것과 더불어 챗GPT의 답변을 음성으로 전달해 주는 TTS(Text-To-Speech) 기능도 추가 되었는데요. 원래도 사용자의 음성을 텍스트로 입력할 수는 있었지만, 챗GPT의 답변을 음성으로 변환해 주진 못했습니다. 이번 업데이트를 통해, 챗GPT와 정말로 음성 대화를 할 수 있게 된 것이죠.

사용자들은 챗GPT를 영어 선생님으로 사용한다거나, 통역사로 사용하는 사례를 바로 만들어 내고 있어요. 이제 챗GPT가 정말로 인간 개인 비서와 같은 역할을 수행하는 것도 무리는 아닐 것으로 보이죠. 
대화를 편하게 할 수 있고, 개인 영어 선생님 역할을 하라고 명령해 사용할 수도 있어요.
메타도 시리(Siri) 같은 AI 장착
최근 메타는 메타 커넥트 2023 행사를 통해 VR/AR 기기인 퀘스트 3, 레이벤 스마트 글래스와 각종 AI 기술들을 선보였습니다. 이렇게 소개한 하드웨어와 AI가 결합되는 지점이 흥미로웠는데요.

새로 업그레이드된 레이벤 스마트 글래스에는 메타 AI라고 불리는 애플의 시리(Siri)와 같은 AI가 기본 탑재되어 있습니다. 사용자는 메타 AI를 음성으로 호출하여 대화를 할 수도 있고, 현재 스마트 글래스의 카메라가 향해 있는 사물 및 풍경에 대한 대화를 주고받을 수도 있습니다. 메타 역시 이미지와 음성을 이해하고, 대화하는 멀티 모달 AI를 선보인 것이죠.

오픈AI가 달리 3을 공개한 것과 유사한 행보로, 이번 행사에서 메타 또한 이미지 생성 모델인 'Emu(에뮤)'를 새로 공개했습니다. 이를 통해 채팅에서 스티커를 바로 생성한다거나, 메타 AI와 채팅하며 이미지를 만들어 달라고 요청하는 등 챗GPT가 할 수 있는 대부분의 일들을 동일하게 할 수 있는 메타의 AI 라인업이 갖추어졌어요. 

하드웨어와 소프트웨어의 경쟁력을 함께 끌어올리면서 이제 메타도 AI 경쟁에서 결코 뒤처지지 않는 모습을 보여주는 중입니다.
메타의 레이벤 스마트 글래스에도 이미지를 보고 무엇인지 알려주고, 번역도 해주는 AI가 탑재되었어요. (이미지: 메타 커넥트 2023)
스팸 전화도 대신 받아주는 구글
앞서 설명했듯, 멀티모달 AI로의 업데이트가 가장 먼저 공개된 것은 구글의 바드였는데요. 이번에 새로운 스마트폰 픽셀 8을 공개하는 이벤트에서 구글은 픽셀 폰이라는 하드웨어와 각종 AI 기능이 결합되는 모습을 선보였습니다. 구글 픽셀 속 비서와 같은 존재인 어시스턴트가 구글의 AI 모델인 바드를 장착해, (역시나) 보고 듣고 말할 수 있게 되었다고 강조했죠.

아래 이미지와 같이 사진을 찍어 하이킹 코스를 추천받는다거나, 원치 않는 스팸 전화를 구글 어시스턴트가 대신 받아주는 기능까지 포함되어 있습니다.

또한 구글은 자신들이 가진 이점인 구글 맵, 구글 닥스(Docs) 등의 생산성 도구와의 결합을 강조했습니다. 구글 어시스턴트에게 요청한 내용을 바로 구글 닥스로 내보낼 수 있다던가, 특정한 장소로의 이동 방법을 구글 맵을 통해 얻어내는 등 적극적으로 어시스턴트가 구글 생태계 내 앱들을 이용하는 모습을 보여주기도 했습니다.
구글은 이미지 인식에 구글 어시스턴트가 이제 스팸 전화도 대신 받아줍니다. (이미지: 구글)
텍스트를 넘어선 지 오래인 AI
AI의 붐은 단 1년 만에 텍스트만으로 소통이 가능하던 모델에서 이미지, 사운드, 비디오까지 인식 가능해지면서 진정한 멀티 모달 AI로의 진화가 일어났습니다. 동시에 스마트폰, 스마트 글래스, 무선 이어폰 등 생활 밀착형 하드웨어 속에도 AI가 속속들이 적용되고 있죠.

머지않아 우리는 언제 어디서든 원하는 AI를 불러 대화할 수 있는 시대로 진입할 것이라고 예상합니다. 이미 많은 변화가 일어난 분야이지만, 대부분의 콜센터에서 전화를 받는 상담원은 빠른 시일 내 AI가 될 것으로 예상할 수 있고요. 관광을 하다 모르는 건축물, 유적에 대해 사진을 찍어 바로 AI에게 묻고 답하는 것이 자연스럽게 느껴질 생활이 이어질 것으로 보이죠.

이렇게 일상생활 곳곳에 AI가 스며들기 시작하면, 금새 AI가 없었던 시대로의 회귀는 상상하지 못하게 되겠죠. 워낙 많은 일들이 일어나고 있어 변화를 시시각각 체감하지 못할 수 있지만, AI의 경쟁은 어느덧 실생활에서 AI를 당연한 기능과 존재로 만들고 있습니다. 

-
By 준. 글로벌 IT 기업에서 일하고 있어요. 스타트업, 웹3, AI 등 새로운 기술이 바꾸어 나가는 세상의 모습에 많은 관심을 두고 있습니다.
 ☕️☕️ AI 이야기 팔로우업
준 님과 함께 AI의 발전상에 대한 이야기를 꾸준히 전해드리고 있어요. 지금 기술과 비즈니스의 발전 현황을 더 쉽게 이해하면서 파악할 수 있습니다.


[인물] #전기 #월터아이작슨
2. 일론 머스크의 레거시는 무엇이 될까?  
본래 일론 머스크 전기는 테슬라와 스페이스엑스 이야기에 초점을 맞춰 기획을 했지만, 새로운 내용도 추가되고 방향이 조금 달라질 수밖에 없었죠.
얼마 전 출간된 전기 <일론 머스크>를 쓴 작가 월터 아이작슨은 스티브 잡스 그리고 그 전엔 레오나르도 다빈치와 알버트 아인슈타인의 전기를 썼습니다. 그는 일론 머스크의 전기가 본래 테슬라와 스페이스엑스의 성취에 초점을 맞추어 기획되었다고 합니다. 미래를 바라보면서 이룬 대단한 기술적 성취와 인류의 문제를 해결하는 비전을 보여준 인물에 대한 좋은 그림이 될 것으로 예상되었죠.

실제로 책은 그 성취의 과정에서 한 인물의 모습을 다면적으로 보여주기도 합니다. 모두가 인정할 수밖에 없는 빼어난 모습을 옆에서 실제 바라보고, 이를 기술하면서요. 하지만 한 개인과 그 성취를 관찰하는 과정에서 예상치 못한, 아니 당연히 예상하지 못했을 일이 중간에 일어나 조명을 빼앗아 가죠. 바로 트위터라는 소셜미디어 기업을 인수하고, '개인의 공론장'을 공고히 하는 머스크의 모습입니다.

결과적으로 전기 <일론 머스크>와 월터 아이작슨은 일론 머스크가 만드는 혼란을 제대로 평가하지 않았다는 비판도 받습니다. 책이 여러 설화와 논란을 만들 수밖에 없는 시기에 출간되었고, 안 그래도 객관적이고 정확한 평가를 온전히 담아내기에 쉽지 않은 전기 작업인데 주인공이 그 작업을 더 쉽지 않게 만든 것이기도 하죠. 

최근 전해드린 [키티의 빅테크 읽기]는 그런 일론 머스크의 모습을 월터 아이작슨이 어떻게 그려냈는지, 그리고 전기가 중간에 어떤 전환점을 맞이하는지, 그리고 그 전환점이 어떤 의미이며 왜 중요한지를 전합니다.  

[모임] #시시각각주목받는금리
금리가 투자 시장에 미치는 영향
미국채 금리가 급등세를 이어가면서 시장이 불안정한 모습을 보이자, 기준 금리를 동결하겠다는 분위기가 만들어지고 있습니다. 미 연준 부의장인 필립 제퍼슨을 비롯해한 위원들이 "(추가 금리 인상을) 신중하게 진행할 필요가 있다"는 의미의 이야기를 어제 열린 전미실물경제협회(NABE) 회의에서 내비췄는데요.

필립 제퍼슨은 정확히는 "(최근의) 국채 수익률 상승이 경제를 억제할 가능성을 지켜보고 있다"라고 하면서 향후 통화 정책에 이런 흐름을 분석하는 데 검토하겠다고 했죠. 일단 미 연준도 현재 상황에서는 기준 금리를 추가로 인상하지 않고도 금융 시장의 긴축이 이어질 수 있다고 보는 상황이에요.

이번 모임은 이렇게 계속 변하는 상황을 이해하기 위해서 꼭 봐야 할 큰 그림도 펼쳐보는 시간이 될 예정입니다. 계속 이어진 금리 인상과 시장 상황에 대해 전문가인 [부엉이의 차트피셜]의 부엉이 님이 맥락을 짚어주고, 실질적으로 어떤 영향을 끼칠지 차근히 짚어보려고 해요.

현재 전 세계 경제의 가장 큰 팩터인 1) '금리'가 현재 어떻게 움직이고 있으며, 2) 채권, 주식, 부동산을 비롯한 투자 시장에는 구체적으로 어떻게 영향을 미치는지, 그리고 3) 최근 이슈들을 살펴보면서 장단기 전망은 어떠한지 살펴봅니다. 

금리가 어려운 분들도 쉽게 이해할 수 있고, 시장 상황을 늘 팔로우업하는 분들도 새로운 정보와 관점을 얻어가실 수 있으리라 예상합니다. 오셔서 함께 이야기 나누어요! 

☕️
오늘 커피팟 어땠나요?




good@coffeepot.me

© COFFEEPOT 2023
더는 받아보고 싶지 않으시다면
수신거부