[밀물썰물] 멀티모달 AI

김승일 논설위원 dojune@busan.com
부산닷컴 기사퍼가기

초등교사 A(26)씨는 요즘 ‘챗GPT’를 영어회화 강사로 쓰고 있다. 스마트폰 앱에서 음성 버튼을 누르면 대화 모드가 실행되고 ‘AI(인공지능) 도우미’가 등장한다. 미국 로스앤젤레스 레이커스 홈구장과 주변 명소를 알려 달라고 질문하면, 크립토닷컴 아레나 투어 코스는 물론 근처 맛집까지 청산유수다. 북미 식 영어를 완벽하게 구사하고 질문에 막히는 법이 없어 30분도 순식간이다.

IT 기업 프로젝트 매니저 B(40)씨도 아이디어가 막히면 ‘챗GPT’ 앱을 켜고 블루투스 이어폰을 낀 채로 산책을 나간다. 예전에는 음악을 들었지만 지금은 AI 비서와 대화하는 게 오히려 즐겁다. 30분 남짓 걸으며 질문하고 자료를 찾고 아이디어를 발전시키면 어느새 기획 보고서 골자가 도출되곤 해서 스스로 놀랄 정도다.

생성형 AI의 충격파로부터 1년이 지난 지금 AI는 멀티모달(multi-modal) 시대로 진화하고 있다. 멀티모달은 다양한 모드, 즉 텍스트뿐만 아니라 이미지, 음성, 영상 등으로 상호작용하는 것을 말한다. 예컨대 캡슐 커피 머신 사진을 업로드한 뒤 사용법을 음성으로 들으면서 조작하고 재차 질문하는 식이다. 원하는 이미지나 동영상을 묘사한 텍스트를 입력하는 것으로 결과를 얻는 것도 마찬가지다.

‘챗GPT’는 유료 계정에서 제공하던 앱 음성 서비스를 최근 무료로 풀었다. 토종 서비스 ‘뤼튼’도 유료를 폐지했다. 무료 전환이 잇따르면서 인간 소통 방식과 유사한 멀티모달 AI를 경험하고 활용하는 이들이 늘고 있다.

그런데, AI와 대화를 하다 보면 묘한 기분을 느낀다는 이들이 제법 된다. 애플 ‘시리’나 ‘헤이 구글’과는 차원이 다르기 때문이다. 키보드로 프롬프트를 입력할 때는 사람과 기계의 구분이 명확하다. 그런데 멀티모달은 경계 지점에 서 있는 느낌을 받는다. AI 소재 영화 ‘그녀(Her, 2013년)’가 데자뷰처럼 느껴진다는 이들도 있다. 이 영화는 작가 테드가 AI 운영체제 ‘사만사라’와 대화하다 애틋한 감정이 싹트는 과정을 보여준다.

예상컨대 멀티모달은 의인화되고 사용자 맞춤의 개인화된 서비스로 진화할 것이다. 독거 노인에 말벗이 되어 주고 복약과 식사를 챙겨 주는 식의 개인용 AI가 조만간 등장해도 하나도 이상하지 않다. AI가 지식 노동을 대체할 것이라는 건 이론의 여지가 없다. 감정 노동이라고 예외가 될 수 있을까. 프롬프트에서 멀티모달까지 딱 1년 걸렸다. 인간 고유의 영역은 더 빠른 속도로 잠식될 일만 남았다.


김승일 논설위원 dojune@busan.com

당신을 위한 AI 추천 기사