KAIST, 구글 딥마인드 제치고 ICCV 2025 AI 영상 검색 1위! 멀티모달 AI 시대의 새 지평을 열다

최근 KAIST 연구팀이 구글 딥마인드가 주관하는 ‘ICCV 2025’ 인지 테스트 대회에서 AI 영상 검색 기술 분야 1위를 차지하며, 멀티모달 AI의 새로운 가능성을 제시했습니다.
기존 방식의 한계를 넘어선 ‘핵심 장면 추출’ 기술로 영상 근거 기반 질의응답의 정확도를 혁신적으로 끌어올린 KAIST의 CORTEX 프레임워크를 자세히 알아봅니다.

끊임없이 쏟아지는 영상 콘텐츠 속에서 우리가 원하는 정보를 정확히 찾아내는 것은 여전히 어려운 일입니다. 특히 인공지능이 사람처럼 영상의 맥락을 이해하고, 특정 질문에 대한 답을 영상 속 근거를 통해 찾아내는 것은 멀티모달 AI 기술의 핵심이자 난제로 꼽혀왔습니다. 이러한 배경 속에서 KAIST(한국과학기술원) 연구팀이 세계적인 AI 학회인 ‘ICCV 2025’에서 구글 딥마인드를 제치고 AI 영상 검색 분야의 정상을 차지하며 전 세계의 이목을 집중시키고 있습니다. 이번 성과는 단순히 기술적 우위를 넘어, 2025 AI 기술 동향을 주도할 새로운 패러다임을 제시했다는 평가를 받고 있습니다.

기존 AI 영상 검색의 한계와 새로운 도전

기존의 AI 영상 검색 기술은 주로 영상 전체를 분석하거나, 언어 모델에 의존하여 영상의 내용을 파악하는 방식이 많았습니다. 하지만 이는 근본적인 한계를 가지고 있습니다. 예를 들어, 영상 속 특정 인물이 특정 행동을 하는 ‘결정적인 순간’을 찾아내 질문에 답해야 할 때, AI는 영상 전체를 처음부터 끝까지 살펴보느라 비효율적이거나, 언어적 편향 때문에 실제 영상 근거를 놓치는 경우가 발생하곤 했습니다. 마치 방대한 책을 모두 읽어야만 한 페이지에 담긴 정답을 찾을 수 있는 것과 같은 이치죠.

멀티모달 AI의 핵심은 영상, 음성, 텍스트 등 다양한 형태의 데이터를 종합적으로 이해하고 추론하는 능력에 있습니다. 하지만 실제 영상을 근거로 판단하는 ‘인지 및 추론’ 능력은 여전히 고도화가 필요한 영역이었죠. 이러한 문제점을 해결하고, AI가 더욱 사람처럼 영상을 이해하도록 만들기 위한 새로운 접근 방식이 절실했던 상황입니다.

KAIST의 혁신적인 ‘트리거 모먼트’ AI 영상 검색 기술, CORTEX

KAIST 윤성의 전산학부 교수 연구팀과 이화여대 노준혁 교수 연구팀의 공동 연구는 바로 이 지점에서 혁신적인 해결책을 제시했습니다. 그들이 개발한 새로운 AI 영상 검색 기술은 ‘CORTEX(Chain-of-Reasoning for Trigger Moment Extraction)’라는 프레임워크를 기반으로 합니다. 이 기술의 핵심은 AI가 영상 전체를 무작정 분석하는 대신, 질문에 대한 정답을 찾는 데 결정적인 역할을 하는 ‘핵심 장면(트리거 모먼트)’을 먼저 찾아내도록 설계되었다는 점입니다.

“이 질문에 답하려면 바로 이 장면이 가장 중요해!”라고 AI가 스스로 판단하고 그 결정적인 순간에 집중하는 방식이죠. 이는 마치 명탐정이 범죄 현장의 수많은 증거 중 결정적인 단서 하나에 집중하여 사건을 해결하는 과정과 비슷하다고 볼 수 있습니다. 이러한 접근 방식은 AI의 효율성을 극대화하고, 영상 근거 질의응답의 정확도를 비약적으로 향상시키는 결과를 가져왔습니다.

💡 잠깐! ‘트리거 모먼트(Trigger Moment)’란?

영상 속에서 특정 질문의 답이나 중요한 정보를 제공하는 가장 핵심적이고 결정적인 순간 또는 장면을 의미합니다. AI가 이 순간을 정확히 식별함으로써, 방대한 영상 데이터 속에서 헤매지 않고 효율적으로 정답을 찾아낼 수 있게 됩니다.

CORTEX 시스템의 정교한 3단계 작동 원리

CORTEX 프레임워크는 단순히 핵심 장면을 찾는 것을 넘어, 세 가지 전문 AI 모델이 유기적으로 협력하며 작동하는 정교한 시스템입니다. 이 3단계 접근법은 영상 검색 정확도를 극대화하고, 기존 AI가 겪던 여러 문제점을 효과적으로 해결합니다.

단계	모델명	주요 기능
1단계	추론 AI (제미나이 2.5 프로)	질문에 답하기 위한 ‘핵심 순간’ 후보 사고 및 도출
2단계	객체 위치 찾기 모델 (Molmo-7B)	선택된 순간 화면 내 객체(사람, 사물 등)의 정확한 좌표 파악
3단계	추적 모델 (SAM2)	선택된 장면 기준으로 앞뒤 시간대 객체 움직임 추적, 오류 감소

1단계: 추론 AI의 ‘트리거 모먼트’ 예측
가장 먼저, 고도의 추론 능력을 가진 AI 모델인 ‘제미나이 2.5 프로’가 질문을 분석하고, 해당 질문에 답하기 위해 영상의 어느 순간을 주목해야 할지 스스로 사고합니다. 이를 통해 ‘트리거 모먼트’가 될 수 있는 여러 후보 장면을 찾아냅니다. 이는 AI가 단순한 패턴 인식을 넘어 질문의 의도를 깊이 이해하고 논리적으로 추론하는 능력을 보여줍니다.
2단계: 객체 위치 찾기 모델의 정밀 분석
추론 AI가 찾아낸 핵심 순간 후보들 중 가장 유력한 장면이 선택되면, ‘Molmo-7B’라는 객체 위치 찾기 모델이 해당 장면 속 사람, 자동차, 사물 등 모든 객체의 정확한 공간 좌표를 파악합니다. 이 단계는 시각적 정보를 정밀하게 분석하여 영상 근거의 신뢰도를 높이는 역할을 합니다.
3단계: 추적 모델의 시간적 일관성 확보
마지막으로 ‘SAM2’ 추적 모델이 선택된 한 장면을 기준으로 앞뒤 시간대의 객체 움직임을 일관되게 추적합니다. 이는 영상 초반의 오판이나 화면 가려짐(Occlusion)과 같은 문제로 인해 발생할 수 있는 오류를 크게 줄여주며, 시간의 흐름에 따른 정보의 연속성을 확보하는 데 결정적인 역할을 합니다.

이처럼 ‘핵심 장면 한 컷을 정확히 찍고, 그 장면을 중심으로 정답 근거를 추적하는 방식’ 덕분에 KAIST 연구팀은 기존 방식으로는 해결하기 어려웠던 문제들을 효과적으로 극복할 수 있었습니다.

글로벌 무대에서 입증된 KAIST AI 기술력: ICCV 2025 압도적 1위

KAIST 연구팀의 이러한 노력은 세계적인 권위를 자랑하는 ‘ICCV 2025 (International Conference on Computer Vision)’의 ‘인지 테스트 대회(Perception Test Challenge)’에서 빛을 발했습니다. 이 대회는 구글 딥마인드가 직접 주관하며 총 5만 유로(약 8300만 원)의 상금이 걸린 최고 수준의 경쟁 무대입니다. 특히, 언어 중심의 편향을 벗어나 실제 영상을 근거로 AI의 인지 및 추론 능력을 평가하는 것에 중점을 둡니다.

총 23개 팀이 참여한 영상 근거 기반 질의응답 트랙에서 KAIST의 ‘SGVR’ 앱은 ‘고차 추적 정확도(HOTA, Higher Order Tracking Accuracy)’ 지표에서 0.4968점을 기록하며 압도적인 1위를 차지했습니다. 이는 2위를 차지한 미국 콜롬비아대의 0.4304점을 크게 앞지르는 점수이며, 지난해 우승 기록인 0.2704점의 두 배에 가까운 경이로운 성과입니다. 이 결과는 KAIST의 AI 영상 검색 기술이 단순한 우위를 넘어, 글로벌 AI 기술 수준을 한 단계 끌어올렸음을 명확히 보여줍니다. 한국의 AI 기술력이 세계 최고 수준임을 다시 한번 입증한 셈입니다.

⚠️ 주의하세요!

AI 기술은 놀라운 속도로 발전하고 있습니다. 오늘의 최고 기술이 내일은 기본이 될 수도 있죠. 끊임없는 연구와 개발만이 이러한 경쟁에서 우위를 점할 수 있는 유일한 길입니다.

멀티모달 AI 시대, KAIST의 영상 검색 기술이 가져올 미래

KAIST의 이번 성과는 단순한 대회 우승을 넘어, 멀티모달 AI 기술의 미래에 대한 중요한 청사진을 제시합니다. 더욱 정교한 AI 영상 검색 능력은 다양한 분야에 혁신적인 변화를 가져올 것입니다. 예를 들어, 자율주행차는 주변 환경의 미묘한 변화를 더 정확하게 인지하고 예측할 수 있게 될 것이며, 스마트 시티의 지능형 감시 시스템은 특정 상황을 더욱 효과적으로 포착하고 대응할 수 있게 됩니다.

미디어 콘텐츠 분석에서도 혁신이 예상됩니다. 특정 장면이나 인물의 행동을 정확히 찾아내어 영상 편집, 콘텐츠 추천, 심지어는 AI 기반의 법률 증거 분석에까지 활용될 수 있습니다. 이는 2025 AI 기술 동향을 논할 때 빠질 수 없는 핵심적인 발전 방향이며, 관련 AI 기업들의 성장과 함께 AI 관련주 전망에도 긍정적인 영향을 미칠 것으로 기대됩니다. KAIST의 이번 쾌거는 한국이 글로벌 AI 리더십을 확보하는 데 중요한 발판을 마련했다는 점에서 더욱 큰 의미를 가집니다.

핵심 요약

KAIST, ICCV 2025 1위: 구글 딥마인드 주관 인지 테스트 대회에서 AI 영상 검색 기술로 압도적인 우승을 차지했습니다.
‘트리거 모먼트’ 기술 혁신: 영상 전체 분석 대신 질문의 핵심이 되는 ‘트리거 모먼트’를 찾아내 효율성과 정확도를 극대화했습니다.
CORTEX 프레임워크: 추론 AI(제미나이 2.5 프로), 객체 위치 찾기(Molmo-7B), 추적 모델(SAM2)의 3단계 협력 시스템으로 정교한 영상 근거 질의응답을 구현합니다.
멀티모달 AI 미래 제시: 언어 중심 편향을 넘어 실제 영상 기반의 인지 추론 능력을 강화하여, 다양한 산업 분야에 적용될 새로운 가능성을 열었습니다.
한국 AI 기술 위상 강화: 세계 최고 수준의 AI 기술력을 입증하며, 2025 AI 기술 동향과 AI 관련주 전망에도 긍정적인 영향을 미칠 것으로 기대됩니다.

오늘 다룬 KAIST의 혁신적인 AI 영상 검색 기술에 대해 궁금한 점이나 여러분의 생각은 어떠신가요? 댓글로 자유롭게 의견을 나눠주세요! 👇

#KAISTAI영상검색 #ICCV2025 #구글딥마인드 #멀티모달AI #AI인지추론 #영상근거질의응답 #CORTEX #AI기술동향 #AI관련주 #한국AI기술

KAIST, ICCV 2025 AI 영상 검색 1위 석권! 구글 딥마인드 넘은 ‘트리거 모먼트’ 3단계 혁신 기술로 멀티모달 AI 미래를 선도하다