Runyour Agent 유저빌리티 테스트, 멀티 모델 AI의 진짜 사용성을 검증하다
이전 글에서 멀티 모델 AI 서비스의 사용성은 스펙이 아니라 흐름에 달려 있다고 이야기했습니다.
멀티 모델 AI 서비스에서 중요한 것은 탭 분산, 비용 분산, 데이터 분산 등 멀티 모델 환경에서 필연적으로 발생하는 문제들을 Agent가 정말로 해결하고 있는지입니다.
그래서 Runyour AI에서는 직접 유저빌리티 테스트(UT)를 설계했습니다. 실제 사용자에게 서비스를 주고, 실제 업무와 비슷한 과업을 시키고, 그들이 어디서 막히고 어디서 수월하게 넘어가는지를 관찰했습니다.
1. 실제 업무 흐름으로 설계한 테스트
UT를 설계하면서 가장 경계한 것은 ‘단일 모델 서비스에서도 할 수 있는 테스트를 하지 않는 것’이었습니다.
① 테스트 시나리오 : 모델을 넘나드는 6단계 업무
테스터들은 각자 가상의 업무 시나리오를 받고, 하나의 결과물을 완성하기 위해 총 6개의 태스크를 순서대로 수행했습니다. 정보 탐색 → 내용 정리 → 모델 간 답변 비교 → 추가 자료 반영 및 보완의 흐름으로, 앞선 결과가 다음 행동의 출발점이 되는 구조였습니다.
단발 질문 - 응답 구조가 아닌, 연속적인 업무 흐름을 그대로 재현한 이유는 명확합니다. 멀티 모델 서비스의 사용성은 그 흐름 안에서 드러나기 때문입니다.
② Think Aloud : 떠오르는 모든 생각을 입밖으로
테스트에는 ‘Think Aloud’ 방식을 적용했습니다. 사용자가 과업을 수행하는 동안 머릿속 생각을 그대로 말하게 하는 방식입니다. 이 방식을 채택한 이유는 테스터들의 잠깐의 망설임까지도 포착하기 위해서였습니다.
설문지는 정제된 기록만을 남기지만, Think Aloud는 그 순간의 반응을 그대로 잡아냅니다. 멀티 모델 AI 서비스 환경에서 이 방식이 특히 유효한 이유는, 모델을 전환하는 판단의 순간이 여러 번 반복되기 때문입니다. 그때마다 사용자가 무슨 생각을 하는지, 어떤 불편함을 느끼는지를 파악하고자 하였고, 이것이 곧 UX 개선의 구체적인 실마리로 작용하게 됩니다.
2. ‘새 탭’을 여는지, 그리고 답변의 속도와 분량은 어떤지 살펴보다
이번 UT에서 ‘채팅 UI가 예쁜지’, ‘로딩이 빠른지’ 등은 주요 관심사가 아니었습니다. 대신, 여러 모델을 한 플랫폼에서 쓸 때만 나타나는 고유한 경험에 집중했습니다.
‘하나의 화면에서 여러 모델을 쓸 수 있다’는 것은 멀티 모델 AI 서비스의 가장 기본적인 약속입니다. 저희가 중점적으로 관찰한 것은 태스크 수행 중에 테스터가 브라우저 탭을 새로 여는 순간이 있었는지의 여부입니다. 모델을 전환할 때, 비교를 위해 이전 답변을 확인할 때, 파일을 올린 뒤 다른 모델에서 이어서 작업할 때—이 과정에서 한 번이라도 탭을 새로 열면, ‘통합 인터페이스’라는 가치에 균열이 생기고 맙니다.
여기에 더해 응답이 빠르게 돌아오는지, 그리고 굳이 답변을 길게 늘어놓지는 않는지도 함께 살폈습니다. 멀티 모델 환경에서는 한 번의 대화에서 여러 모델의 답변을 비교하게 되는데, 이때 한 모델이 불필요하게 긴 답을 내놓으면 비교 자체가 피곤해집니다. 빠르되 핵심만 짚는 답변이 결국 여러 모델을 오가는 흐름을 매끄럽게 만듭니다.
마무리 : Runyour Agent가 가려는 방향
Runyour Agent가 그리는 방향은 간결합니다. GPT, Claude, Gemini, DeepSeek, Solar Pro, Nano Banana 등의 모델들을 나열하는 데서 끝나는 게 아니라, 사용자가 이 모델들을 하나의 업무 흐름 안에서 하나의 결제로 자연스럽게 오가며 쓸 수 있도록 만드는 것입니다. 그리고 그 전체 과정이 복잡하다고 느껴지는 순간이 없는 것입니다.
가장 정확한 답을 내놓는 AI도 물론 중요합니다. 하지만 정확한 답을 도출하기 위해 여러 AI를 쓰면서도 하나의 도구를 쓰는 것처럼 느끼게 하는 경험을 Runyour Agent는 기준으로 삼고 있고, 이번 테스트를 통해 다시 한번 점검했습니다.
| 참고 자료