[ Article ]

Archives of Design Research - Vol. 34, No. 3, pp.173-191

ISSN: 1226-8046 (Print) 2288-2987 (Online)

Print publication date 31 Aug 2021

Received 07 Aug 2020 Revised 20 Mar 2021 Accepted 30 May 2021

DOI: https://doi.org/10.15187/adr.2021.08.34.3.173

인공지능 스피커의 디스플레이 탑재가 사용자 경험에 미치는 영향

Kun Woo Kim김건우Jae Young Yun윤재영

Visual Communication Design, Student, Hongik University, Seoul, Korea 홍익대학교 시각디자인과, 학생, 서울, 대한민국 Visual Communication Design, Professor, Hongik University, Seoul, Korea 홍익대학교 시각디자인과, 교수, 서울, 대한민국

The Effects of Display on the User Experience of Artificial Intelligence Speakers

Correspondence to: Jae Young Yun ryun@hongik.ac.kr

초록

연구배경 AI 스피커 시장은 지속적으로 확대될 전망이지만, 음성을 통해 주로 상호작용하기 때문에 사용함에 있어 불편함이 존재한다. 이에 글로벌 기업들은 초기 AI 스피커 시장에서 경쟁력을 확보하고 더욱 효율적인 사용자 경험을 제공하기 위해 ‘디스플레이’가 탑재된 AI 스피커를 출시하였는데, 이 방법이 더 효율적인 사용자 경험을 제공한다고 볼 수 없다. 기존 AI 스피커는 사용자의 눈과 손을 해방시킴으로써 새로운 사용자 경험을 제공하지만, 디스플레이의 탑재는 이에 반하는 방향으로 사용자에게 눈과 손의 사용을 필요로 하기 때문이다. 이에 본 연구에서 디스플레이의 탑재가 기존 AI 스피커보다 더 효율적인 사용자 경험을 제공해 줄 수 있는지 분석하였다.

연구방법 실험은 AI 스피커의 디스플레이 유무와 디스플레이와의 거리에 따른 기능별 사용자 경험에 대해 20~30대 에코세대 사용자 50명을 대상으로 대면실험을 진행하였다. 이 실험을 위해, 기존 사용성 원칙과 AI 스피커 가이드라인을 고찰하여 AI 스피커에 적합한 사용성 원칙으로 재구성하였다. 이에 따라 음악, 날씨, 알람, 감성대화기능을 중점으로 과업을 수행하도록 설계되었다. 이를 통해 본 연구에서 AI 스피커의 디스플레이 유무와 디스플레이와의 거리에 따른 유용성, 사용성, 매력성, 검색성, 만족성을 알아보고자 하였다. 이를 실증하기 위한 방법으로 이원배치분산분석을 사용하였다.

연구결과 AI 스피커의 디스플레이 유무와 디스플레이와의 거리에 따른 평가 및 상관관계 분석을 진행한 결과는 다음과 같다. 1) 음악기능 이용 시, 근거리에서는 ‘디스플레이가 탑재된’ AI 스피커의 유용성, 사용성, 검색성, 만족성이 높게 평가된 반면, ‘원거리’에서는 ‘디스플레이가 없는’ AI 스피커가 사용자 경험이 상대적으로 높게 나타났다. 2) 날씨기능 이용 시, ‘디스플레이가 탑재된’ AI 스피커가 근거리에서는 모든 영역(유용성, 사용성, 매력성, 검색성, 만족성)에서 높게 평가되었고, 원거리에서는 유용성, 검색성, 만족성에서 높게 나타났다. 3) 알람기능 이용 시, ‘디스플레이가 탑재된’ AI 스피커가 근거리에서는 모든 영역(유용성, 사용성, 매력성, 검색성, 만족성)에서 높게 평가되었고, 원거리에서는 사용성, 검색성에서 높게 나타났다. 4) 감성대화기능 이용 시에는 근거리와 원거리 모두 사용자 경험에 유의한 차이가 없는 것으로 나타났다. 또한, 두 변인은 음악, 날씨, 알람 기능에서 유의한 상호작용 효과가 나타났으나, 감성대화기능에서는 유의한 상호작용 효과가 나타나지 않았다.

결론 본 연구는 AI 스피커의 디스플레이 유무와 디스플레이와의 거리에 따른 사용자 경험을 평가하여 디스플레이의 효과를 분석하였다. 이를 통해 디스플레이가 기존 AI 스피커보다 활발한 인지활동으로 더욱 향상된 사용자 경험을 제공할 수 있음을 알 수 있다. 하지만 거리와 기능에 따라 효력이 달라지므로 디스플레이와의 거리를 고려한 사용자 경험 디자인이 이루어져야 할 것이다. 또한, 디스플레이가 탑재된 AI 스피커의 매력 요소를 보충하기 위해 감성 디자인 영역을 확대할 필요가 있음을 시사한다. 본 연구는 두 기기의 사용자 경험 차이를 실증적인 방법을 통해 밝혔다는 데 의의가 있으며, 향후 AI 스피커의 발전과 후속 연구에 기여하길 기대한다.

Abstract

Background Although the demand for AI speakers is expected to continue to grow, the use is limited and mainly interacts through voice. For this reason, global companies launched AI speakers with a 'display' to gain a competitive advantage in the early AI speaker market and to provide a more efficient user experience. However, it is not known whether this method provides a more efficient user experience. The existing AI speakers provide a new user experience by liberating the user's eyes and hands, but when equipped with displays, users need to use their eyes and hands. For this reason, we analyzed whether the mounting of the display complements the limitations of existing AI speakers and provides a better user experience.

Methods The experiment was conducted in a face-to-face experiment with 50 eco-generation users in their 20~30s on whether AI speakers are equipped with displays and the user experience by a function depending on the distance from the display. For this experiment, existing usability principles and AI speaker guidelines were reviewed and reconstructed into usability principles suitable for AI speakers. Accordingly, the task is designed to be carried out with a focus on music, weather, alarms, and emotional conversation functions. Through this study, we wanted to find out the usefulness, usability, attractiveness, searchability, and satisfaction of the presence or absence of displays and distance from the display. Two-way ANOVA was used to demonstrate the research problems.

Results The results of the evaluation and correlation analysis according to the presence or absence of the display of the AI speaker and the distance from the display are as follows. First, when using the music function at close distance, the usefulness, usability, searchability, and satisfaction of AI speakers with a display were highly valued, while AI speakers without a display at long distance showed relatively high user experience. Second, when using the weather function, AI speakers with displays were highly valued in all fields (availability, usability, attractiveness, searchability, and satisfaction) at close distances, and were highly shown in usability, searchability, and satisfaction at long distances. Third, when using the alarm function, AI speakers with displays were highly valued in all fields (availability, usability, attractiveness, searchability, and satisfaction) at close distances, and were highly available in usability and searchability at long distances. Fourth, when using the emotional dialogue function, there were no significant differences in user experience between close distances and long distances. Also, the two variables showed significant interaction effects in music, weather, and alarm functions, but no significant interaction effects in emotional conversation functions.

Conclusions This study analyzed the effectiveness of a display by evaluating the user experience according to the presence and distance from the display of AI speakers. Experiments show that displays can supplement existing AI speakers with some limitations and provide a more sophisticated user experience. However, since the effect varies based on distance and purpose, a user experience design will need to take into account the distance from the display. We also suggest the need to expand the area of emotional design to supplement the attractiveness of display AI speakers. This study is meaningful in that it revealed the difference in user experience between the two devices through empirical methods, and hopes to contribute to the development of AI speakers and further research.

Keywords:

VR Controller, Weight Difference Threshold, Moment Variation, Augmented Weight Perception, HCI, 사용자 경험, 사용성, 인공지능 스피커, 디스플레이

1. 서론

음성 인터페이스(Voice User Interface, VUI)는 시리, 알렉사, 빅스비, 구글 어시스턴트 등의 AI 가상 비서뿐만 아니라, 컴퓨터, 자동차, 스마트폰, 가전제품 등으로 점차 영역을 확대하고 있다. AI 스피커는 여러 커넥티드 기기 중에서도 압도적인 성장세로 주목받고 있다. IT시장 조사업체 캐널리스(Canalys)가 2019년 4월에 발표한 분석 보고서에 따르면, 전 세계 AI 스피커 보급 대수는 2018년 말, 1억 400만대로 처음으로 1억대를 돌파했으며, 2019년 말, 82.4%가 증가된 2억 790만대에 이를 것으로 예상된다. 한국 또한, 2018년 AI 스피커 시장 점유율 3%로 5위를 차지했으며, 이는 2000만 가구 중, 약 15% 수준에 해당된다.

이렇듯 AI 스피커 시장은 지속적으로 확대될 전망이지만, 한국 소비자원이 300명을 대상으로 AI 스피커의 불편 경험을 조사한 결과에서 ‘사용자 만족도’는 기대에 미치지 못하는 것으로 나타났다. 일상사용 환경에서 음성인식 미흡(170명, 56.7%), 자연스러운 연결형 대화 곤란(137명, 45.7%), 소음을 음성명령으로 오인(111명, 37.0%), 간단한 생활편의 기능만 제공(81명, 27.0%), 몇 가지 기능이 특정 지역과 소수업체에 한정(71명, 23.7%) 등의 불만으로 인해서 AI 스피커를 1년 이상 사용한 사용자는 1.3% 정도밖에 되지 않았다. 이러한 결과는 AI 스피커를 사용함에 있어 불편함이 존재하고 있음을 시사한다.

이에 최근 글로벌 기업들은 초기 AI 스피커 시장에서 경쟁력을 빠르게 확보하고, 더 효율적인 사용자 경험(User Experience, UX)을 전달하기 위해 디스플레이(Display)가 탑재된 AI 스피커를 출시하기 시작하였다. 디스플레이가 탑재된 제품은 디스플레이를 통해 보다 풍부한 정보를 전달할 수 있지만, 이 방법이 더 효율적인 사용자 경험을 제공하는지에 대해서는 조사가 필요하다. 기존 AI 스피커는 사용자의 손과 눈을 해방시켜 새로운 경험을 제공하였지만, 디스플레이의 탑재는 이에 반하는 방향으로 사용자에게 손과 눈의 사용을 유도할 수 있다.

이에, 본 연구에서 디스플레이가 탑재된 AI 스피커와 디스플레이가 없는 AI 스피커의 사용자 경험을 비교, 분석하였다. 이를 통해 디스플레이가 AI 스피커 사용자 경험에 작용하는 영향을 연구하고 향후 개발 방향 제안을 제시하였다.

2. 이론적 고찰

본 장에서는 음성 인터페이스, AI 스피커, 이중부호화이론, 공간적 거리, 사용성에 대한 개념을 소개한다. 음성 인터페이스에 대한 정의와 발전과정을 고찰하고(2.1), 현재 상용화되고 있는 AI 스피커와 디스플레이가 탑재되고 있는 현황(2.2)에 대해 살펴본다. 또한. 이중부호화이론을 통해 디스플레이가 인지활동에 긍정적으로 작용될 수 있음을 파악하였고(2.3), 공간적 거리가 제품에 대한 평가와 선택에 영향에 대해 고찰하였다(2.4). 이와 더불어 AI 스피커에 적합한 사용성 원칙을 재구성하기 위해서 사용성에 관한 개념과 원칙들을 고찰하였다(2.5). 이러한 이론들은 본 연구를 구성하는 핵심 내용으로 다루어진다.

2. 1. 음성 인터페이스 (Voice User Interface, VUI)

음성 인터페이스는 음성인식 기술을 통해 기기나 서비스가 인간의 음성에서 의미를 분석하여 인간과 기기 사이의 상호작용을 가능하게 만드는 방법이다. 입력장치에서 음성을 입력받아 신호정보를 분석하여 글이나 문장으로 나타낸다. 음성 인터페이스는 사용자에게 친숙한 대화방식을 기반으로 자연스러운 소통방식과 빠른 정보처리 속도를 제공한다. 더불어 긴급 상황에서 신속한 정보 전달이 가능하며, 손과 눈에 얽매이지 않는 자유로운 정보검색이 가능하다. 이러한 음성 인터페이스의 발전은 사물 인터넷(Internet of Things, IOT), 인공지능, 빅데이터, 클라우드, 모바일 등 지능정보기술과 밀접한 관계가 있다. 음성 인터페이스 기술은 초기 단일 음절을 인식하는 수준에서 무한에 가까운 어휘를 인식하고 구성하여 발화에 적합한 답을 내놓는 수준에 이르기까지 지능 정보기술과 함께 발전하였으며, 단계에 따라 1세대부터 4세대로 나눌 수 있다(Table 1).

Table 1

Voice Interface Development Process (Pinola, 2017)

2. 2. 디스플레이가 탑재된 인공지능 스피커 (Artificial Intelligence Speaker)의 등장

AI 스피커는 음성 인터페이스를 기반으로 사용자와 기기가 상호작용하는 무선 스피커의 일종이며 AI를 기반으로 사용자의 행동 습관을 파악하고 학습한다. 텍스트를 터치하여 입력하는 물리적인 인터페이스에 비해 빠른 조작과 간편함을 장점으로 가지고 있기 때문에 급속도로 시장에 보급되었다. 국내의 경우, 2016년 SKT에서 누구(NUGU)를 시작으로 AI 스피커 시장이 형성되기 시작했다. 출시 2년 만에 실사용자 400만 명에 육박하였으며, 대화량은 초기에 비해 72배 증가한 7,400만 건 정도로 늘어났다. 또한, 축적된 데이터베이스를 기반으로 40여 가지 이상의 다양한 서비스를 구축하고 있으며, 국내 AI 스피커의 대중화에 기여한 디바이스이다. 뒤이어 등장한 KT의 기가지니(GIGA genie)는 셋톱박스와 하나로 묶어 출시되었다. TV 화면을 보면서 대화할 수 있는 차별화 요소 때문에 출시 1년 만에 사용자 43만 명이 가입하며 급격한 성장을 보였다. 뒤이어 출시된 Kakao의 카카오 미니(Kakao mini)와 NAVER의 클로바 프렌즈(Clova Friends)는 자사의 캐릭터를 AI 스피커에 형상화하여 사용자에게 친근감을 가지게 하는 마케팅을 시도한 결과, 카카오 미니는 9분 만에 1만 5천대, 클로바 프렌즈는 당일 1만대가 팔리며 인기를 끌었다.

미국에서 2017년 아마존의 에코 쇼(Echo Show)를 시작으로 ‘디스플레이가 탑재된 AI 스피커’가 등장하기 시작했다. 에코 쇼(Echo Show)는 디스플레이에 대한 터치 유도를 최소화하기 위해 아이콘이나 버튼 등을 홈 화면에 넣지 않았으며, 사용자가 음성을 통해 명령하도록 문구를 제안한다. 보조적인 수단으로 디스플레이가 사용되기 때문에 음악, 날씨, 알람 등의 기능을 사용함에 있어 정보를 더욱 직관적으로 받아들일 수 있게 된다(정수인, 2019). 이후, 구글의 구글 홈 허브와 페이스북의 포털(Portal), 네이버의 클로바 데스크(Clova Desk) 등 글로벌 기업들의 ‘디스플레이가 탑재된 AI 스피커’가 등장하며 새로운 AI 스피커 시장을 개척하고 있다.

국내는 해외보다 늦은 2019년 상반기부터 본격적으로 ‘디스플레이가 탑재된 AI 스피커’를 출시하기 시작했다(Table 2). 2017년 LG에서 스마트 씽큐 허브(Smart ThinkQ Hub2.0)라는 ‘디스플레이가 장착된 AI 스피커’를 출시했지만 기존 원통형 스피커의 물리적 버튼 대신 디스플레이가 위치해 있었기 때문에 활용성이 좋지 않았다. 보편적인 형태는 SKT가 누구 네모(NUGU nemo)를 출시하며 국내에 처음 등장하게 되었다.

Table 2

Status of AI Speakers with Display

2. 3. 이중부호화이론 (Dual Coding Theory)

이중부호화이론은 청각정보와 시각정보가 동시에 제공될 때 인지활동이 더욱 활발히 일어나 학습에 효과가 있음을 설명하는 이론이다. Paivio(1986)에 따르면, 인간은 두 가지 인지적 부호화 기능을 가지고 있는데 청각정보는 계열적으로 부호화되고 시각정보는 공간적으로 부호화된다(Figure 1). 즉, 장면을 기억할 때 시각정보는 영상처럼 전체적 흐름을 구성하며 두뇌에 기억되는 반면, 청각정보는 서로 연관이 있는 내용끼리 계열적으로 기억되며 재구성과 조작이 가능하다. 언어적 자극과 비언어적 자극이 언어 시스템과 비언어적 시스템을 거치는 과정에서 서로 영향을 주고받으며 처리된다.

Figure 1

Double Encoding Theory Model (Paivio, 1986)

이중부호화이론에서 강조하는 비언어적 부호와 관련해 Clark, Paivio(1991)는 비언어적 부호를 모양, 소리, 행위, 감정 등 특정 대상과 행동에 대한 구체적인 이미지라고 정의하고 있다. 언어적 부호만으로 읽고 듣는 것에 비해서 그림, 실체, 사진 등의 구체적인 이미지를 제공하여 이미지를 연상하게 하면 내용이 더 명확히 이해되고 기억에 오래 남는 효과가 있다.

2. 4. 공간적 거리 (Spatial distance)

공간적 거리는 나와 대상 사이의 거리를 의미하며, 심리적 거리와 물리적 거리 모두 포함한다. 본 연구에서는 사용자가 스피커를 사용하는 실제 거리가 이에 해당된다. 공간적 거리가 멀수록, 대상이나 내용에 관한 영향력이 줄어들게 되며 사람들은 공간적 거리가 멀리 떨어져 있는 내용에 대해 추상적으로 이해하려고 한다.

공간적 거리가 대상의 카테고리화 및 묘사 정도에 미치는 영향에 대한 연구를 살펴보면, Rim, Uleman, & Trope(2009)의 실험에서 피험자가 공간적으로 가까운 상태일 경우 정보를 구체적으로 설명했으며 공간적으로 멀리 떨어져있는 상태라고 말했을 때 정보를 추상적으로 묘사했다. 또, Fujita, Henderson, Eng, Trope, & Liberman(2006)의 실험에서 동일한 내용의 공간적 거리가 다른 비디오를 피험자에게 보여준 뒤, 비디오 내용을 묘사할 것을 부탁했는데, 가까운 거리보다 공간적 거리가 먼 경우에서 내용을 추상적으로 표현했다. 이러한 연구들은 공간적 거리의 영향과 중요성을 내포하고 있는 것으로 볼 수 있다. 특히 AI 스피커의 목적과 특성상 근거리와 원거리 모두 사용되기 때문에 AI 스피커 사용 환경에 있어 공간적 거리는 중요한 요소로 작용할 수 있다. 그러므로 본 연구에서는 이러한 공간적 거리를 AI 스피커 사용자 경험에 영향을 미치는 요소라고 판단하고 실험변인으로 선정하였다.

2. 5. 사용성 (Usability)

사용성에 대한 연구는 Miller(1971)에 의해 사용 용이성(Ease of Use)을 측정하는 관점에서 처음 시도되었다. 이후 Bennett(1979)에 의해 발전되었으며 Shackel(1981)이 구체적인 정의를 내렸다. 사용성은 어떤 사물이나 서비스에 대한 경험적인 만족도를 일컫는 용어로, 사용자가 특정한 목적을 달성하기 위해 이용할 때, 얼마나 편리하고 쉽게 사용할 수 있는가에 관한 것이다. 사용자의 개인 성향과 제품의 사용 환경에 따라서 사용성이 달라질 수 있으며, 사용 방법에 의해서도 달라지는 경우가 있다.

사용성은 크게 넓은 의미의 사용성과 좁은 의미의 사용성으로 분류한다. 좁은 의미에서는 효용성과 사용성이 합쳐져 전체적인 유용성을 만드는 것으로 간주하는데, 이때 효용성은 시스템이 목표로 한 기능을 수행할 수 있는지 없는지를 결정하는 것이고, 사용성은 수행과정이 얼마나 효율적이었는지를 의미한다. 넓은 의미에서는 사용자의 목적 달성 여부에 관한 시스템의 첫인상과 유용성, 사용자의 능력에 따른 적응정도 등 여러 요소를 포함한다. 이러한 사용성에 대해서는 목적과 대상에 따라 여러 개념과 원칙들이 등장하게 되었다(Table 3).

Table 3

Usability Concepts

3. 연구설계

본 연구는 연구가설 및 모형 설정과 함께 연구에 필요한 도구를 확정하고 그에 적합한 태스크(Tasks)를 구성하였다. 또한, 앞서 고찰한 이론을 바탕으로 AI 스피커에 적합한 사용성 원칙을 새롭게 재구성하였으며 실험대상 및 환경에 대한 조건을 설정하여 실험실과 피험자를 선별하여 실험을 진행하였다.

3. 1. 연구가설

앞서 고찰한 이론과 사용성 원칙의 재구성을 통해, AI 스피커 사용성 평가에 적합한 요소를 선별하여 가설 및 모형을 설정하였다(Figure 2).

[가설 1] AI 스피커는 디스플레이 유무와 공간적 거리에 따라 ‘유용성’에 차이가 있을 것이다.
[가설 2] AI 스피커는 디스플레이 유무와 공간적 거리에 따라 ‘사용성’에 차이가 있을 것이다.
[가설 3] AI 스피커는 디스플레이 유무와 공간적 거리에 따라 ‘매력성’에 차이가 있을 것이다.
[가설 4] AI 스피커는 디스플레이 유무와 공간적 거리에 따라 ‘검색성’에 차이가 있을 것이다.
[가설 5] AI 스피커는 디스플레이 유무와 공간적 거리에 따라 ‘만족성’에 차이가 있을 것이다.

Figure 2

Research model

3. 2. 실험도구 및 태스크(Tasks)

AI 스피커 사용에 있어 이중부호화이론의 효과가 적용되는지 알아보기 위해 국내외에 출시된 디스플레이가 없는 AI 스피커(청각정보만 제공)와 디스플레이가 탑재된 AI 스피커(청각·시각정보 모두 제공) 제품들을 비교하여 선정하였다. 해외 브랜드의 경우, 대부분 한국어를 지원하지 않았기 때문에 배제하였으며, 국내 제품으로 대상을 한정하였다. 비교 결과, 40여개 이상의 서비스와 670만 명에 달하는 사용자를 보유하고 있는 SKT의 NUGU(디스플레이가 없는 AI 스피커)와 NUGU nemo(디스플레이가 탑재된 AI 스피커)를 대상으로 선정하였다(Figure 3). 실험도구는 변인 통제를 위해 동일한 브랜드로 선정하였다.

Figure 3

AI speaker (NUGU/ NUGU nemo from left)

실험에서 진행될 태스크 내용을 구성하기 위해 다음과 같은 사항들을 고려하였다. 먼저, AI 스피커를 이용할 때, 기능마다 사용자가 느끼는 경험이 다를 수 있다. 그러므로 주로 사용되는 기능을 위주로 태스크 내용을 구성하여 사용자 경험을 비교해야 한다. 또한, 피험자의 피로도를 줄이기 위해 기능을 최소한으로 구성할 필요가 있다.

이를 고려하여 분석한 결과, 해당 브랜드의 AI 스피커 사용자 기준으로 사용률이 가장 높은 기능은 음악(40%), 날씨(10.5%), 무드등(6.9%), 알람(6.6%), 감성대화(4.1%)로 나타났다. 이 중, 음성(청각정보)과 이미지(시각정보) 모두 제공하는 기능을 위주로 선택하였으며, 이미지를 제공하지 않는 무드등 기능을 제외한 음악, 날씨, 알람, 감성대화 기능으로 태스크를 구성하였다. 기능을 선정한 후, 해당 브랜드 홈페이지의 기능별 발화 예시를 참고하여 태스크 내용을 세부적으로 설정하였다(Table 4).

Table 4

Experimental Tasks

3. 3. 측정도구

현재, AI 스피커를 위한 사용성 원칙이 없으므로 앞서 고찰한 기존 사용성 원칙을 바탕으로 AI 스피커에 적용할 수 있도록 재구성하였다. 먼저 디스플레이가 없는 AI 스피커와 디스플레이가 탑재된 AI 스피커에 적합한 원칙을 선별하였다. 이 과정에서 디스플레이가 없는 AI 스피커와 디스플레이가 탑재된 AI 스피커의 가이드라인을 함께 고찰하여 신뢰성을 높였다. 다음으로 기능과 목적이 비슷한 요소를 범주화 과정을 거쳐 5가지의 원칙으로 재구성하였으며, 연구의 방향성과 무관한 요소는 제외시켰다. 이후, 사용성 평가 요소의 세부적인 평가 기준을 구성하였다(Table 5).

Table 5

Reorganization of Usability Principles

재구성된 사용성 원칙은 유용성, 사용성, 매력성, 검색성, 만족성으로 구성되었으며, 이를 바탕으로 설문지를 제작하였다. 질문은 총 10개의 문항으로, 4가지 기능에 대입하여 평가할 수 있는 공통 질문으로 설정하였다(Table 6). 디스플레이가 없는 AI 스피커(청각정보)와 디스플레이가 탑재된 AI 스피커(청각·시각정보)의 효과를 비교하여 평가할 수 있도록 리커트 7점 척도로 설문지를 구성하였으며, 질문의 수는 피험자의 피로도와 집중력을 고려하여 최소한으로 구성되었다.

Table 6

AI speaker user experience metrics

3. 4. 실험대상 및 환경

피험자는 SKT가 조사한 AI 스피커의 사용 비중이 높은 연령대와 액센츄어에서 전 세계 25,996명을 대상으로 AI 개인비서에 대한 연령별 관심도 및 사용률 조사(2017)를 참고하여 20·30대 에코세대를 대상으로 선정하였다. 에코세대는 베이비붐이 가져왔던 현상에 대한 메아리라는 뜻으로 사용하고 있으며 1980~1990년에 태어난 세대를 가리킨다.

또한, 실험환경을 설정하기 위해 AI 스피커가 활용되고 있는 상황을 조사하였다. AI 스피커는 가정(Home), 학교(School), 호텔(Hotel), 사무실(Office), 편의점(Convenience Store) 등 다양한 공간에서 활용되고 있으며, 이에 따라 주된 목적과 기능이 달라진다. 그러므로 AI 스피커의 사용 상황을 한정하여 실험할 필요가 있으며, 이를 위해 각 상황별 사용행태를 비교하였다. 그 결과, 가정에서 AI 스피커가 가장 보편적으로 활용되고 있었으며, 생활편의 증진이 주된 목적이다. 주요 기능으로 음악이나 날씨검색 등과 같은 일상생활에 관련된 서비스를 제공하는데, 이는 앞서 실험에 설정한 기능들과도 부합되는 것을 알 수 있다. 이러한 요소들을 고려하여 가장 보편적으로 활용되며 다수의 사용자가 이용하는 가정으로 설정하였다. 이와 더불어 가정 내부에서의 세부적인 설치 장소도 고려하였는데, Voicebot.ai의 조사(2018) 결과를 토대로 AI 스피커가 주로 설치되는 장소인 거실로 설정하여 실험을 진행하였다. 또한, 에코세대의 생활환경을 조사한 결과, 에코세대가 선호하는 거주 면적은 40~60㎡로 이에 적합한 곳을 선정하여 실험실을 구성하였다. 마지막으로 공간적 거리는 원거리와 근거리로 나누어 설정하였다. AI 스피커의 음성 인식률이 개선되며 다양한 환경에서 명령내리는 일이 많아졌다. 이에 사용자는 정보전달 과정에서의 피드백이나 검색 결과를 중요한 요인으로 인식하고 있다. 또한, ‘디스플레이’가 공간적 제약을 만들 수 있으며 사용자의 기기 선택에 영향을 줄 수 있다. 그러므로 각 거리에 따른 비교를 통해 사용자 경험을 면밀히 알아보고 분석할 필요가 있다. 실험에서 사용된 거리는 해당 브랜드의 문의를 통해 지정되었다. 디스플레이가 탑재된 AI 스피커의 경우 주로 이미지를 통해 전달되며 청각·시각정보의 인식이 가능한 최대거리는 4m이다. 이를 참고하여 원활한 실험상황을 고려한 3.5m로 설정하였다. 근거리는 평균 모바일 시청거리인 30cm를 적용하여 실험을 진행하였다.

3. 5. 실험방법

실험은 별도의 환경을 조성해 실험자가 직접 두 기기를 사용하고 경험을 비교 평가하는 것이 본 연구의 방향성에 부합되는 방법이므로 ‘사용자 평가 실험’으로 연구를 진행하였다. 남녀 50명을 대상으로 음악, 날씨, 알람, 감성대화 기능의 태스크를 통해 AI 스피커 디스플레이 유무, 거리적 요소를 변경한 실험이 진행되었고 각 조건에 따라 4가지의 설문지를 배부하여 총 200부의 분량을 회수하였다.

실험은 1차, 2차로 거리별로 나누어 진행되며 주어진 태스크를 기준으로 두 AI 스피커를 번갈아 사용한 뒤 설문지를 작성한다. 이때, 변수를 통제하기 위해 실험자마다 기기의 사용 순서(디스플레이 유무), 기능의 사용 순서(음악/날씨/알람/감성대화), 공간적 거리(근거리/원거리)는 모두 무작위로 주어진다. 2차 실험으로 거리 등의 요소를 변경하여 동일하게 진행한 뒤, 심층 인터뷰를 끝으로 실험이 종료된다.

4. 연구결과

본 연구를 수행하는 데 있어서 회수된 자료에 사용된 구체적인 실증분석방법은 다음과 같다. 첫째, 문항에 대한 신뢰도 검사를 실시하여 문항 간의 신뢰도를 측정하여 예측가능성, 정확성 등을 살펴보았다. 둘째, AI 스피커의 디스플레이 유·무와 공간적 거리에 따른 사용자 경험 차이를 살펴보기 위하여 평균차이 검증인 이원배치분산분석 (Two-way ANOVA)을 실시하였다.

본 연구의 실증분석은 모두 유의수준 p<.05에서 검증하였으며, 통계처리는 SPSSWIN 24.0 프로그램을 사용하여 분석하였다. 표본은 총 50명으로 구성되었으며 성별의 분포는 여성 30명(60.0%), 남성 20명(40.0%)이 실험에 참여하였다. 20~30대 에코세대를 대상으로 대면실험이 진행되었으며 약 30여분 소요되었다. 실험은 2019년 08월 29일부터 09월 07일까지 10일간 예비조사를 진행하였고, 09월 20일부터 10월 21일까지 32일 동안 본 조사를 수행하였다. 설문지는 예비조사 40부(10명), 본 조사 160부(40명)로 최종 200부(50명)를 회수하였으며, 리커트 7점 척도를 이용하여 측정하였다.

Figure 4

User experience by function (from the top left, music/weather/alarm/emotional conversation)

4. 1. 측정도구의 타당성 분석 결과

본 연구에서는 유용성, 사용성, 매력성, 검색성, 만족성 요인의 각 항목에 대한 안정성, 일관성, 예측 가능성을 알아보기 위하여 크론바하 알파(Cronbach's α)계수를 신뢰도 계수로 사용하였다. 일반적으로 0.6이상을 측정지표의 신뢰성에 문제가 없다고 인정하므로, 이를 기준으로 본 연구에서도 0.6 이상을 기준으로 신뢰성을 평가하였다.

검증 결과, 유용성(.892), 사용성(.840), 매력성(.643), 검색성(.857), 만족성(.904)으로 나타나, 모든 영역에서 신뢰수준을 만족하였다.

4. 2. 가설 검증

(1) 음악기능

① 근거리 (디스플레이 유 > 무)

근거리에서 음악기능 사용 시, 디스플레이가 탑재된 AI 스피커가 유용성(t=8.972, p=.003), 사용성(t=34.122, p=.000), 검색성(t=54.854, p=.000), 만족성(t=10.142, p=.002)에서 사용자 경험이 높게 나타났다. 두 기기의 매력성(t=.013, p=.909)은 큰 차이가 없는 것으로 확인되었다. 근거리에서 음악기능을 이용할 때, 디스플레이는 유용성, 사용성, 검색성, 만족성에 긍정적 요인으로 작용하며, 매력성에는 큰 영향을 미치지 못하는 것을 알 수 있다.

① 원거리 (디스플레이 유 < 무)

원거리에서 음악기능 사용 시, 디스플레이가 없는 AI 스피커가 유용성(t=10.358, p=.002), 사용성(t=5.257, p=.024), 매력성(t=11.055, p=.001), 만족성(t=5.319, p=.023)에서의 사용자 경험이 더 높게 나타났다. 두 기기의 검색성(t=1.130, p=.290)은 큰 차이가 없는 것으로 확인되었다. 원거리에서 음악 기능을 이용할 때, 디스플레이는 유용성, 사용성, 매력성, 만족성에 부정적 요인으로 작용하며, 검색성에는 큰 영향을 미치지 못하는 것을 확인할 수 있다.

② 상호작용 효과

두 변인의 상호작용 효과의 경우, 유용성(F=19.261, p=.000), 사용성(F=31.084, p=.000), 매력성(F=6.174, p=0.14), 검색성(F=30.273, p=.000), 만족성(F= 12.771, p=.000)으로 유의하게 나타났으며, 가설이 모두 ‘채택’되었다.

Table 7

Music function user experience analysis results

(2) 날씨기능

① 근거리 (디스플레이 유 > 무)

근거리에서 날씨기능 사용 시, 디스플레이가 탑재된 AI 스피커가 유용성(t=94.767, p=.000), 사용성(t=99.841, p=.000), 매력성(t=5.800, p=.018), 검색성(t=96.722, p=.000), 만족성(t=55.516, p=.000)에서 모두 높은 사용자 경험을 보였다. 근거리에서 날씨기능을 이용할 때, 디스플레이는 사용자에게 긍정적 요인으로 작용하는 것을 알 수 있다.

② 원거리 (디스플레이 유 > 무)

원거리에서 날씨기능 사용 시, 디스플레이가 탑재된 AI 스피커가 유용성(t=6.071, p=.015), 검색성(t=8.897, p=.004), 만족성(t=6.005, p=.016)에서 사용자 경험이 높게 나타났다. 두 기기의 사용성(t=3.489, p=.065), 매력성(t=.777, p=.380)은 큰 차이가 없는 것으로 확인되었다. 원거리에서 날씨기능을 이용할 때, 디스플레이는 유용성, 검색성, 만족성에 긍정적 요인으로 작용하지만, 사용성과 매력성에는 큰 영향을 미치지 못하는 것을 알 수 있다. 또한, 근거리에 비해 두 기기의 사용자 경험의 차이가 크지 않으며, 효력이 반감되는 것으로 나타났다.

① 상호작용 효과

두 변인의 상호작용 효과의 경우, 유용성(F=13.609, p=.000), 사용성(F=16.637, p=.000), 매력성(F=5.136, p=.025), 검색성(F=14.211, p=.000), 만족성(F=8.006, p=.005)으로 유의하게 나타났으며, 가설이 모두 ‘채택’되었다.

Table 8

Weather function user experience analysis results

(3) 알람기능

① 근거리 (디스플레이 유 > 무)

근거리에서 알람기능 사용 시, 디스플레이가 탑재된 AI 스피커가 유용성(t=23.636, p=.000), 사용성(t=35.609, p=.000), 매력성(t=4.448, p=.037), 검색성(t=38.757, p=.000), 만족성(t=28.270, p=.000) 모두에서 사용자 경험이 높게 나타났다.

근거리에서 알람기능을 이용할 때, 디스플레이는 사용자에게 긍정적 요인으로 작용하는 것을 알 수 있다.

② 원거리 (디스플레이 유 > 무)

원거리에서 알람기능 사용 시, 디스플레이가 탑재된 AI 스피커가 사용성(t=5.552, p=.020), 검색성(t=7.136, p=.009)의 사용자 경험이 높게 나타났다. 두 기기의 유용성(t=1.657, p=.201), 매력성(t=1.001, p=.320), 만족성(t=1.310, p=.225)은 큰 차이가 없는 것으로 확인되었다. 원거리에서 알람기능을 이용할 때, 디스플레이는 사용성, 검색성에 긍정적 요인으로 작용하지만, 유용성, 매력성, 만족성에 큰 영향을 미치지 못하는 것을 알 수 있다. 또한, 근거리에 비해 두 기기의 사용자 경험 차이가 크지 않으며, 효력이 반감되는 것으로 나타났다.

① 상호작용 효과

두 변인의 상호작용 효과의 경우, 유용성(F=4.684, p=.032), 사용성(F=6.152, p=.014), 매력성(F=4.884, p=.028), 검색성(F=5.771, p=.017), 만족성(F=5.713, p=.018)으로 유의하게 나타났으며, 가설이 모두 ‘채택’되었다.

Table 9

Alarm function user experience analysis results

(4) 감성대화기능

① 근거리

근거리에서 감성대화기능 사용 시, 디스플레이가 ‘없는’ AI 스피커와 디스플레이가 탑재된 AI 스피커의 사용자 경험은 유용성(t=2.840, p=.095), 사용성(t=.439, p=.509), 매력성(t=3.579, p=.061), 검색성(t=1.610, p=.207), 만족성(t=1.985, p=.162)으로 큰 차이가 없는 것을 알 수 있다. 근거리에서 감성대화기능을 이용할 때, 디스플레이는 사용자에게 큰 영향을 미치지 않는 것을 알 수 있다.

② 원거리

원거리에서 감성대화기능 사용 시, 디스플레이가 ‘없는’ AI 스피커와 디스플레이가 탑재된 AI 스피커의 사용자 경험은 유용성(t=3.535, p=.063), 사용성(t=.367, p=.546), 매력성(t=3.783, p=.095), 검색성(t=2.050, p=.155), 만족성(t=2.782, p=.099)으로 큰 차이가 없는 것으로 확인되었다. 근거리와 동일한 결과로, 감성대화기능은 거리와 상관없이 디스플레이가 긍정적 요인으로 작용하지 못하는 것으로 확인되었다.

① 상호작용 효과

두 변인의 상호작용 효과의 경우, 유용성(F=0.19, p=.890), 사용성(F=.000, p=1.000), 매력성(F=.008, p=0.930), 검색성(F=2.24, p=.876), 만족성(F=0.37, p=.848)으로 유의하게 나타나지 않았으며, 가설이 모두 ‘기각’되었다.

Table 10

Emotional conversation function user experience analysis results

4. 3. 사용자 심층 인터뷰

개인의 지각과 행위를 통해 사용자 의견, 니즈, 정보를 얻기 위해 실험 종료 후, 면대면 인터뷰를 진행하였다. 실험을 진행했을 때의 느낌, 감정을 상기시켜 디스플레이가 탑재된 AI 스피커에 대한 장단점과 의견을 질문하였다. 이를 통해 수집된 정보와 앞서 분석된 결과를 토대로, 디스플레이의 긍정적 효과와 거리를 고려한 경험 디자인, 감성 디자인 필요 등의 3가지 주요 사항을 도출하였다(Table 11).

Table 11

Summary of in-depth user interviews

4. 4. 논의 및 소결

본 연구는 이중부호화를 활용하여 AI 스피커의 사용자 경험을 비교한 실험으로, 청각·시각정보 모두 제공하는 디스플레이가 탑재된 AI 스피커와 청각정보만 제공하는 디스플레이가 없는 AI 스피커를 공간적 거리에 따라 분석하였다.

첫째, 디스플레이가 탑재된 AI 스피커(청각·시각정보)는 디스플레이가 없는 AI 스피커(청각정보)보다 인지활동이 활발히 일어나 정보의 인식 속도와 이해도 등의 학습효과에 도움을 준다. 디스플레이는 음악, 날씨, 알람 기능의 사용자 경험 요소에 긍정적 효력을 발생시키며, 사용자 경험이 시각정보 유무에 따라 차이가 있음을 알 수 있다. 특히, 사용자는 디스플레이가 이해력과 정보습득 면에서 좋다고 평가하였는데, 이는 청각정보만 제공하는 디스플레이가 없는 AI 스피커보다 시각·청각정보를 동시에 제공하는 디스플레이가 탑재된 AI 스피커가 인지활동에 더욱 효율적임을 알 수 있다. 동일한 내용이라도 음성과 이미지가 함께 제공되는 상황에서 사용자는 두 가지 기억 활동을 하며 독립적이던 청각정보와 시각정보의 경로를 동시에 조작할 수 있게 된다. 이때, 정보 간에 관계를 형성하게 되며 보다 효율적인 인지활동을 할 수 있게 되는 것이다.둘째, 디스플레이가 탑재된 AI 스피커는 공간적 거리에 따라 사용자 의 경험 평가가 달라지는 것을 확인하였다. ‘근거리’에서는 음악, 날씨, 알람 기능을 사용할 때, 디스플레이가 사용자 경험 요소에 큰 효력으로 작용하는 반면, 원거리에서는 효력이 반감되는 것으로 나타났다. 이는 근거리 공간(e.g., 방)에서는 스크린의 내용파악이 용이하여 AI 스피커의 스크린이 효력을 얻을 수 있지만, 상대적으로 원거리 공간(e.g., 거실 등)에서는 그 효과가 낮을 수 있음을 추론할 수 있다. 사용자는 기능과 거리에 따라 디스플레이의 필요도가 다를 수 있고, 방해요소가 될 수 있다고 평가하였는데, 동일한 정보형태라도 사용자의 정보 습득정도가 다름을 의미한다. 즉, 각 기능별 거리에 적합한 정보의 형태나 양을 알아볼 필요가 있으며, 이를 적절히 조절할 수 있는 가이드라인이 제공되어야 한다. 거리에 따라 적절한 형태로 제공한다면 원거리에서 반감되는 사용자 경험을 끌어올릴 수 있을 것이다. 이처럼 시각정보는 청각정보에 비해 공간적 거리에 큰 영향을 받으므로 시각정보와 청각정보를 동시에 제공하는 AI 스피커의 사용자 경험을 디자인할 때, 공간적 거리의 특성을 중요하게 고려하여 적용되어야 할 것이다.

셋째, 감성대화 기능에서는 디스플레이의 유/무가 통계상 유의한 차이를 보이지 않았지만, 모든 영역(유용성, 사용성, 매력성, 검색성, 만족성)에서 ‘디스플레이가 없는’ AI스피커가 상대적으로 높은 것으로 측정되었다. 감성적 영역에서 디스플레이는 다소 부정적 요인으로 작용하는 것으로 판단된다. 사용자는 디스플레이가 없는 AI 스피커의 물리적 형태나 피드백 효과 등의 외적인 요소를 더욱 선호하며, 디스플레이에 대해 거부감을 느낀다고 심층인터뷰 시 응답하였다. 이는 디스플레이가 탑재된 AI 스피커의 감성적 영역에서 개선의 필요가 있음을 의미한다. 이를 위해 사용 행태, 라이프스타일 등을 고려하여 목적과 상황에 어울리는 형태로 디자인되어야 하며, 캐릭터나 의인화 등이 적용될 가능성이 있다. 또한, UI적으로는 폰트나 색상, 아이콘, 이모티콘, 이펙트 효과 등을 다양화하여 감성 디자인 영역에 대한 확대가 가능하다.

5. 결론 및 제언

현재 AI 스피커는 집에서뿐만 아니라 학교, 호텔, 사무실, 편의점 등 다양한 분야에서 사용이 확대되고 있다. 이러한 변화 속에서 디스플레이의 탑재는 커다란 의미를 가지며, 다양한 가능성을 내포하고 있다. 본 연구에서는 디스플레이가 없는 AI 스피커와 디스플레이가 탑재된 AI 스피커를 공간적 거리에 따라 사용자의 경험을 비교 분석하였다. AI 스피커의 디스플레이가 미치는 영향을 알아보기 위한 실험으로 향후, 디스플레이가 탑재된 AI 스피커의 상호작용을 설계할 때, 고려해야 될 사항과 방향성을 제시하였다.

본 연구의 한계점으로는 실험을 위해 선정한 두 기기(디스플레이가 탑재된/없는 AI 스피커)의 출시일이 달라, 새롭게 출시된 기기에 대한 호기심, 예전에 출시된 기기에 대한 익숙함 등이 사람에 따라 변수로 작용될 수 있다. 그리고 일부 대중적인 기능을 위주로 실험이 진행되어 본 실험의 결과가 다른 기능에 확장 적용되기에는 한계가 있을 수 있음을 밝힌다. 이러한 한계점들을 바탕으로 다양한 후속 연구들이 진행되어 향후 개선된 AI 스피커의 사용자 경험이 디자인될 것으로 기대한다.

Acknowledgments

This paper was written based on Master Dissertation Thesis in 2020>

Notes

Citation: Kim, K., & Yun, J. Y. (2021). The Effects of Display on the User Experience of Artificial Intelligence Speakers. Archives of Design Research, 34(3), 173-191.

Copyright : This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0/), which permits unrestricted educational and non-commercial use, provided the original work is properly cited.

References

Alan A. Gross. (2009). Presence as a consequence of verbal-visual interaction: Atheoretical approach. Article in Rhetoric Review 28(3), 265-28. [https://doi.org/10.1080/07350190902958792]
Bret K., & Ava M. (2018). Smart Speaker Comsumer Adoption Report. Voicebot.ai.
Choi H. S. (2019). "넌 기분 어떠니"…독거노인 AI스피커 감성대화 일반인의 3배 ["How are you feeling"… Seniors living alone AI speaker emotional conversation 3 times that of ordinary people]. 연합뉴스[Yonhap News Agency]. https://www.yna.co.kr/view/AKR20190709045300017.
Chung S. E. (2016). 사용자경험 디자인을 위한 플렉서블 디스플레이의 형태요인과 사용자경험 차원의 관계성 연구 [Relationships between Flexible Display's Form Factors and its User Experience Types for User Experience Design]. (Unpublished Doctoral thesis). Ewha Womans University. Seoul, Korea.
Colavota F. (1974). Human sensory dominance. Perception and Psychophysics, 16, 409-412. [https://doi.org/10.3758/BF03203962]
Fujita, K., Henderson, M. D., Eng, J., Trope, Y & Liberman, N. (2006). Spatial distance and mental construal of social events. Psychological Science, 17, 278-282. [https://doi.org/10.1111/j.1467-9280.2006.01698.x]
Henderson M. D., Wakslak C. J., Fujita K., & Rohrbach J. (2011). Construal Level Theory and Spatial Distance: Implications for Mental Representation, Judgment, and Behavior. Social Psychology, 42, 165-173. [https://doi.org/10.1027/1864-9335/a000060]
Jang J. C., & Lee M. Y. (2012). 관찰학습 이론에 기반한 텍스트와 이미지 활용 학습 기억 강화 효과에 대한 연구 [A Study on the Effectiveness of Retention Enhancement Using Text and Image Coding in Observational Learning Process]. Proceeding of HCI Korea, 885-888.
Jeong S. I. (2019). 음성 인터페이스(VUI) 정보전달을 위한 시각화 연구: 디스플레이형 AI 스피커 중심으로 [A Study on the Visualization for Information Delivery of Voice User Interface: Centered around the Display Type of AI Speakers]. (Unpublished master's thesis). Ewha Womans University. Seoul, Korea.
KCA. (2017). 인공지능(AI) 가전제품 문제점 및 개선방안 [AI Home Appliance Problems and Improvement Plan].
KHI. (2016). 미래 주거트렌드 연구 [Future housing trend research].
Kim H. Y. (2010). 모바일 웹 인터페이스 디자인과 사용성에 관한 연구 [A Study on Mobile Web Interface Design and Usability]. (Unpublished master's thesis). Chung-Ang University. Seoul, Korea.
Kim J. W. (2010). HUMAN COMPUTER INTERACTION 개론. Ahn Graphics Publishers.
Kim K. J. (2010). 시간적 거리와 공간적 거리의 상호작용이 외재적 속성의 중요도에 미치는 영향 [The Interactive Effects of Temporal and Spatial Distance on Importance of Extrinsic Attributes]. Journal of Commodity Science and Technology, 28(2), 103-116. [https://doi.org/10.36345/kacst.2010.28.2.009]
Kim M. H. (2007). 텐져블 유저 인터페이스 디자인을 위한 사용편의성 평가 방안 개발 [The Development of Usability Evaluation Method for Tangible User Interface]. (Unpublished master's thesis). Yonsei University. Seoul, Korea.
Kwak N. P. (2019). 스마트 스피커 날갯짓...1억 대 돌파 1년만에 2억대 넘본다 [The flap of the smart speaker's wings... 100 million units Exceeding 200 million units in one year]. 한겨레[The Hankyoreh]. http://www.hani.co.kr/arti/science/scienceskill/890326.html.
Latane B., Liu J., Nowak A., & Bonevento M. (1995). Distance matters: Physical space and social impact. Personality and Social Psychology Bulletin, 21, 795-805. [https://doi.org/10.1177/0146167295218002]
Lee Y. S. (2013). 디스플레이 해상도 경쟁의 불편한 진실 [The Inconvenient Truth of Display Resolution Competition]. ZDnet Korea. (https://zdnet.co.kr/view/?no=20131121140755).
Mayer R., & Anderson R. (1991). Animated needs narrations: An experimental test ofa dual-coding hypothesis. Journal of Educational Psychology, 83, 484-490. [https://doi.org/10.1037/0022-0663.83.4.484]
Michael H., James P., & Jennifer B. (2004). Voice user interface design. MA: Addison-Wesley.
Moreno R., & Mayer R. (1999). Cognitive principles of multimedia learning: The role of modality and contiguity. Journal of Educational Psychology, 91, 358-368. [https://doi.org/10.1037/0022-0663.91.2.358]
Jakob Nielsen. (1993). Usability engineering. Elsevier. [https://doi.org/10.1016/B978-0-08-052029-2.50007-3]
Oh E. H. (2010). 노인소비자를 고려한 사용성 모형 개발을 위한 기초 연구 [A Preliminary Study on the new usability prototype considering the elderly consumers]. (Unpublished master's thesis). Ewha Womans University. Seoul, Korea.
Peter Moville. (2005). Ambient Findability: What We Find Changes Who We Become. O'Reilly Media, Inc.
Pinola, M. (2017). History of voice recognition: from Audrey to Siri. itbusiness. ca.
Rim, S., Uleman, J., & Trope, Y. (2009). Spontaneous trait inference and construal level theory: Psychological distance increases nonconscious trait thinking. Journal of Experimental Social Psychology, 45, 1088-1097. [https://doi.org/10.1016/j.jesp.2009.06.015]
Russell B. (2007). Audrey Younkin, Philip Corriveau, Rina Doherty and Eric Salskov, Assessing the Quality of User Experience. Intel Technology Jounal, 11(1), 77-87.
Shin J. S. (2011). 구체화 이론과 이중 부호화 이론에 입각한 그림책 번역전략 [Translating for Children Based on the Dual Coding Theory]. 번역학연구[The Journal of Translation Studies], 12(2), 113.
Son S. W. (2016). G마켓 웹 사용성 향상을 위한 인터페이스 디자인 비교 연구: 중국인 사용자를 대상으로 [A Comparative Study of interface designs for the improvement of G-market's usability: Take Chinese users as the research object]. (Unpublished master's thesis). Chung-Ang University. Seoul, Korea.

세대	연도	주요 역사
1	1952	· 미국 AT&T Bell 연구소, 숫자 인식 시스템 Audrey 개발
1	1962	· IBM, 영단어 인식 및 숫자 계산이 가능한 Shoebox 공개
2	1970	· 국방첨단연구 사업국, 대규모 음성이해 연구 프로젝트 진행
3	1980	· IBM, Hidden Markov Model을 이용한 대규모 음성시스템을 개발
3.5	1990	· 최초 소비자용 Dragon Dictate 출시 · Bell South, ASR 서비스 시작 (수화기에서 말한 내용 인식) · Dragon Naturally Speaking 출시 (연속 음성인식 제품)
4	2007	· Apple, Google을 선두로 개인비서 서비스 출시, 본격 상용화

분류	LG	SKT	KT	LG
기종
SW	Clova	NUGU	GIGA genie	Clova
전용기기 (출시년도)	Smart ThinkQ Hub2.0 (2017)	NUGU nemo (2019)	GIGA genie Table TV (2019)	U+_AI Avengers (2019)
언어지원 (한국어)	3개 (지원함)	2개 (지원함)	2개 (지원함)	3개 (지원함)
주요기능	· IoT 기기 제어	· 키즈 서비스 · 개인화 서비스	· 개인화 음성합성 · TV 보조 · IoT 기기 제어	· U+아이돌Live · 히어로 퀘스트 · 네이버 검색
특징	홈 IoT 허브 역할	키즈 중심의 서비스 개발	셋톱박스와 결합 개인용 TV로 활용	3D 입체감, 캐릭터의 친근감

출처	정의
Shackel (1981)	제품을 사용하는데 유연성, 유효성, 학습성, 사용자 태도와 같은 운용적인 제한점에 의해서 측정되며, 사용성의 문제를 파악하고 재발하지 않도록 체계적인 방법을 모색하는 것
Gould & Lewis (1985)	배움과 사용이이 쉬우며 원하는 기능을 사용하는데 만족감과 오랫동안 기억에 남을 수 있는 제품이나 시스템 디자인
Fred Davis (1989)	사용자가 노력하지 않고 시스템을 쉽게 사용할 수 있는 것
Preece (1994)	HCI(Human Computer Interaction)의 중요한 개념으로 시스템을 쉽게 사용하고 배울 수 있도록 고안하는 것
Neilson (1994)	사용자가 시스템을 쉽게 사용할 수 있는지에 대한 편이성
ISO 9241-11 (1998)	사용자가 제품을 사용할 때, 만족성, 유효성, 효율성을 통해서 목표를 달성할 수 있는 것
Shneiderman (2002)	유니버설 사용성: 누구나 사용 가능한 커뮤니케이션과 정보 그리고 서비스 및 제품을 고안하는 것

재구성된 사용성 원칙	기존 사용성 원칙	AI 스피커 가이드라인	평가 기준
유용성 (Utility)	작업 지원 수준 효율성 유용성 기능성	대화 보완적 정확성	AI 스피커를 사용함에 있어 의도한 작업의 효율적인 완료와 도움 여부에 관해 판단하는 기준
사용성 (Usability)	기억의 용이성 사용의 편리성 학습의 용이성 이해성 사용성	UI 지시 최소화 간결성 일관성	AI 스피커를 사용함에 있어 쉬운 조작과 유쾌하게 사용할 수 있는지 판단하는 기준
매력성 (Attractive)	미학적 구성 환경 매력성	행동 제약 최소화 다양성	AI 스피커를 사용함에 있어 감성적인 매력, 특정한 감정을 어필할 수 있는지 판단하는 기준
검색성 (Searchability)	시각적 계층 구조 내비게이션 타이밍 검색성 일치성	과한 정보 자제 일관된 시각 경험 (혼란 최소화)	AI 스피커를 사용함에 있어 정보 검색 및 전달의 적절성과 상태 파악을 판단하는 기준
만족성 (Satisfaction)	만족성 가치성 만족도	즉각적 피드백 사용자 집중	AI 스피커를 사용함에 있어 사용자가 느끼는 주관적인 만족감을 판단하는 기준

범주화	핵심내용
디스플레이의 학습효과 증진	· 청각정보에만 의존해서 정보를 파악해야 하는 부담감이 줄어들었다.
	· 청각정보 보다 빠른 인식이 가능해 효율적인 전달력을 가지고 있다.
	· 시각정보와 청각정보를 동시에 제공하므로 기억에 용이하다.
거리를 고려한 경험 디자인 필요	· 원거리에서 디스플레이의 효과가 감소되어 디스플레이가 없는 AI 스피커와 큰 차이가 없어진다.
	· 멀리서 정보를 확인하기 위해 시선이나 신경이 집중되어 불편하다.
	· 거리 및 기능의 특성에 따라 디스플레이의 필요도가 다를 수 있고 오히려 방해 요소가 될 수 있다.
감성 디자인 필요	· 디스플레이가 탑재되어 기계적인 느낌이 강해져서 호감도가 감소된다.
	· UI의 내부 요소 부재로 디스플레이가 없는 AI 스피커 보다 친근감, 공감대 형성이 어렵다.
	· 사용자의 환경과 목적, 라이프스타일 등을 고려한 서비스가 부족하다.

구분	Tasks
음악	스피커를 통해 음악을 추천 받고 정보를 파악해 주세요.
날씨	스피커를 통해 내일 날씨와 이번 주 날씨를 검색하고 정보를 파악해 주세요.
알람	스피커를 통해 알람 하나를 설정해 주세요. 이후, 전체 알람 수를 확인하고 두 번째 순서의 알람을 해지해 주세요.
감성대화	스피커와 일상적인 대화를 해 주세요.

구분	번호	내용
유용성	1	해당 기능은 필요한 작업을 완료하기 적절하다.
유용성	2	해당 기능은 나에게 유용하다.
사용성	3	해당 기능의 사용방법을 쉽게 인지할 수 있다.
사용성	4	해당 기능을 사용할 때, 편리함을 경험했다.
매력성	5	해당 기능을 사용할 때, 감성적인 느낌을 받았다.
매력성	6	해당 기능을 사용할 때, 행동이 자유로운 느낌을 받았다.
검색성	7	해당 기능은 현재 상태(진행 상태를 표시하는 모든 신호)에 대한 적절한 피드백을 제공한다.
검색성	8	해당 기능은 필요한 정보를 과하거나 부족하지 않게 적절한 방법으로 제공한다.
만족성	9	해당 기능은 나에게 가치가 있다.
만족성	10	해당 기능에 대해 만족한다.

구분	거리	Display	M	SD	t	p
p<.05, p<.01, **p<.001
유용성	근거리	유	5.58	1.433	8.972	.003**
	근거리	무	4.73	1.404	8.972	.003**
	원거리	유	4.37	1.285	10.358	.002**
	원거리	무	5.24	1.415	10.358	.002**
사용성	근거리	유	5.91	1.155	34.122	.000***
	근거리	무	4.48	1.290	34.122	.000***
	원거리	유	4.62	1.490	5.257	.024*
	원거리	무	5.26	1.295	5.257	.024*
매력성	근거리	유	4.87	1.297	.013	.909
	근거리	무	4.84	1.315	.013	.909
	원거리	유	4.06	1.276	11.055	.001***
	원거리	무	4.97	1.455	11.055	.001***
검색성	근거리	유	5.77	1.153	54.854	.000***
	근거리	무	4.01	1.223	54.854	.000***
	원거리	유	4.41	1.480	1.130	.290
	원거리	무	4.72	1.436	1.130	.290
만족성	근거리	유	5.80	1.414	10.142	.002**
	근거리	무	4.91	1.380	10.142	.002**
	원거리	유	4.69	1.746	5.319	.023**
	원거리	무	5.41	1.350	5.319	.023**

구분	거리	Display	M	SD	t	p
유용성	근거리	유	5.71	1.125	23.636	.000***
	근거리	무	4.46	1.428	23.636	.000***
	원거리	유	4.87	1.541	1.657	.201
	원거리	무	4.48	1.488	1.657	.201
사용성	근거리	유	5.79	1.262	35.609	.000***
	근거리	무	4.11	1.540	35.609	.000***
	원거리	유	5.01	1.473	5.552	.020**
	원거리	무	4.33	1.413	5.552	.020**
매력성	근거리	유	4.86	1.385	4.448	.037**
	근거리	무	4.23	1.595	4.448	.037**
	원거리	유	4.02	1.340	1.001	.320
	원거리	무	4.31	1.551	1.001	.320
검색성	근거리	유	5.80	1.282	38.757	.000***
	근거리	무	4.09	1.459	38.757	.000***
	원거리	유	4.83	1.395	7.136	.009**
	원거리	무	4.07	1.450	7.136	.009**
만족성	근거리	유	5.94	1.146	28.270	.000***
	근거리	무	4.55	1.451	28.270	.000***
	원거리	유	4.91	1.746	1.310	.255
	원거리	무	4.53	1.570	1.310	.255

구분	거리	Display	M	SD	t	p
p<.05, p<.01, **p<.001
유용성	근거리	유	6.21	.926	94.767	.000***
	근거리	무	4.19	1.138	94.767	.000***
	원거리	유	5.15	1.412	6.071	.015**
	원거리	무	4.44	1.470	6.071	.015**
사용성	근거리	유	6.38	.773	99.841	.000***
	근거리	무	4.45	1.126	99.841	.000***
	원거리	유	5.26	1.479	3.489	.065
	원거리	무	4.73	1.356	3.489	.065
매력성	근거리	유	5.29	1.021	5.800	.018**
	근거리	무	4.70	1.400	5.800	.018**
	원거리	유	4.45	1.234	.777	.380
	원거리	무	4.69	1.477	.777	.380
검색성	근거리	유	6.14	.892	96.722	.000***
	근거리	무	4.05	1.209	96.722	.000***
	원거리	유	5.14	1.425	8.897	.004**
	원거리	무	4.34	1.251	8.897	.004**
만족성	근거리	유	6.40	.969	55.516	.000***
	근거리	무	4.58	1.430	55.516	.000***
	원거리	유	5.60	1.520	6.005	.016**
	원거리	무	4.88	1.459	6.005	.016**

구분	거리	Display	M	SD	t	p
p<.05, p<.01, **p<.001
유용성	근거리	유	3.84	1.733	2.840	.095
	근거리	무	3.44	1.826	2.840	.095
	원거리	유	3.51	1.736	3.535	.063
	원거리	무	4.18	1.826	3.535	.063
사용성	근거리	유	4.58	1.527	.439	.509
	근거리	무	4.79	1.642	.439	.509
	원거리	유	4.28	1.715	.367	.546
	원거리	무	4.49	1.751	.367	.546
매력성	근거리	유	4.23	1.575	3.579	.061
	근거리	무	4.83	1.596	3.579	.061
	원거리	유	3.98	1.597	3.783	.055
	원거리	무	4.62	1.692	3.783	.055
검색성	근거리	유	4.24	1.762	1.610	.207
	근거리	무	4.69	1.784	1.610	.207
	원거리	유	3.96	1.829	2.050	.155
	원거리	무	4.49	1.872	2.050	.155
만족성	근거리	유	3.73	1.933	1.985	.162
	근거리	무	4.30	2.109	1.985	.162
	원거리	유	3.40	1.954	2.782	.099
	원거리	무	4.08	2.120	2.782	.099