VUI 交互的技术与设计

VUI 交互的技术与设计

VUI 交互的技术与设计

在一个正常语音对话交互过程当中涉及到的技术主要是TTS(文本转语音)、ASR(语言识别)、NLP(语言处理)三种技术。

下图你将清晰的看到这几个技术在一个对话流程当中所处的位置,了解这些位置将有助于我们提示用户以及避免技术方案给用户带来的疑惑和焦虑情绪,同时处理异常情况。

NLP :用于处理和理解人类自然语言的能力,这包括文本分析、情感分析、语义分析、文本生成、自动问答、机器翻译等。

在 NLP 处理当中还会涉及到指令的匹配和处理,也就是所谓的思考阶段,所以一定会存在需要用户等待的状态,若词槽填充不完整则需要引导用户补充实体,以得到最后的结果。

ASR :用于语音转换为可处理的文本。ASR技术被广泛应用于语音识别、语音搜索、语音助手、语音导航等领域。

不同设备的反馈展示效果不一样,比如说在手机当中会有视觉辅助,而没有屏幕的 IOT 设备则依赖语音或音效反馈,视觉反馈有助于用户观察输入是否正确以及是否成功输入。

TTS :将文本转换为语音的技术。通过选择合适的声音、语调和语速,TTS技术可以生成自然、流畅的语音输出,类似于人类的语音。这项技术被广泛应用于语音合成、有声读物、辅助阅读等领域。

涉及到语音反馈还包含语音角色的设定可以深入讨论、不同的音色不同的语调对于用户都有影响,想象一下不同角色跟你说同一句话你的感受是否会有不同,语音交互就是设计一个生活角色。

在用户侧我们可以大致将交互阶段分为,唤醒 > 下指令 > 反馈三个阶段。结合技术的逻辑,完整的流程如下图。

基于这个图我们可以清晰的看到我们应在那个节点做出反馈和提示,在哪个节点需要引导用户

  1. 注意不同状态的区分,同时考虑不同模态下的反馈,以便用户做出行动

  2. 技术在执行时使用的是云端计算,涉及到网络所以一定会存在 loadiing 的时候,要考虑如何缓解用户的焦虑感

  3. 语音唤醒后若用户没有输入指令可能是用户不知道怎么用,这时候要注意引导用户学习

  4. 注意用户处于不同阶段时异常反馈,帮助引导用户完成任务,而不是直接退出

  5. 不要希望用户每次都能完整的说出指令,当用户意图不清晰时,要引导用户补充实体


© 与有意思的人,做有意义的事儿.

Design by

LIGO

© 与有意思的人,做有意义的事儿.

Design by

LIGO

© 与有意思的人,做有意义的事儿.

Design by

LIGO