在体验过几款云后视镜和目前在实现‘eagle'过程中,各家都使用第三方语音识别技术的情况下,如何让语音交互过程更流畅、智能?初步思考出两种体验优化方法,请大家斧正!
一、自定义语义词汇完善(难度:**)
1. 用户与车载硬件,通过语音交互,目前阶段更多的是指令的下发与执行。对指令的执行无非两种情况“是或不是”。但由于不同方言或文化背景,导致能够表达出“是或不是”的词汇非常多,为了让车载APK更智能,可在后台建立更为完整的‘肯定词汇组’与‘否定词汇组’,这些词汇组通过人工的方式收集、整理,并下发给车载APK本地缓存。车载APK在进行语音交互的时候,对于未理解的指令(即云端不支持),可以到本地词汇组中匹配,并做出判断。这种方式,可以大大加强语音交互过程中,指令执行的准确率。 2. 举例: 用户:导航到华强北 (传达指令) 机器:您是要导航到华强北吗? (指令重复、确认) 用户:对的|是啊|OK|是的|是|呵呵|嗯|...... (这类词汇表示:是、肯定) 用户:错|不对|No|不是的|你傻啊|...... (这类词汇表示:不是、否定) 二、人工智能学习(难度:*****) 1. 实际使用语音交互功能的时候,绝多数用户第一次是不会按照‘使用帮助’要求去下发指令,而是按照自己的说话习惯下发指令,这就导致机器(第三方语音识别SDK)无法根据语义作出正确判断。举例:用户说:去华强北怎么走/导航/地图,这些说语义代表的是‘导航到***’ 2. 解决思路 ① 车载APK将当前未能正确识别的语义内容,上传到后台(带有车载硬件IMEI); ② 后台将这些语义进行人工分析、归类,如:去华强北怎么走,被归类到‘导航’这个语域 ③ 车载APK主动下载属于自己的语义库(实现自我学习机制) 3. 优化 ① 后台将收集到的无法解析的语义,通过人工进行分析、归类 ② 后台主动调用第三方语音识别SDK,如科大讯飞、百度、腾讯等等,由它们的语音识别SDK来辅助解析,自动实现分析、归类