2022年6月

语音识别的难点

1.语音激活测验(VAD):顾名思义,指的就是判断什么时候有语音什么时候没有语音(静音),后续的语音信号处理或是语音识别都是在VAD截取出来的有效语音片段上去进行计算的。
2.2.语音唤醒(VT):可以理解为喊名字,引起电视这个“听者”的注意。比如苹果的“heySiri”,Google的“OK Google”,创维的“小度”等,VT的目的是告诉电视(或手机),接下来的话是对你讲的哦,认真听好了。

3.回声消除(Echo Cancelling):在近场语音的环境下,播放音乐或是语音播报的时候可以使用按键进行停止,但远场环境下想要通过语音来进行控制,就必须得实现回声消除,不然,可能会对“电视”识别造成识别重复或者是错误。

4.低信噪比(signal to noise ratio,SNR)和混响(Reverberation):远场环境下要求拾音麦克风的灵敏度高,这样才能在较远的距离下获得有效的音频振幅,同时近场环境下又不能爆音(振幅超过最大量化精度)。这样的环境下,噪音必然会很大,从而使得语音质量变差,所以,要解决这个问题的技术点,就必须在有效的距离下进行不间断的采集有效振幅以及混响状态,达到一个稳定值并最终得到解决

深度学习降噪模型针,高噪音,

5.鸡尾酒会问题(cocktail-party problem):这个问题很有意思,说的就是这是指有多个说话人情况下的语音识别问题,比如鸡尾酒会上很多人讲话。如果你要听清一个人讲话那么像手势、口型、表情以及聊天话题这些干扰因素,就都会对你造成影响,这种环境下的语音识别是相当有挑战的。
声纹检测与跟踪,端点检测

7.方言,口音,情绪语音

6.6.关于语音识别的未来:简单来说,便是以后我们是否会实现《钢铁侠》中的智能助手贾维斯这样的故事情节,并且除了语音之外,显示屏和手势控制也是非常高效的交互手段。而对于语音助手,除家庭助手之外,就像电影《Her》中想象的一样,将来可能会成为真正的助手,与你真正形影不离。

语音识别(ASR)、声纹识别(VPR)、自然语言处理(NLP)、语音合成(TTS)、语音去噪

定义

当Rasa NLU识别到用户输入Message的意图后,Rasa Core对话管理模块就会对其作出回应,而完成这个回应的模块就是action。
在不同版本里面Rasa Core支持不同种类的action。
在rasa1.x版本里面,支持4中不同的action:即Retrieval actions、default actions、utter actions以及 custom actions。关于如何实现Actions和处理业务逻辑,我们在一篇文章中详谈,这里仅作简单了解。

1. default actions

 DefaultAction是Rasa Core默认的一组actions,我们无需定义它们,直接可以story和domain中使用。包括以下三种action:

action_listen:监听action,Rasa Core在会话过程中通常会自动调用该action;
action_restart:重置状态,比初始化Slots(插槽)的值等;
action_default_fallback:当Rasa Core得到的置信度低于设置的阈值时,默认执行该action;

2. utter actions

 UtterAction是以utter_为开头,仅仅用于向用户发送一条消息作为反馈的一类actions。定义一个UtterAction很简单,只需要在domain.yml文件中的actions:字段定义以utter_为开头的action即可,而具体回复内容将被定义在templates:部分,这个我们下面有专门讲解。定义utter actions示例如下:

actions:
  - utter_answer_greet
  - utter_answer_goodbye
  - utter_answer_thanks
  - utter_introduce_self
  - utter_introduce_selfcando
  - utter_introduce_selffrom
3. custom actions

 CustomAction,即自定义action,允许开发者执行任何操作并反馈给用户,比如简单的返回一串字符串,或者控制家电、检查银行账户余额等等。它与DefaultAction不同,自定义action需要我们在domain.yml文件中的actions部分先进行定义,然后在指定的webserver中实现它,其中,这个webserver的url地址在endpoint.yml文件中指定,并且这个webserver可以通过任何语言实现,当然这里首先推荐python来做,毕竟Rasa Core为我们封装好了一个rasa-core-sdk专门用来处理自定义action。关于action web的搭建和action的具体实现,我们在后面详细讲解,这里我们看下在在Rasa Core项目中需要做什么。假如我们在天气资讯的人机对话系统需提供查询天气和空气质量两个业务,那么我们就需要在domain.yml文件中定义查询天气和空气质量的action,即:

actions:
...

  • action_search_weather

 另外,FormAction也是自定义actions,但是需要在domainl.yaml文件的forms字段声明。

forms:

  • weather_form
4.Retrieval actions

警告:该功能还处于试验阶段。这个功能在未来的版本中可能被移除或改变。可以通过 forum进行反馈。这个功能后续被删除了

一、情感对话系统最终功能

1、情感对话,有记忆功能,能关注人的兴趣爱好
2、个人助手=能提醒吃药、喝水等
3、机器人有人格、懂得话术,能投其所好

最终实现数字疗法参考: woebot机器人
第一方面,就Woebot本身,其实它的对话结构都是设计好的,因此它的绝大部分问题都不是开放性的问题。通常它需要用户从几个候选答案中选择,从而根绝提前设计好的决定树路径来进行对话。如上面回答所说,Woebot使用的认知行为疗法(CBT),通过将精神健康和心理学已有的一些知识融入到谈话中,从而使人们了解正确的对物,对人,对己的认知,并纠正一些用户(或者患者)已有的不正确的认知观念。根绝Woebot研究团队在2017发表在JMIR Mental Health期刊上的论文我们能够看到,Woebot产品似乎对于抑郁和焦虑有一定帮助【1】。但是在解读这个实验的时候,我们需要注意一点:实验中的所有参与者并不是经过临床诊断的“抑郁症患者”,而是70个自认为有过抑郁和焦虑症状的在校大学生。因此,即使实验结果能够显示Woebot对于实验参与者的抑郁和焦虑程度有所缓解,但是我们并不能下结论为-“Woebot产品对于抑郁症有效”。这样的结论需要严格的临床验证才可以得出。

1.首先要明确老年人面对的问题有哪些?需要查询论文将老年人面临的问题进行总结分类,也就对应这意图分类
2.提问这些问题的原因有哪些?对话系统主动提出,针对不同问题,有不同的提问方式
3.用户(老人)输入回答,明确具体原因,根据语料在做意图分类
4.对话系统回应:根据不同原因回答不同关怀答案

二、老年人面临问题分类

1.心理问题:

子女不在身边易产生心理问题。一是行为偏离,缺乏交流沟通使得性格病态:处事认真的变成固执生硬、急躁、乖僻;文雅清高的变得不爱交际;性格随和的发展成任性粗野等。二是孤独抑郁,独居老人有可能会出现孤独、压抑之感,情感日渐脆弱,会产生衰老和死亡的联想,导致自卑、烦躁、焦虑、多疑。三是失落依赖,生活单调注意力无法转移时会产生内疚、负罪、失落和依赖,常常因为小事而抱憾终身。
(1).孤独症
寂寞、精神空虚,无事可做

- text: "那让我陪您聊聊天吧,希望能缓解您不好的感觉"
- text: "那和我唠唠嗑呀,能是您每天开心快乐"

(2).抑郁症、焦虑症、疑病症
心烦意乱、坐立不安、为一点小事提心吊胆、紧张恐惧
敏感多疑,易受暗示、对周围事物缺乏兴趣、对自己身体变化过渡关注,或者过分自恋
精神容易兴奋,控制不住,精力不足,情绪性疲劳,失眠多梦,头痛心悸,睡眠浅,早醒,多梦

- text: ""
- text: ""

(3).其他负面情绪

2.空巢独居

(1)丧偶
(2)失孤
(3)子女不在身边
(4)无子女
(5)独自居住

3.老年患病:

一是我国老年人中70%患有慢性老年病,15%患严重疾病。慢性疾病伴有不可逆的并发症,需要终生治疗及护理。二是老人行动迟缓或不便,常引发伤亡事故,如上下楼梯跌落、用煤气时烧伤烫伤等。三是日常起居需要有人提供卫生清扫、购物、洗衣、做饭等帮助。
(1)患有各种老年疾病
(2)需要经常吃药
(3)行动迟缓不便
(4)难以照顾自己
(5)不方便就医,没钱看病
(6)有自杀倾向

4.经济困难:

部分空巢老人,因为经济收入低,对社会依赖性很强,这一特点在孤寡老人、高龄老人和老年妇女当中特别突出。经济困难导致入不敷出,会影响到老人健康保障和医疗保障等必要的开支,而致恶性循环。

5.操劳过渡:

儿女的孩子要操心,儿女们的地也要操心,儿女们都有工作,地里的活都是老人们在管,久而久之会造成身体不支,出现疾病。

二、老年人关心话题
1.自身和老伴身体健康
2.家庭和睦
3.子女工作顺利,家庭幸福
4.原单位效益好
5.社会安定
6.收入增加

  1. 疾病和医疗问题:尤其高龄老人,受到慢性疾病的折磨,生活质量受到损害。
  2. 家庭照顾问题:空巢、独居和失独老人的此类问题尤为严重。
  3. 宜居环境问题:老年居住环境中存在安全隐患和物理障碍,是他们面临伤残风险和融入社会受限。
  4. 代际隔阂问题:老人知识与经验过时,学习机会和资源接近机会减少,难以掌握现代知识和信息,与年轻人的沟通易产生隔阂。
  5. 社会隔离问题:老人退出了职场货失去劳动能力后社交圈子大大缩小,晚年生活往往与孤独,寂寞为伴,与社会隔离。

环球旅游
养老院
儿女家庭
养老金、医疗保险、物价

二、政务

政务服务意图交互系统设计

图片1.png

一、政务服务意图资产

1.意图语料库管理

领域:公安、民政、人社、医保、交通、环保等领域的语料库
类型:语料词典、FAQ问答、图谱问答、多轮对话、多模态问答、智能检索等的专属服务语料库
操作:采集、抽取、构建、导入、导出、修改、删除、维护

2.意图知识库管理

数据结构化:实体识别,关系抽取,属性抽取
知识库:构造、融合、检索、问答、推理、共享、提示、评估、应用

3.意图目标库管理

(1).目标分级
领域:公安、民政、人社、医保服务领域的意图
(2).意图目标库维护与监控

4.意图图谱管理

图谱构建、图谱维护、图谱应用

5、用户画像管理

二、政务服务意图训练

模型分类算法

三、政务服务意图交互引擎

1.多模态融合引擎
2.政务意图识别服务
3.回复控制服务
4.意图监督服务
5.模糊推理与泛化理解引擎

四、政务服务意图接口

1.政务服务意图管理端
2.政务服务意图运维端
3.政务服务意图服务端

五、拆分知识

1.政府意图知识库

语料库:意图分类使用
知识库:意图详情、意图分级、FAQ知识库、图谱知识库

2.意图分类算法

规则:字典、规则库
机器学习算法
深度学习算法

3.用户画像

使用用户基本信息

4.交互

通过对话问答方式
知识问答型:FAQ、KBQA
任务型:多轮对话

问题:
1.东西很多、很泛、具体要实现的功能标准是什么?
2.我们提前准备的标准是什么?举例,意图分类知识库,分几类,训练数据
3.会给比这个详细的需求说明吗?

数据生成工具:
https://rodrigopivi.github.io/Chatito/
参考文献:
1.https://wenku.baidu.com/view/60c63fa8d7d8d15abe23482fb4daa58da0111cbc.html