黑科?太昊实验室。

空气安静了很久。

“怎么感觉和智能音箱差不多?”说完,感觉是在拆台,李舒涵吐了吐舌头,怕男神生气,连忙对陈然道:“太昊肯定不一样吧?”

“当然不一样!”钱斌傻笑,试图化解尴尬,“那些不是经常听错,就是答非所问的人工智障,怎么能跟‘太昊’比?”

“嗯。”李舒涵尴尬的应了一声,见陈然不答,又问:“太昊多厉害?”

“这还用说?!”钱斌再次截胡,与有荣焉,炫耀道:“大多数互联网公司,语音识别准确率最高不到97%,太昊是99.6%,比人的听力强太多了!”

“……”这人怎么老插嘴?

李舒涵小脸微黑,调整一下心情,她拉起陈然的袖子走到一边,“你们好厉害,第一次来,跟我讲讲嘛。”

“诶?”钱斌傻眼,侧头问陆少英,“她怎么走了?”

“为什么不走?”你是不是沙雕?一点眼力劲儿也没有,陆少英叹气,“人家美女感兴趣的不是AI,是陈然……”

“唉!又是一个沉迷于然哥美色的女生?”钱斌终于双商上线,恍然明白了什么,“在她眼里,我们就是电灯泡吧?”

“你是,我不是。”陆少英有一种哔了狗的感觉,带上我干什么,我又没有强行搭话。

说罢,陆少英摇摇头,跟上两人的脚步,也走了。

“现在语音识别有96%吗?感觉一点都不像。”另一边,李舒涵问道。她刚看过一个段子,很火的东北大汉和车载语音,电话号码重复十遍也听不懂,能把人笑死。

“这个问题,其实可以换一个角度来看。”陈然笑了笑,“很多音乐APP都有‘听歌识曲’功能,听一小段旋律,就可以准确搜索到歌曲,几乎不会出错。”

“也是哦。”李舒涵知道酷狗上就有,有时候人都听不清歌词,‘听歌识曲’却能识别出来,“为什么换到人身上,语音识别就不好用了呢?”

“因为歌曲旋律一样,人声却各不相同,现实场景还有干扰,比如语气、情绪、多人对话、噪音、回声等等,所以必须借助设备。”陈然指了指天花板,“注意头顶。”

“头顶?”李舒涵看到了天花板吊着的环形设备,“那是什么?”

“麦克风阵列。”见她不懂,陈然只能解释,“单麦克风拾取的混合信号很难区分,会对语音识别造成困扰。”

“而麦克风阵列不同,它由两个以上、规则排列的声学传感器组成,利用时间、空间差异,可以对音源波束形成,增益、降噪、去混响、定位和干扰抑制。”

“原来还有硬件要求!”李舒涵恍然大悟,水汪汪的大眼睛望着陈然,一脸崇拜,“你好厉害呀,懂这么多!”

其实陈然说得很简略了……

现在很多智能手机就有2到4个麦克风阵列,但是效果呢?

提高语音识别准确率的,远不止一个麦克风阵列,作为一个物理设备,它只是负责声音的采集、处理,转换成计算机能够理解的音源数据。

常用的一种方法是梅尔频率倒谱系数,用移动窗函数把语音分成许多十毫秒级的帧,再把每一帧波形转换成多维向量,声波就成了M行、N列的矩阵。

数据上传到云端,又涉及到两个概念:状态、音素。

通常3个状态组成一个音素,而音素构成音节,音节组成语音。

第一步声学模型,比如隐马尔可夫模型(HMM),简单的理解,就是由单词网络展开音素网络,再展开成状态网络。

过程是将帧识别为状态(难点),音素识别为语音。

第二步语言模型,同音字词、句式、语法、上下文……逻辑严密,包含日常用语的方方面面,不同人的声调、音色、说话方式等等,样本范围越广越好。

就好比报电话号码的东北大汉,车载语音如果只采集了普通话,东北话?鸡同鸭讲,根本识别不了,完全靠蒙。

很多神经网络参数高达上亿,不说极其繁琐的调参和炼丹术的可靠性,关键学习能力也无法与人相比,需要庞大的训练数据支撑!

而这些数据也不是拿来就用,要挑选、清洗……耗费庞大的人力。

这也是常说的,有多少人工,就有多少智能。



本章未完 点击下一页继续阅读