工业应用

机器学习

本方案提供英文数字语音机器学习辨识功能,并提供可快速创建人机接口的图形化开发平台,语音识别结果可透过新唐开发平台创建高质感人机互动画面。

语音控制电子设备已经是一股势不可挡的潮流,其优势在于电子设备可以免持控制、在不方便按键的环境下操作等优点。本方案使用Google TensorFlow作为深度学习用于语音识别的算法开发环境,并在NuMaker-PFM-M487平台上实现语音识别功能,以关键词识别(KeyWord Spotting)的范例程序实现可脱机且实时的语音识别系统。 一套完整的深度学习语音识别系统需要使用两个平台,如图1-1,一为PC端平台,利用TensorFlow与Python撰写完整的深度学习程序代码并训练模型,因本方案使用监督式学习(Supervised Learning)(注1)模式,因此需提供系统大量的训练数据和卷标(Labels),接着将撷取到的特征用深度神经网络(DNN)模型进行训练,并反复修正训练模型,直到模型达到系统优化状态;二为NuMaker-PFM-M487平台,利用PC所建的深度学习模型与训练结果(模型参数),在NuMaker-PFM-M487平台完成可实时的语音识别系统。

Nuvoton IoT Structure NuMaker-PFM-M487

图 1-1 语音识别系统流程图

本方案辨识的关键词为10个英文数字:One, Two, Three, Four, Five, Six, Seven, Eight, Nine, Zero,使用NuMaker-PFM-M487开发板并搭配M487 emWin GUI开发平台呈现语音识别结果,当用户对着麦克风说「One」,此方案的LCD面板上会正确地显示的关键词「One」。

注1:监督式学习(Supervised Learning):所有的问题都有对应的标准答案,亦即用户先将数据做卷标(Label)并在训练的过程中告诉机器对应的答案。

 

 

 

* 注 : Nuvoton 及 NuMicro为新唐科技股份有限公司(Nuvoton Technology Corp.)的商标,本文涉及的其他商标及著作等权利,皆归属于其原所有权人。