测试(自然度),以MOS为主
MOS(Mean Opinion Scores),专家级评测(主观);1-5分,5分最好。
注:微软小冰公开宣传是4.3分,但有业内朋友认为,也不能据此就说其“绝对”比科大讯飞好,因为每次评审的专家人选都不一样。说白了,目前整个AI行业内,还是各家说自己好的节奏。
ABX,普通用户评测(主观),让用户来试听两个TTS系统,进行对比,看哪个好。
每次主观测评应该有区分,比如:这次着重听多音字,下次主要听语气词等。
(2)客观测试
对合成系统产生的声学参数进行评估,一般是计算欧式距离等(RMSE、LSD)。
对合成系统工程上的测试:实时率(合成耗时语音时长)、首包响应时间(用户发出请求到用户感知到的第一包到达时间)、内存占用、CPU占用、3*24小时crash率等。

已解决




