600名发音人在手机环境下录制的四〣方言数据所有数据均做过人工转写。可用于四川话语音识别研发
此数据为该数据的样例。
在安卓手机环境中用自制的录音软件录制每个录音人的脚本已事先嵌入。录音人根据录音脚本来朗读录音环境安静,不包括明显的其他人说话的声音
覆盖了各种常用的安卓掱机,包括三星、华为、中兴、HTC、联想、酷派、小米等厂商的流行机型
600名录音人,录音人性别比例分布均匀
覆盖16万个中文句子,每名錄音人录制300句中文在句子选取时,进行了相似去重并考虑了不同音素的平衡录音语料分布如下:
?来自各领域的用户问题,领域覆盖:常用网址、彩票、影视、应用、股票、利率、汇率、周边搜索、限行、短信、音乐、餐饮、电视交互、笑话、唐诗宋词、假期安排、打電话、系统设置、通讯录、地图导航、网络搜索、天气、计算器、公制转换、日期时间、油价、日程安排、航班、火车时刻、发短信等30多個领域
?用户短信,覆盖常用的短信内容
?客服查询:覆盖电信、银行、IT领域的常见客户问题。
每个录音人对应一个唯一编号每个錄音人的数据放在一个文件夹下,包括:
1)录音人信息文件(.txt):存放该录音人的性别、年龄、籍贯及所用手机型号
2)该录音人的各个句子的wav格式语音文件文件以句子编号命名。例如:
数据堂-数据共享服务平台