
据了解,本次竞赛数据由联合主办方之一的标贝科技全程提供支持,近400小时的高质量成人朗读数据和儿童朗读、对话等参赛数据,分别取自标贝自有5000小时成人中文朗读语音数据库、1800小时的少儿语音对话数据库,充分满足竞赛需要,匹配语音识别模型训练。
事实上,赛事数据一直是本届SLTCSRC一大吸睛点,让赛事的关注度与参与度随之提升。而儿童语音数据更是厂商的关注点。缘由该数据在智慧教育、早教产品、智能音箱等众多语音交互场景中有着广泛应用基础。但儿童语言因其声线与吐字等原因,语音和语言特性不同于成人,有着天然的技术辨别难度。并且在训练过程中,如果没有覆盖大量带有标签的儿童语音,儿童的ASR的准确性仍明显低于成年人。因而,高质量儿童ASR数据的重要性不言而喻。
从本次赛事报名情况来看,2021SLTCSRC共吸引了近60家来自全球不同地区的高校、科研机构与厂商报名,覆盖中国大陆和香港、美国、新加坡、爱尔尼亚等地区,其中国内厂商参赛队伍不乏像爱奇艺、小米、网易、华为、马上金融等业内熟知厂商,而国内高校和科研机构汇聚了清华、浙大、上海交大、中科院自动化研究所等。本届CSRC竞赛受到了以上机构和厂商的积极参与,但仍有部分队伍未能如期报名,表示希望有机会再次参赛,应用数据做研究。
另外,本次赛事数据的价值还体现在了本届SLTCSRC论文方面。截至目前,基于标贝科技提供的儿童语音识别数据,已有包括SLT官方、小米、CUHK(香港中文大学)等机构发表学术论文。论文的发布不仅代表着当前业内极高的学术水平,更为从业者提供专业参考指南。
本届SLTCSRC竞赛结果和论文已揭晓,但行业对数据的需求却未停止。为更好地推动儿童语音产品研发,标贝科技针对本次未能参赛以及对儿童ASR数据有更多需求的伙伴,特此提供以下2套特定价格的数据产品
1、CSRC数据
成人朗读数据340小时有效时长
儿童朗读数据28小时有效时长
儿童对话数据29小时小时有效时长
2、标贝科技儿童语音识别数据集
儿童中文语音数据库有效时长1800小时
儿童英文语音数据库有效时长500小时
儿童中英文语音数据库有效时长500小时

欢迎对以上数据感兴趣的行业伙伴,与我们联系
邮箱:marketing@data-baker.com
标贝科技官网数据首页:https://www.data-baker.com/#/data/index/distinguish