Research Resources

研究资源

HIT-OR3C手写数据库

发布人:admin 发布时间: 2015-03-06 09:00:24 阅读数:2969

HIT-OR3C数据库是使用手写板输入采集的汉字手写字符和文档库,也是第一个通过工具包实现自动采集的数据库。HIT-OR3C由5个子集组成 (GB1, GB2, Digit, Letter, 和Document),GB1和GB2是汉字标注库GB2312-80内2个子集的简写。GB1, GB2, Digit, 和 Letter子集已采集完成122套,共832,650 个手写汉字。Document子集包括10个从新浪网收集的文档,每个文档采集2套,共收集了20套。文档子集共有77,168个字符, 覆盖2,442个字符,其中2,286个来自GB1,97个来自GB2,49个来自Letter, 10个来自 Digit。

  该数据库是免费的中文手写体数据库,可以作为汉字手写识别等研究领域实验测试集,大力推动手写汉字识别技术的发展。OR3C的样例文件如下图所示:

若想获取数据库,请到智能计算中心手写组网站(http://www.haitianyuan.com/hw/index.php)下载。另外,该数据库已被IAPR TC-11 website (www.iapr-tc11.org)收录,也可以直接到http://www.iapr-tc11.org/mediawiki/index.php/Harbin_Institute_of_Technology_Opening_Recognition_Corpus_for_Chinese_Characters_(HIT-OR3C) 下载相关文档。若想通过其它途径获取数据库,请联系我们(下载申请表并填写后传真或电子邮件发送)。

   联系人:陈清才

 邮箱:qingcai.chen@hitsz.edu.cn, 传真: +86-755-26032556。

 请点击以下“文件下载”下载申请表



Return Top
© 2014 哈尔滨工业大学深圳研究生院·智能计算研究中心 All rights reserved.

深圳网站建设:派朗网络