当前位置: 首页 » 人生五术 » 道思维得 » 考古联想 » 正文

明品生活网:纸质资料数字化突破识别率难关

放大字体  缩小字体   来源:光明日报  作者:Jina  版权声明,必须查看=>点击进入




目前,随着纸介质资料数字化技术的快速发展,科技资料数字化已成为新的国际趋势。数字化的科技资料具有图文并茂的优势,在网络日益普及的今天,可以使人们轻松地获得知识。加之数字化的科技资料更易于保存,因而更具有现实意义。 
  数字化的科技资料不受空间、时间等限制,能真正实现多方资源共享,人们可通过互联网实现跨时间、地域和国界的信息交流。科技资料数字化后可以实现全文检索,通过关键词检索迅速获得查询结果,这种便捷是纸介质信息交流无法想象的。 
  尽管数字化科技资料有诸多好处,但在我国仍受到限制,其中最大问题是OCR识别率不高导致的工作效率低下。OCR是通过扫描仪利用OCR软件,将点阵图形字符转变成文本的技术,也是纸介质资料数字化关键的一步。当前大多数扫描仪都配有OCR,但一些产品识别率不高,以及识别语种太少等,在进行识别之后会出现很多乱码,需要重新校对。另外对图片、表格等,有时会在转换中或消失,或面目全非。因此,一些机构在将纸介质文献数字化时疑虑重重。 
  中海实业信息技术开发分公司负责中海油集团科技资料的管理,在资料数字化过程中面临同样问题。中海实业一直在寻找将纸介质资料数字化的高效工具,以便满足日益增长的科技资料数字化管理需求。 
  通过对国内外众多数字化工具的比对验证,中海实业于2004年选择了国内OCR行业的领军产品——文通数据录入系统。2005年又购买了最新版本。中海实业在和文通公司合作过程中,深刻体验到文通产品带来的快捷便利。文通公司也通过中海实业的数字化实践,不断完善自己的产品。 
  北京文通信息技术有限公司发端于清华大学,作为自主创新研发OCR的企业,目前其OCR识别率达到国内最高的99.8%,识别速度每分钟6000字,独有的亚洲文字(中文简体、中文繁体、日文、韩文)识别技术更是得到业界高度认可,并已在微软Office2003中全面配装。质量较好的纸介质文件,如几十页的杂志等,在短短几分钟内就可转变成版式工整、页面整洁的双层PDF文档。 
  目前文通公司数据录入系统已经在国家图书馆、安全部、上海交大图书馆、南开大学图书馆、中海石油渤海分公司等数十家单位得到成功应用。
    作者:齐柳明





 
 


@1999-2020 六维空间网 新国学™ 明品生活™ >  六维空间网 新国学网 版权所有