热点导读

热点推荐

经验之谈:细处挖掘 让扫描仪文字识别更准确

更新日期:2007-11-14  来源:天新网  作者:

    从识别参数挖掘

    在使用OCR识别软件来识别目标文稿中的文字时,常常需要先在识别软件中进行合适的参数设置,毕竟使用默认的参数设置是无法获取最令人满意的效果的。一般来说,需要设置的识别参数主要包括扫描模式设置、分辨率设置、亮度对比度设置等;在识别纯文字材料时,往往只需要将识别软件的扫描模式设置为“黑白”模式就可以了,要是将扫描模式设置为“彩色”或“灰度”模式的话,只会增加扫描识别的时间,而且也不会提高文字识别的准确率。要是被识别的目标文稿质量比较差时,我们可以尝试将扫描模式设置为“灰度”模式,然后用相关的扫描软件对扫描结果进行一下处理再继续进行识别,这样一来文字识别准确率就会大大提高。

    在进行分辨率设置时,通常将分辨率设置得越低,扫描仪扫描文本的速度就越快,但扫描出来的文稿效果就越差;相反,将扫描分辨率设置得越高,扫描仪扫描文本的速度就越慢,但扫描出来的文稿效果就越好。不过这一理论并不是千篇一律的,毕竟将扫描分辨率设置得太高的话,文稿纸张上的小斑点都有可能被识别成标点符号,这样一来文字识别准确率反而会得不到提高。经过笔者多次测试发现,如果目标文稿中的文字字号为1、2、3号的话,那我们只需要将扫描分辨率设置为200dpi就可以了;要是目标文稿中的文字使用的是4号或5号字体的话,那可以将扫描分辨率设置为300dpi;高于5号的文字字体,必须将扫描分辨率设置为400dpi以上,但不能超过扫描仪的光学分辨率。

    使用合适的扫描亮度与扫描对比度,可以确保目标文稿中的文字黑白分明,这对提高文字识别准确率非常关键;在调整扫描亮度与对比度时,我们应该仔细观察扫描预览效果,当发现预览效果中的文字笔画较细但并没有断开时,就表明此时的亮度和对比度数值是最合适的。如果在识别过程中,发现预览效果中的文字线条较粗较黑而且笔画分不清时,就表明此时的亮度数值设置得小了,我们应该尝试提高一些亮度值来看看;要是发现预览效果中的文字线条看上去凹凸不平,甚至有断线或残缺不全的现象时,那就表明此时的扫描亮度调整得有点高了,我们应尝试将亮度数值降低一些再看看。

    此外,“输出信息”的参数设置也会对文字的识别准确率带来一定的影响;在缺省状态下,“输出信息”的数值常常会被设置为100%,这种参数设置仅仅适合那些新墨粉打印出来的文字材料或者印刷出来的报纸、书籍等,相反在扫描识别那些文字色彩比较浅的文稿时,最好能够将“输出信息”的数值调整得稍微大一些,不然的话扫描出来的图象看上去很不清晰,而且文字识别的准确率也不会很高;当然“输出信息”的数值也不能设置得过大,不然会延长扫描识别的时间,而且还会使识别出来的文字笔画看不清楚。

  • [文章内容导航]
文章评论
0 条评论 | 查看全部
用户名: 密码: 验证码:
您还不是52硬件用户?立刻注册
本月热文推荐
关注此篇文章的读者可能还会关注...
热评文章TOP10