This content is generated by OcrKing Of Aven's Lab, Just for reference !    Created Time:2009-10-18 18:56:25
文档图像获取
近年来, 数字化文档被广泛应用干办公自动化、 数字化图书馆、 工业自动化等额域, 随着科技的发展, 传统扫描仪体积大、 效率低、 携带不方便等不足之
处日益突出, 而数字照相机体积小、 价位低, 可以很容易地携带并结合到手机、 手提电脑以及各种网络设备中去, 它还可以远距离地对背景文字及脆弱的珍
贵文档拍照, 更适用干无约束环境下的数字化操作, 因此, 将数字照相机引入文档图像分析已经引起越来越多人的关注, N钏m加的调查表明, 从报纸
上提取段落时, 基干Pc摄像头的oc褓作比基干扫描仪的oc蜈作效率高得多; Fisher等调查了在战场上用数字摄像机替换士兵携带蛐蛐剐扫描仪的可能性,
经证实, 数字摄像机能够以2唧m拍摄整张M文档纸, 已经达到oc晰要求的分辨辜, 在过去的20年中, 基干摄像机的文档分析已经有一定的应用, 如自
动阅读执照、 书籍杂志分类, 货运车m、 公路挂牌、 危险标志识别等,
文档图像获取中的难题
用数字照相机拍摄的文档图像也有新闻题需要解决: 当文档表面弯曲变形时, 数字相机拍到的文字及图形图像将会产生畸变: 在扫描仪中, 也会出现这一
现象, 文档图像的变形对后续处理工作, 如 咽识别、 数字文档的版面分析、 格式处理以及文档自动化都带来极大国难, 因此必须首先通过图像矫正的方法
对这种变形文档进行图像恢复. 在2m1年的数字化项 目 中, 德国代表哲学家Nieuuhe在buisburg 一 鼬n大学对创作干1865至1945年的文本文档做了数字
转换, 这次转化的过程既复杂又耗时. 很多文档使用德国哥特体 (fraklur> 活字技术印刷出来, 而现在的ocR程序对mMm活字识别不很理想, 因此常常伴随
着火工修改~ 对于那些质量差一些的以原始影印文件为主的文学来源, 数字化过程则需要进一步的人工互动, 其中阴影、 倾斜和扭曲都会极大的降低 OCR识别
的准确度.
文档图像处理内容
文档图像处理包含许多方面, 下面对一些重要的技术做简要说明, 1、 图像去色及二值化 存储在纸上的文档, 若要输入计算机中, 首先要通过
扫描仪扫描成为数字图像n 它可以是彩色图像, 也可以是灰度图像, 或者是二值图像, 取决干扫描的具体过程~ 但一股文档处理系统要处理的是灰度图像, 而
且很多成熟的图像处理算法和工具包也是针对灰度图像的n 在进入识别阶段时, 识别引擎一股是针对二值图像的. 因此, 我们必须对输入的图像进行处理, 将
其二值化~ 图像的二值化处理就是将图像上的像素点的灰度值设置为0或255, 也就是将整个图像呈现出明显的黑白效果. 将256亮度等级的灰度图
僳通过适当的阀值选取而获得仍然可以反映图像整体和局部特征的二值化图像~ 在数字图像处理中, 二值图像占有非常重要的地位~ 首先, 图像的二值化有利
干图像的进一步处理, 使图像变得简单, 且数据量减小, 能凸显出感兴趣的目标轮廓, 其次, 要进行二值图像的处理与分析, 首先要把灰度图像二值化, 得到
二值化图像. 在我们所研究的文档图像处理这一特定领域中, 图像的二值化一股是指将灰度图像转化为只包含黑、 白两个灰度的二值图像~ 文档图像可
以看作是由文字、 背景、 图片三类对象组成, 而我们最美心的是文字区域二值化后的结果~ 图像的这种转换必然会引起信息丢失, 因此采用什么样的算
法能够最大限度地保留识别时必需的信息 (如字符的连通性> , 去掉不必要的背景信息和噪声, 并且执行时间在实际可接受的范围内, 是人们一直以来努力研
宄的问题. 2、 倾斜检测与校正 文档处理系统要求的处理对象是工整的文档图像, 或者倾斜角度己知, 否则许多对图像的操作, 例如投影分析, 图
像分割等就无法进行. 显然, 扫描进计算机的文档图像无法保证一定是正的, 因此需要利用倾斜检测和枝正的方法对其进行处理, 经常采用的倾斜角度检测的
方法有: 基干文本行的检测方法, 投影轮廓分析方法, 和H皿gh变换方法等, 基干文本行的检测可以用干己知文本行方向 (水平或竖直> 的文档图像, 它
利用了对图像中连通体的分析. 我们知道, 连通体是一个灰度值相同的像素的集合, 这个集合中任意两个像素之间都是&近邻关系. 可以用包含连通体内像素
的最小矩形来表示连通体, 它描述了连通体的大小和位置信息. 如果己知文本行方向, 我们就可以将连通体合并成文本行, 并用直线逼近, 该直线的倾斜角即
为文本行的倾斜角~ 对整幅图像的文本行作同样分析, 选出出现频率最高的角度, 即可作为图像的倾斜角. 投影操作也是一种基本的图像处理方法, 将
图像按一定方向作投影, 可以得到在该方向坐标轴上分布的波形, 它描述了图像沿该方向上的黑像素分布情况~ 如果图像文本行是水平的, 那么沿水平方向的
投影波形将具有明显的波峰和波谷, 基干这一点, 我们可以在候选倾斜角度范围内转动图像, 直至出现明显的波峰和波谷为止, 这时得到的角度就是倾斜角
度, H0飓h变换方法是在倾斜检测中最常使用的方法, 它抗噪声干扰的能力强, 并且不受图像间隙干扰. 它的原理是将直线从图像空间映射到参数空间.
这样就将原图像中的直线映射到参数空间的一点, 而原图像中的一点则对应着参数空间的一条正弦曲线. 图像空间中任意两点所对应的正弦曲线在参数空间将
相交干一点, 进而, 通过的直线上的所有点所对应的正弦曲线在参数空间都将相交干这一点. 基干这一点, 我们将直线检测问题转化为参数空间寻找局部最
大值的问题. 以上是标准H0飓h变换的基本思想, 该方法适干文本行方向预先未知的情况, 3、 版面结构理镀 文档图像几何结构的理脾也称为版面拆
解, 它是文档图像分析中的一个重要问题n 版面拆解的目的是生成一个描述文档图像的层次结构: 几何结构. 它将图像分割成为具有相同特性的区域, 为下一
步的区域识别和文字识别做好准备. 版面拆解的方法一股有如下三种: 自底向上 (Bonom7up, 也称为数据驱动> .1 这类方法利用图像的局部信息, 通过
逐步将具有相同属性的区域合并, 得到对文档版面的拆解, 该方法能处理不同版面的文档和具有一定倾斜的文档, 但是一股比较谩, 自顶向下 (T0扭
Down, 也称模型驱动> .1 该方法从图像全局出发, 逐步对图像进行分割, 最后得到图像的几何结构, 对M蛐蛐mn式的版面, 该方法快速而且有效: 但是对复
杂文档效果欠佳n 影响自顶向下方法有效性的因素包括文本行位置的随意性, 区域形状的不规则性以及文档图像的倾斜等. 综合方法 (Hybrid) 则尽量综
合上述两种方法的特点, 使算法的性能和适应性都得到提高, 4、 扭曲文档图像恢复 在扫描、 复印或者拍摄文档的过程中造成的图像扭曲在文档理
解和处理方面是普遍的问题, 这种文档图像的扭曲降低了光学文字辨识 (OCR) 能力, 也严重影响了其使用效果, 这是文档打印数字化和自动化过程中的主要
障碍, 这种扭曲文档图像采用相关的技术进行一定的恢复, 称为扭曲文档图像恢复, 实验证明, 文档图像扭曲恢复后的ocR识别辜要明显高干恢复之前
的, 具体参考扭曲文档图像恢复一词.