Coding,the witchery of the real world

0%

新思路的找找找

整理时搜索关键词:版面分析,OCR,CV

整理时常用,个人在Google scholar等site的个人主页,对个人相关研究,相关研究相关人员研究的搜索

*用于标记和当前任务不太相关的

<Fast CNN-based document layout analysis

image-fast CNN demo

Fast CNN

利用一维上文本和表格的特征来减少分析的工作量(文本排布,阵列可能)

没有看到开源的实现

效果很好,从它的reference里相关搜索找到不少东西

*Document-layout-analysis

作者: Roinand Aguila

Github: https://github.com/rbaguila

Blog:http://warkyou.blogspot.com/2016/03/document-layout-analysis.html

OpenCV

这个只是opencv的方法,对于区域的分割实现的很好,可以将区块好好的分割,对于文本和图像区域标注没有做

但是可以考虑通过文本识别bounding box和图像区域结合来将图像区域去除(也许可以这样子)

不适合做完整的通用解法,但是可以从中学习一下最初的bounding box并在此基础上做一些事情也许会省很多事情

output
output_margin
output_word

<AI_DocumentLayoutAnalysis

image-authorAI

效果是这样,我觉得应该可以的,运行预训练模型下载的时候,vgg16.npy出了点问题

第一优先级的url访问太慢,从google cloud下了之后,问题可能出在配置检查配置的地方感觉..

总觉得是要调版本,偏偏还没requirement,根据演示视频最好得到的也是个hocr,点集画成图

image-demoAI

*P2PaLA

作者: Lorenzo Quirós Díaz

Github: https://github.com/lquirosd

识别了所有文本行

对于图片没有做分离

和opencv的方法搭一搭,学习一下做出东西来也许可以

output
output_demo

*Ocropy

作者:Thomas Breuel

OCRopus是一个文档分析工具的集合

最初tesseract做文本识别的模块,之后其中的文本识别基于LSTM

img

Ocropus3

Task从图像中提取文本,尽管有将图片分离的部分,但实际操作的时候其实是将图片隐去,感觉是整体处理

所以这个xx

<OcrFeeder

试验失败,没能成功build起来原始版本

apt运行了ocrfeeder-cli,会验证GDK_IS_PALY

也许应该考虑不用加载GTK,GUI下效果倒是真的可以,就是需要Linux桌面了

<OcrPlusPlus

官方demo效果

image-20191127164315521

选取的ACL2019第91篇,Joint Entity Extraction and Assertion Detection for Clinical Text

本地跑出来的展示效果不太行…

执行步骤

  • 上传文件,改成input.pdf
  • 对它操作
  • 生成xml
  • 分别解析xml生成txt在myproject/media/document文件夹下
  • (但是似乎是没有位置信息的提取,也没有图片)

image-20191127165521035

提取信息可以在网站源文件中是可以找到的,

*Document Page Layout

这个只找到一个ppt,效果是真的好

image-authorDo

image-demoDo

<Abbyy Fine Reader

提取效果挺不错,不过是商业软件,没有找到开源版本

<<Tesseract

一个折中的方案,可以直接将图片转化成可以提取文字的pdf,这样的话,能回归到初始的方案..

同时也可以导出所有文字的位置信息,但是又要回归到洗数据的,虽然损失的数据少了,但这个过程大致要再来一次还是有点刺激

存在的问题,页面原先的xobject不再存在,原有的图片都会成为背景图的感觉

两个Hub

*PRImA

这里是有一个集成的软件的,展示的效果也可以,不过非pro版本提供的就有限了,但是它的库里提供了一些可能相关的工具

Github: https://github.com/PRImA-Research-Lab

Site:https://www.primaresearch.org/tools

*Thomas Breuel

这个是上面那个ocropy的主要contributor之一,做了很多相关的工作

Github: https://github.com/tmbdev

site in google scholar: https://scholar.google.com/citations?user=vfTpaOAAAAAJ&hl=zh-CN