基建场景下最好用的OCR识别工具,算量效果出乎意料
OCR是光学字符识别技术(Optical Character Recognition)的缩写,是指从图像中自动提取文字信息的技术。这项技术横跨了人工智能里的CV(计算机视觉)和NLP(自然语言处理)两大领域,综合使用了这两大领域技术成果。OCR技术已经应用到各行业,在基建领域,这一技术又是如何与行业融合的呢?且听本文分解。

PART.1
当OCR应用到基建领域
OCR技术能不能应用到基建领域呢?过去,随着施工图纸的设计完成,施工单位要集中时间对上千份图纸进行抄图算量,主要的抄图工具就是Excel,整个抄图过程全靠人工,不仅耗时耗力,而且容易出现丢量、丢项的问题,工程算量的准确性无法确保,也就很难保障工程项目的经营效益。

有时候,施工单位为了实现算量的精确性,不惜加大人力和财力投入,同时让不同的算量队伍进行背靠背算量,虽然这在一定程度上确保了工程量准确度,但也增加了相关投入。如果采用OCR技术,就可以有效解决这些业务难、关、痛。
然而事情并不如想象的那么简单。梦诚科技评估主流的OCR技术厂商后发现,这些厂商的OCR技术在工程图纸识别效果上并不理想。这是因为,工程图纸种类多样,表格结构复杂,还有的表格有图形化内容、特殊符号,或存在图纸模糊等干扰情况,因此,只有经过专业训练的OCR技术才能真正下沉到基建工程抄图场景中。

为此,梦诚科技自主研发了一套新的针对施工领域、特别是基建相关的图纸表格识别OCR技术,不仅利用CV相关技术进行分析,还通过施工专业领域的扫描件和CAD导出图纸的表格图片。在使用CV技术抽提特征以后,结合深度学习的图形分类技术,大幅度提升表格结构识别的准确度,其效果在施工领域远远高于业界通用识别手段。
自2021年3月实现这一技术突破以来,梦诚科技BIM算量软件已经在8000余个项目上实践应用,每月识别图表达三万张,平均提升算量效率20倍。
PART.2
梦诚BIM算量软件功能测试
目前,梦诚科技OCR技术研发团队已经完成了对几十个接口的开发,涵盖了通用文本、表格、路基土石方、箍筋布置图、钢筋大样、全桥图等图纸类型识别模块,能够快速实现高精度识别。以下展示不同图纸类型的实拍识别效果(VPN端较软件端速度略有延迟):
1
表格识别:秒级识别
(VPN端实拍图演示)
熟练人工抄表格的时间约为20~30分钟,采用OCR识别每张表格可平均节省25分钟。
2
大样识别:10秒内识别
(VPN端实拍图演示)
熟练人工抄大样需要2个小时左右,OCR识别每张大样可平均节省2小时。
3
隧道纵断面识别:15秒
(VPN端实拍图演示)
可自动识别出围岩级别、衬砌形式、设计高程、支护样貌、桩号开始位置、材质等图纸信息。熟练人工抄全桥图需要2个小时左右,采用OCR识别可提效几百倍。
4
全桥图三维模型还原:20-30秒左右
(VPN端实拍图演示)
可自动识别全桥图的桥台、桥高、桥墩间距离、桩基布置图等信息,从而直接还原出桥的三维模型。
近期,梦诚科技基于基建领域的OCR识别技术已申请专利权,分别是:一种识别公路方柱墩箍筋信息的方法、系统、设备及介质;一种自动高精度表格校正方法和系统;一种算量表格识别方法、系统、电子设备及存储介质,其中两项已获得审批。


专利证书
梦诚科技研发人员介绍,目前研发团队一方面是在继续优化这一技术在基建识图当中的性能和表现,实现更加全面、精确和快速的识图能力;另一方面是致力于实现更多在没有CAD工程时,能够兼容PDF进行识别,使得不管工程中是否有CAD文件都可以有效地进行工程信息的获取。
PART.3
无处不在的OCR
自上世纪30年代德国发明家Tausheck(陶舍克)和美国工程师Handel(汉德)分别申请了最早的OCR专利,OCR发展至今已经有近百年历史。
现在,OCR技术已经在金融、保险、政务、医疗、交通、教育等诸多领域实现成熟应用,比如卡证识别、票务识别、翻译识别、快递寄取件识别等,这一技术的应用极大程度地解放了人力,提高了工作效率,堪称AI技术应用的成功典范。

比如合合信息推出的“AI+OCR”风控解决方案,应用于多家外资银行跨境结算场景中,实现相关业务处理时间较传统处理方式审核耗时下降90%的成效。
某医疗平台的远程随访OCR功能,可以将患者的检查报告照片直接上传并快速完成格式转换,方便医生在线为患者解读检查报告,提供更专业的医疗咨询。

据阿里巴巴达摩院高级算法工程师龙如蛟的研究报告,OCR经历了从印刷场景到自然场景再到如今的复杂场景(理解)的演进,相关技术挑战已经从感知发展到认知层面。
可以预见,随着智能终端的迅速普及以及深度学习技术的持续突破,OCR将在处理复杂符号、多样化文档、自然场景字符识别等方面更具有有效性,从而为工业制造和日常生活带来更多便捷。
