"最近有个需求,是要判断 pdf 和 word 中文字是否一致,最初采用的方法是通过 pdf-ocr 识别,去空判断。实际效果并不显著,请问各位有没有什么好的 ocr 推荐, 或者有没有什么好的解决方案?这种需求到底能实现到什么程度?"
最近有个需求,是要判断 pdf 和 word 中文字是否一致,最初采用的方法是通过 pdf-ocr 识别,去空判断。实际效果并不显著,请问各位有没有什么好的 ocr 推荐, 或者有没有什么好的解决方案?这种需求到底能实现到什么程度?
那也要用 ocr 啊,他 pdf 里面不是文本的,是图片的
pdf 转 word
嗯,难搞,我研究了好几天也没找到一个好的解决方案
pdf 里面还有图片,图片还有噪点,这个确实难搞了。
目前试了几个 ocr 的识别结果都不尽如人意,可能是 pdf 里的图片黑点太多不清晰
pdf 有第三方库支持文本读取,word 也有的,ocr 应该识别率更高吧,为什么效果不明显呢?
那也要用 ocr 啊,他 pdf 里面不是文本的,是图片的
pdf 转 word
嗯,难搞,我研究了好几天也没找到一个好的解决方案
pdf 里面还有图片,图片还有噪点,这个确实难搞了。
目前试了几个 ocr 的识别结果都不尽如人意,可能是 pdf 里的图片黑点太多不清晰
pdf 有第三方库支持文本读取,word 也有的,ocr 应该识别率更高吧,为什么效果不明显呢?