???? ocr ????

Spread the love

? ??? ? ???? ?????: ???? ?? Tesseract ??? ?? ?? ??? https://tesseract-ocr.github.io/tessdoc/Downloads =< 3.02? ?? ??? ????. ?? ??? https://tesseract-ocr.github.io/. Tesseract?? ? ??? ??? ?? ?? HTML ??? ???? hOCR ??? ???? ????. Hocr2PDF? ?? ??? ???? ?? ??? PDF? ??? ? ??? ? ????. ? ??? ????? ??? ?? `hocr` ?? ??? ??????: ??? ??? ?? ???? ??? ?? ? ??? Tesseract?? ?? ???? ????? ???? Tesseract-OCR ???? ??? ? ????. ? ??? ???? ?? ?? ???? ??? ??? ? ??? ? ?? ? ?? ??? ?? ??? ??? ? ???? ?? ??? ??? ???? ?? ????. Wer Dokumente einscannt, hat das Problem, dass sie in Bild-Dateien umgewandelt werden und sich nicht nach Texten und Wörtern durchsuchen lassen. Tesseract OCR analysiert solche Bilddateien und extrahiert die darin enthaltenen Texte. OCR ?? ??? ?? ? ???? ?? Linux ????? ??? ? ?? ? ???? ?? ?? ???? ???? ???? ???.

?? ??, ?? FAQ? ?? ??? ?????? ??????. ??? ?? ?? Tesseract ??? ?? ?? Tesseract ??? ??? ???? ??? ?? ?? ? ?? ?? ???? ??????. ?? ??? ?? `pagesegmode` ?? ??? ?? ??? ?? ??? ??? ? ??? ??? ??? ????. ?? tesseract (?? ==3.03)?? ?? ?? ??? PDF? ?? ? ????: ??? ?? ?? ?? ???? ? ? ?? ??? ??? ? ???? tesseract ?? ????? ?? (?? ?? ???): Tesseract ??? ??? ? ???? ?? ??? ?? ?? ? ?? ?? ??? ?? ??? ??, ??? ??? ??? ???? ? ????. ?? ?? – ? ?? ???? ????. ???? ??? ?? ? ???? ??????. ??? `myscan.png`?? ???? OCR? ?? `out.txt`? ??? ???? ?? ??? ? ???? : Tesseract? ??? 2.0 ?????? ??? ??? ?? ?? ??? ?? (OCR) ?????. ?? ?????(?????? ??) API? ???? ????? ??? ???? ??? ? ????. ??? ??? ??? ?????.

?? ?? ??? ????? ????? ??? ?? ????. ??? ??? TrainingTesseract? ??????. ???? ?? ??? ?? 4.1.x ???? ????, ????? ???? ???? ?? ?? ??? ?? https://notesalexp.org/tesseract-ocr/ ??? ??, ??? ??? ???? ??? ???? ?? ?? ???? ? ????. ??? ??? ???? ?? ? ??? ??, ? ?? ? ? ?? ?? ?? (OCR) ????? ?? ???. Tesseract?? ? ???? ????? ?? ? ? ????. ?? ?????? Tesseract? ???? ?? ???? ??? ??? ? ????. MacPorts ?? ???? ???? ???? ??? ? ????.

 Uncategorized