Computer Engineering/opencv 5

tesseract, jTessBoxEditor 에서 empty page고치기/ box 안잡힐때

tif파일에서 box파일로 변환할때 tesseract명령어를 이용했었다. 이때 empty page!라는 오류가 나고, 이 box파일을 jTessBoxEditor로 열었을때 box가 잡히지 않는 경우가 발생한다. 위와 같은 현상이 일어나는 이유는 다양하다. 1. tesseract가 글자를 인식할 수 없다. --->이것 또한 여러가지 이유로 tesseract가 글자를 인식 할 수 없다. tesseract가 글자를 인식할 수 있도록 사진의 조건을 맞춰줘야 한다. 이에 대한 해결방법으로는 사진의 전처리 작업을 해주면 된다. →tesseract에서 권장하는 dpi 값은 300이다. 사진의 dpi를 권장 dpi에 맞춰주면 해결 될 수 있다. →사진이 흐릿하거나 글자가 너무 뚱뚱하다면 여러가지 필터를 씌워보고 좋은 ..

png or jpeg -> tif -> box 변환하기

jTessBoxEditor를 사용하면서 png -> tif -> box 으로 변환하는 과정이 필요했다. 물론 확장자명을 바꾼다고 해결되지 않는다. jTessBoxEditor에서 필요한 tif파일 이름이 정해져있다. ..exp0.tif 의 형식을 맞춰야한다. 예를 들어 나는 이렇게 만들었다. eng.lucidagrande.exp0.tif 이름 형식이 있다는 점을 유의하며 png, jpeg를 tif으로 바꾸자.( 다른형식의 이미지 포맷도 적용되는지는 자세히 모르겠다) terminal에서 command를 이용하자 convert (바꾸려는 사진) -resize (원하는 비율로 설정%) -type (원하는 타입 설정) eng.lucidagrande.exp.tif (형식을 지키는 변환될 파일이름) 이때 resize..

JTessBoxEditor로 이미지 인식하기

tesseract은 OCR엔진이다. OCR이란 광학문자인식으로서 사람이 쓴 글씨나 기계로 인쇄한 문자를 인식하는 기술이다. 나는 영어 손글씨인식이 필요하여 tesseract를 이용하기 시작했다. 하지만 내 예상보다 결과가 너무 별로였다. 컴퓨터에서 작성한 파일은 정말 잘 인식을 했지만 그것을 출력한 인쇄물을 다시 사진으로 찍어 인식시키면 그것부터가 인식률이 매우 낮아지는 것을 알 수 있다. 손글씨 인식에 적합한지는 잘 모르겠다. 하지만 인식률이 낮아서 불만족스럽다면 학습을 시키면 된다는 글들을 보고 일단 시도해보기로 했다. tesseract를 학습시키기 위해 사용한 도구로서 jTessBoxEditor를 이용했다. jTessBoxEidtor는 box파일의 편집을 돕는 도구이다. 비슷한 도구로서 CowBox..

Mac에서 jTessBoxEditor 프로그램 실행하기

tesseract를 사용하여 손글씨 텍스트를 인식하고자 했다. 하지만 tesseract로 손글씨까지 인식하기에는 무리가 있다는 것을 알게되었다.... 그래서 학습을 시켜 손글씨를 잘 인식하도록 시도하고 있다. 영어 손글씨를 위한 data set을 만들기 위해 jtessBoxEditor를 이용하려고 했다. 이 프로그램을 사용하려면 java설치를 해야한다. https://www.java.com/ko/download/ 무료 Java 소프트웨어 다운로드 모든 Java 다운로드 다른 컴퓨터 또는 운영 체제용 Java를 다운로드하려면 아래 링크를 누르십시오. 모든 Java 다운로드 문제 보고 Java 응용 프로그램이 포함된 페이지를 방문할 경우 항상 이 페이지로 재지정되는 이유는 무엇입니까? » 추가 정보 www...