OpenCV 4

tesseract, jTessBoxEditor 에서 empty page고치기/ box 안잡힐때

tif파일에서 box파일로 변환할때 tesseract명령어를 이용했었다. 이때 empty page!라는 오류가 나고, 이 box파일을 jTessBoxEditor로 열었을때 box가 잡히지 않는 경우가 발생한다. 위와 같은 현상이 일어나는 이유는 다양하다. 1. tesseract가 글자를 인식할 수 없다. --->이것 또한 여러가지 이유로 tesseract가 글자를 인식 할 수 없다. tesseract가 글자를 인식할 수 있도록 사진의 조건을 맞춰줘야 한다. 이에 대한 해결방법으로는 사진의 전처리 작업을 해주면 된다. →tesseract에서 권장하는 dpi 값은 300이다. 사진의 dpi를 권장 dpi에 맞춰주면 해결 될 수 있다. →사진이 흐릿하거나 글자가 너무 뚱뚱하다면 여러가지 필터를 씌워보고 좋은 ..

png or jpeg -> tif -> box 변환하기

jTessBoxEditor를 사용하면서 png -> tif -> box 으로 변환하는 과정이 필요했다. 물론 확장자명을 바꾼다고 해결되지 않는다. jTessBoxEditor에서 필요한 tif파일 이름이 정해져있다. ..exp0.tif 의 형식을 맞춰야한다. 예를 들어 나는 이렇게 만들었다. eng.lucidagrande.exp0.tif 이름 형식이 있다는 점을 유의하며 png, jpeg를 tif으로 바꾸자.( 다른형식의 이미지 포맷도 적용되는지는 자세히 모르겠다) terminal에서 command를 이용하자 convert (바꾸려는 사진) -resize (원하는 비율로 설정%) -type (원하는 타입 설정) eng.lucidagrande.exp.tif (형식을 지키는 변환될 파일이름) 이때 resize..

JTessBoxEditor로 이미지 인식하기

tesseract은 OCR엔진이다. OCR이란 광학문자인식으로서 사람이 쓴 글씨나 기계로 인쇄한 문자를 인식하는 기술이다. 나는 영어 손글씨인식이 필요하여 tesseract를 이용하기 시작했다. 하지만 내 예상보다 결과가 너무 별로였다. 컴퓨터에서 작성한 파일은 정말 잘 인식을 했지만 그것을 출력한 인쇄물을 다시 사진으로 찍어 인식시키면 그것부터가 인식률이 매우 낮아지는 것을 알 수 있다. 손글씨 인식에 적합한지는 잘 모르겠다. 하지만 인식률이 낮아서 불만족스럽다면 학습을 시키면 된다는 글들을 보고 일단 시도해보기로 했다. tesseract를 학습시키기 위해 사용한 도구로서 jTessBoxEditor를 이용했다. jTessBoxEidtor는 box파일의 편집을 돕는 도구이다. 비슷한 도구로서 CowBox..