TIF 2

tesseract, jTessBoxEditor 에서 empty page고치기/ box 안잡힐때

tif파일에서 box파일로 변환할때 tesseract명령어를 이용했었다. 이때 empty page!라는 오류가 나고, 이 box파일을 jTessBoxEditor로 열었을때 box가 잡히지 않는 경우가 발생한다. 위와 같은 현상이 일어나는 이유는 다양하다. 1. tesseract가 글자를 인식할 수 없다. --->이것 또한 여러가지 이유로 tesseract가 글자를 인식 할 수 없다. tesseract가 글자를 인식할 수 있도록 사진의 조건을 맞춰줘야 한다. 이에 대한 해결방법으로는 사진의 전처리 작업을 해주면 된다. →tesseract에서 권장하는 dpi 값은 300이다. 사진의 dpi를 권장 dpi에 맞춰주면 해결 될 수 있다. →사진이 흐릿하거나 글자가 너무 뚱뚱하다면 여러가지 필터를 씌워보고 좋은 ..

png or jpeg -> tif -> box 변환하기

jTessBoxEditor를 사용하면서 png -> tif -> box 으로 변환하는 과정이 필요했다. 물론 확장자명을 바꾼다고 해결되지 않는다. jTessBoxEditor에서 필요한 tif파일 이름이 정해져있다. ..exp0.tif 의 형식을 맞춰야한다. 예를 들어 나는 이렇게 만들었다. eng.lucidagrande.exp0.tif 이름 형식이 있다는 점을 유의하며 png, jpeg를 tif으로 바꾸자.( 다른형식의 이미지 포맷도 적용되는지는 자세히 모르겠다) terminal에서 command를 이용하자 convert (바꾸려는 사진) -resize (원하는 비율로 설정%) -type (원하는 타입 설정) eng.lucidagrande.exp.tif (형식을 지키는 변환될 파일이름) 이때 resize..