El OCR (Optical Character Recognition o Reconocimiento Óptico de Caracteres) convierte imágenes de texto y PDFs escaneados en texto editable. Esta herramienta usa Tesseract.js, un motor de OCR de código abierto que funciona 100% en tu navegador mediante WebAssembly, sin enviar tus documentos a ningún servidor externo. Soporta múltiples idiomas (español, inglés, francés, alemán, italiano, portugués, catalán) y es ideal para digitalizar documentos antiguos, extraer texto de capturas de pantalla, fotografiar pizarras de clase, libros escaneados, recibos, facturas, contratos en papel, notas manuscritas y mucho más.
El resultado es texto editable que puedes copiar al portapapeles, descargar como .txt o como documento Word .docx listo para editar.
El OCR funciona mejor con imágenes nítidas, bien iluminadas y rectas. Si tu foto está torcida, la precisión baja drásticamente. Algunos consejos para maximizar la precisión: encuadra el documento sin perspectiva (cámara perpendicular), evita sombras y reflejos, usa la mayor resolución posible (mín. 300dpi para documentos impresos), corta los márgenes innecesarios. Para texto manuscrito, Tesseract.js tiene precisión limitada — funciona mejor con caligrafía clara y separada. Si es un PDF escaneado de mala calidad, prueba a aumentar el contraste con nuestra herramienta de "Brillo y contraste" antes de pasarlo por OCR.
El OCR es esencial cuando necesitas convertir documentos en papel a formato digital editable: viejos contratos escaneados de hace décadas, libros antiguos sin versión digital, recibos para llevar la contabilidad, capturas de pantalla con texto importante, fotos de pizarras de clase, manuscritos familiares, facturas en papel para introducir datos en hojas de cálculo, código fotografiado en una pantalla de presentación, etiquetas de productos para catalogar, datos de ID extraídos de un pasaporte (pero siempre ten cuidado con la información sensible), captura de subtítulos de un vídeo, transcripción de conferencias fotografiadas, etc. Con esta herramienta, todo eso se queda en tu navegador y nunca pasa por ningún servidor.
Imágenes en JPG, PNG, WebP, BMP, GIF y archivos PDF (incluso si son escaneados). En PDFs procesa cada página por separado y devuelve el texto consolidado.
Sí. Tesseract.js es una librería JavaScript que ejecuta el reconocimiento óptico dentro de tu navegador con WebAssembly. Ni la imagen ni el PDF se envían a ningún servidor.
La primera vez que usas un idioma se descarga el modelo de reconocimiento (~5MB). Las siguientes veces va al instante porque el navegador lo cachea.
Excelente con texto impreso de buena calidad (>95% en condiciones normales). Con texto manuscrito o imágenes muy borrosas la precisión baja. Para mejores resultados, asegúrate que la imagen esté nítida, recta y con buen contraste.
Español, inglés, francés, alemán, italiano, portugués y catalán. También combinaciones como Español + Inglés para documentos bilingües.
Sí. Puedes copiarlo al portapapeles, descargarlo como archivo .txt o como documento Word .docx editable.