martes, 5 de octubre de 2010

El sistema "reCaptcha" para digitalizar libros

Mira la imagen de la izquierda. ¿Te has encontrado alguna vez en Internet con este tipo de códigos que hay que escribir cada vez que se rellena un formulario?

Aunque para muchos puede parecer un engorro, esta utilidad es un sistema de seguridad llamado "reCaptcha" y ayuda a digitalizar libros de forma automática.

Para el mundo de los Libros Antiguos, como comprenderás, es te es un asunto de gran interés, y por ello merece una breve referencia en nuestro blog.

¿A qué nos estamos refiriendo con "sistema de seguridad" cuando hablamos del reCaptcha? Nos referimos a un método cuyo propósito es combatir los mensajes no deseados que abundan tanto en Internet, y al que habitualmente conocemos como spam.

Al escribir el código mostrado en una página, el usuario le está diciendo al sitio web donde está el formulario que se trata de un humano y no de un robot que quiere mostrar mensajes molestos o publicitarios no deseados.

Su creador, el guatemalteco Luis Von Ahn, confiesa que escribirlos roba al menos 10 segundos a las personas y que cada día 200 millones de esos códigos se ingresan en la red. "Eso puede considerarse tiempo perdido y poco productivo", afirma Von Ahn. Sin embargo, las palabras que se copian del código sirven para digitalizar libros para el proyecto de biblioteca digital de Google y viejas ediciones de periódicos, como la del New York Times.

Los lectores digitales son capaces de convertir imagen en texto, pero cuando el libro es muy viejo, a la computadora le cuesta trabajo decidir cuál palabra es la correcta. Así que se requiere de un ser humano y ahí es cuando reCaptcha entra en juego.

Eso quiere decir que cada vez que escribes las palabras del código, ayudas a reconocer esas palabras del libro que se está digitalizando y de donde salió originalmente la expresión.

En realidad este sistema es una extensión de uno anterior llamado Captcha, que solo usaba una palabra como código, mientras que el sistema reCaptcha usa dos palabras: una conocida y otra desconocida para el sistema. La palabra desconocida es una que no pudo ser obtenida de una imagen mediante un sistema OCR automatizado. El sistema pide al usuario (quien desconoce qué palabra es conocida y cuál no lo es) que introduzca ambas palabras como texto. Si la palabra conocida por el sistema es introducida correctamente por un humano, el sistema reCaptcha asume que hay probabilidades altas de que el usuario también haya introducido la palabra desconocida correctamente. Si la palabra desconocida recibe en múltiples ocasiones la misma transcripción humana (traducción de imagen a texto) se considera que esa transcripción es correcta. De esta forma, a la prueba desafío-respuesta utilizada en computación para determinar cuándo el usuario es o no humano se le suma la utilidad de permitir mejorar la digitalización de textos.

Genericas Image Banner 336 x 280
Loading...