El sistema "reCaptcha" para digitalizar libros
Aunque para muchos puede parecer un engorro, esta utilidad es un sistema de seguridad llamado "reCaptcha" y ayuda a digitalizar libros de forma automática.
Para el mundo de los Libros Antiguos, como comprenderás, es te es un asunto de gran interés, y por ello merece una breve referencia en nuestro blog.
¿A qué nos estamos refiriendo con "sistema de seguridad" cuando hablamos del reCaptcha? Nos referimos a un método cuyo propósito es combatir los mensajes no deseados que abundan tanto en Internet, y al que habitualmente conocemos como spam.
Su creador, el guatemalteco Luis Von Ahn, confiesa que escribirlos roba al menos 10 segundos a las personas y que cada día 200 millones de esos códigos se ingresan en la red. "Eso puede considerarse tiempo perdido y poco productivo", afirma Von Ahn. Sin embargo, las palabras que se copian del código sirven para digitalizar libros para el proyecto de biblioteca digital de Google y viejas ediciones de periódicos, como la del New York Times.
Los lectores digitales son capaces de convertir imagen en texto, pero cuando el libro es muy viejo, a la computadora le cuesta trabajo decidir cuál palabra es la correcta. Así que se requiere de un ser humano y ahí es cuando reCaptcha entra en juego.
Eso quiere decir que cada vez que escribes las palabras del código, ayudas a reconocer esas palabras del libro que se está digitalizando y de donde salió originalmente la expresión.
En realidad este sistema es una extensión de uno anterior llamado Captcha, que solo usaba una palabra como código, mientras que el sistema reCaptcha usa dos palabras: una conocida y otra desconocida para el sistema. La palabra desconocida es una que no pudo ser obtenida de una imagen mediante un sistema OCR automatizado. El sistema pide al usuario (quien desconoce qué palabra es conocida y cuál no lo es) que introduzca ambas palabras como texto. Si la palabra conocida por el sistema es introducida correctamente por un humano, el sistema reCaptcha asume que hay probabilidades altas de que el usuario también haya introducido la palabra desconocida correctamente. Si la palabra desconocida recibe en múltiples ocasiones la misma transcripción humana (traducción de imagen a texto) se considera que esa transcripción es correcta. De esta forma, a la prueba desafío-respuesta utilizada en computación para determinar cuándo el usuario es o no humano se le suma la utilidad de permitir mejorar la digitalización de textos.
No hay comentarios:
Publicar un comentario