Cómo extraer el contenido de una página web

Ampersand

Extraer el contenido de una página web es el primer paso para traducirla y, muchas veces, se trata de un paso crítico: a pesar de que cada día se traducen sitios web en todo el mundo, muchos de ellos no han sido pensados para extraer fácilmente el contenido en un formato editable que permita realizar de forma ágil la traducción de los textos y su posterior carga en el sistema. Como consecuencia, es habitual acabar realizando el temido «copiar y pegar» para enviar a la empresa de traducción un documento Word para traducir y, posteriormente, entregar a los programadores las traducciones en Word para que las incorporen a la página web de forma más o menos manual.

Como es de suponer, este proceso, además de implicar tiempo y recursos, facilita la introducción de errores porque, al tratar manualmente el contenido original y su traducción, es muy posible que nos olvidemos textos o que se introduzca algún error en la traducción. Por ello, a continuación explicamos algunas opciones para extraer el contenido de una página web que pueden ser útiles tanto para el cliente de traducciones como para el traductor:

extraer el contenido de una web

Finalmente, como comentábamos en nuestro post Traducción de páginas web: la importancia del testing, después de introducir el contenido traducido en la web es recomendable realizar un testing para comprobar que todo esté en su sitio: que las opciones (botones, menús, etc.) muestren el texto completo, que los enlaces funcionen, que la longitud del texto traducido no afecte a la presentación de la página web, etc.