Extreure el contingut d’una pàgina web és el primer pas per traduir-la i, moltes vegades, es tracta d’un pas crític: malgrat que cada dia es tradueixen llocs web a tot el món, molts no han estat pensats perquè se’n pugui extreure fàcilment el contingut en un format editable que permeti traduir els textos d’una manera àgil i carregar-los posteriorment al sistema. A conseqüència d’això, és habitual acabar fent la temuda acció de «copia i enganxa» per enviar a l’empresa de traducció un document Word per traduir i, després, lliurar als programadors les traduccions en Word perquè les incorporin a la web d’una manera més o menys manual.
Com podem suposar, aquest procés, a més d’implicar temps i recursos, facilita la introducció d’errors perquè, com que es tracta manualment el contingut original i la traducció, és molt possible que ens descuidem textos o que introduïm algun error a la traducció. Per això, tot seguit expliquem algunes opcions per extreure el contingut d’una pàgina web que poden ser útils tant per al client de traduccions com per al traductor:
- Extracció directa des del gestor de continguts. Si la pàgina web funciona amb un gestor de continguts (per exemple, WordPress o Blogspot) és molt probable que hi hagi l’opció d’extreure el contingut en un arxiu editable. Un dels més habituals és el format XML, tot i que determinats gestors permeten exportar el contingut a arxius XLIFF o Excel. En el cas de WordPress, per exemple, només cal fer uns quants clics i podrem exportar el contingut a format XML i reimportar el corresponent a entrades, comentaris, camps personalitzats, categories i etiquetes. Aquests arxius poden ser processats per l’agència de traducció, que pot traduir-los i retornar-los en aquest mateix format, de manera que l’usuari només ha d’importar el fitxer i s’estalvia el procés de remaquetació. En el cas de gestors de continguts més avançats, també és habitual la possibilitat d’extreure els continguts en un arxiu XML o d’altres formats (XLIFF, Excel), però és necessari contactar amb el programador del vostre gestor de continguts perquè us assessori sobre com podeu fer-ho.
- Extreure el contingut d’un web mitjançant un gestor de descàrregues. Hi ha programes que permeten descarregar els continguts d’un lloc web. Amb aquests programes és possible descarregar els arxius HTML, PDF, PNG, JPG, etc., ubicats en un lloc HTTP. Una vegada descarregats els continguts que volem traduir només és necessari facilitar aquests arxius a l’agència de traducció perquè en faci la traducció i ens la torni en el mateix format, per tal que el programador carregui al nostre web directament el nou contingut.
- Extracció en fitxers PO. La majoria de les aplicacions de software lliure (per exemple, Drupal o WordPress) fan servir arxius d’extensió PO, que són arxius de text estructurat. Algunes agències de traducció professional, com ara Ampersand Traduccions, treballen amb eines de traducció assistida que permeten editar arxius PO i lliurar les traduccions en aquest mateix format, per la qual cosa si heu de traduir aquests arxius PO només caldrà que els faciliteu a la vostra agència de traducció.
Finalment, tal com comentàvem la nostra entrada Traducció de pàgines web: la importància del testing, després d’introduir el contingut traduït al lloc web és recomanable fer un testing per comprovar que tot sigui al seu lloc: que les opcions (botons, menús, etc.) mostrin el text complet, que els enllaços funcionin, que la longitud del text traduït no afecti la presentació de la web, etc.