Un par de aliases y tips para sacar provecho a ‘wget’

Una de las herramientas que más me gusta cuando trabajo en Linux es Wget, y aunque no trabaje con este sistema operativo, les conté anteriormente que trabajo con Cygwin en Windows, lo que me permite disfrutar de este tipo de herramientas en el sistema de las ventanitas.

RESUMIR DESCARGAS

wget -c http://wwww.dominio.com/archivo.zip

La opción –c permite poder resumir las descarga de un archivo. Si anteriormente estaban descargando archivo.zip y abortaron la descarga (Ctrl+C), la pueden volver a retomar donde se encontraba agregando la opción -c.

LIMITAR LA VELOCIDAD DE DESCARGA

wget --limit-rate=200k http://wwww.dominio.com/archivo.zip

Una de las cosas que me he dado cuenta de wget es que no tiene control en cuanto al ancho de banda que consume, si puede consumirlo todo, lo hará. Con la opción –limit-rate pueden definir el limite de velocidad de descarga. El valor representa los bytes por segundo, por lo que si desean limitar a 200KB/s deben escribir 200k.

DESCARGAR UNA LISTA DE DIRECCIONES

wget -i ~/download.txt

Hace poco estaba descargando desde Modern.IE las máquinas virtuales que ofrecen, y los enlaces de descarga están separados por parte. Me di cuenta que tenían un enlace a un archivo con todas las direcciones de las partes, una por línea. Gracias eso, pude hacer uso de la opción -i e indicar la ruta del archivo con las direcciones a descargar. Wget tomará esas direcciones e irá descargando una por una.

DESCARGAR UNA PÁGINA WEB

wget -p -k http://www.sitio.com/index.html

Si alguna vez quisieron tener una página web de forma on-line incluyendo todos los recursos como imágenes, archivos CSS, JS, etc, lo pueden lograr con Wget. El comando superior descargará la página index.html y todos sus recursos asociados. La opción -p le indica que debe descargar todos los recursos asociados para que la página se despliegue como corresponde de manera local. La opción -k convierte todas las rutas de esos recursos y los adapta a la versión local.

DESCARGAR UN SITIO WEB COMPLETO

wget -m -k -H http://www.sitio.com/

A la diferencia del tip de arriba, con este comando podemos descargar un sitio web completo. Wget se encargará de recorrerlo por completo con la opción -m. Al igual que arriba, con la opción -k convertirá las rutas de los recursos para la visualización local. La opción -H indica que no sólo descargue los elementos que pertenecen a ese domino, si no que si encuentra recursos que pertenecen a otro host, como imágenes enlazadas, también las descargue.

DESCARGAR CON CIERTO USER-AGENT

wget -U 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.1.6) Gecko/20070802 SeaMonkey/1.1.4' http://www.sitio.com/archivo.zip

Hay ciertos servidores que restringen la descarga de archivos si el cliente que intenta acceder no es un navegador, dando un error 403. Para ello, podemos simular serlo agregando un User-Agent y agregando el string correspondiente del navegador que queremos simular a la opción -U.

DESCARGAR UN ARCHIVO EN BACKGROUND

wget -b http://www.sitio.com/archivo.zip

Con la opción -b podemos dejar la descarga del archivo como un proceso de fondo, dejándonos la consola libre para trabajar. Ejecutando esta opción, Wget generará un archivo wget-log en el directorio donde se ejecutó el comando donde se irá escribiendo el proceso de descarga. Podemos utilizar tail -f wget-log para ir viendo su estado.

UN PAR DE ALIASES

Voy a compartir dos alias que utilizo en mi día a día con Wget.

alias download='wget -c -E -P ~/Downloads/'
alias download-list='wget -c -E -P ~/Downloads/ -i ~/download.txt'

He convertido el comando a un nombre más amigable y he agregado ciertas opciones al comando, como siempre poder resumir las descargas y definir que todo quede descargado en la carpeta Downloads de mi usuario. Cuando deseo descargar varios archivos, edito mi archivo download.txt y ejecuto download-list. Aquí aparece una nueva opción que es -E, la cual permite ajustar al extensión del archivo a descargar de acuerdo a su Content-Type, osea, si descargas un archivo llamado archivo.php, el Content-Type que enviará el servidor será text/html por lo cual, al descargarlo, quedará como archivo.html. De igual forma, puedo seguir agregando opciones, como muchas veces limito la velocidad de descarga con download –limit-rate=200k.

FUENTES

Anuncios

Deja un comentario (puedes utilizar Markdown)

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s