Mostrando entradas con la etiqueta Descomntando Sitios Web con HHtrack. Mostrar todas las entradas
Mostrando entradas con la etiqueta Descomntando Sitios Web con HHtrack. Mostrar todas las entradas

martes, 6 de octubre de 2009

DESMONTANDO Y ESPIANDO SITIOS WEB CON HTTRACK

HTTrack Website Copier es un potente software que trabaja On-Line desde Internet (Conectado a Internet) y que nos permite hacer cosas muy interesantes como por ejemplo descargar una página web completa, y cuando digo completa, me refiero a completa para así poder analizar todo su contenido tranquilamente desde nuestro disco duro, sin la necesidad de estar constantemente conectado a Internet. Este software, que es completamente gratis, y que podéis visitar en esta dirección web http://www.httrack.com/ , tiene la ventaja de que se puede usar de muchas formas incluso también con otros propósitos menos elegantes.

Yo voy a explicar sin ninguna censura como he usado durante años este software, que he hecho con él y que he conseguido con su empleo en internet. Empezare por comentar el caso tipico. Muchas veces una página web tiene restricciones, es decir, tiene una zona de acceso privado con un Login y un password para que entren los usuarios. Normalmente en estas zonas se suelen almacenar funciones extra tales como; los archivos que solo te puedes descargar si te registras y te haces miembro del sitio web, asunto que no siempre puede gustarte especialmente si solo deseas bajar algún software, un libro, un serial, un Keygen, una medicina, o lo que sea. En otros casos la web que nos interesa contiene archivos de fotos que son muy atractivos y que nos gustaría tener para usarlas en otras cosas, o tiene libros en PDF, o quizá música en Mp3, videos, o cualquier otro material que pudiera interesarnos.


QUE SE PUEDE HACER CON HTTrack

Bueno, pues te pondre algunos ejemplos que yo he usado alguna vez. Si te descargas HTTrack, te lo instalas y lo configuras como lo ves aquí, tu puedes ir a una página web porno y bajarte toda la web completa y cuando finalice el proceso, ir al Disco duro de WindowsXP o Vista o Windows7, y abrirla carpeta con la copia exacta de ese sitio web, y con mucha tranquilidad y paciencia, ir desmotando poco apoco todo el sitio (Es un poco entretenido pero el resultado es muchas veces muy satisfactorio) hasta logar tener a tu alcance todo ese material que tu deseabas. Un importante cuestión que debo comentar que solo podrás bajar estos materiales si el web máster no es muy cuidadoso y dedicado a su profesion, ya que hay casos donde todo este maerial esta baneado impidiendo que HHTrack se haga copias de texto, fotos, flashplayers, y quizá de archivos internos, y la segunda cuestión es que solo podrá bajarte estos materiales si están alojados en el mismo sitio web del servidor.

Normalmente tras haber conectado HHTrack a un sitio y descargarlo si se trata de fotos, pues las encontraras en una carpeta que casi siempre se denomina “Images”; lo digo por si tu debilidad son las fotos porno. El resto de los materiales puede ser un poco más complicado, porque no hay un claro indicador de donde está alojado este material, ya que cada web máster al hacer la pagina puede crear una carpeta con el nombre de Files, o Stuff, o incluso el nombre que él quiera. Esto te obligara a tener que recorrer carpeta por carpeta hasta el final y comprovar que contiene y así saber por eliminación sistemática, donde estará oculto el material que buscas.

Estos son algunas de las aplicaciones pero tiene otras muchas más utilidades especialmente interesantes para los que quieren hacerse una página web sin casi esforzarse y sin que les cobren una fortuna por diseñársela. Te buscas una web o un blog que te guste, lo pones en el punto de mira de HTTrack, y a continuación te lo bajas completo. Después de un paciente proceso de considerable investigación del site web que te has bajado, y eliminando la escoria de carpetas que no son del dominio central del sitio web, tomas un Editor de páginas Web como el Dreamweaver, o el FrontPage de Microsoft, y modificas la pagina a tu entero gusto. Como normalmente los que diseñan estas páginas se valen de templates, (Plantillas web) y estas o bien son gratis, o bien son de pago, cualquiera comprar una pero con HHTrack solo tienes que modificarla y adaptarla a tus necesidades. Si, ya lo sé, esto se llama piratear, pero siempre que no hagas un Website exacto, es decir, un Phising y lo uses tal cual puedes usar una página web de las muchas que hay en Internet.


COMO USAR HHTrack PARA DESMONTAR UNA WEB DE INTERNET

Bueno como paso previo, primero debes ir la web oficial de HHTrack y descargar la versión para WindowsXP. Después la instalas pulsando dos veces el ejecutable exe que contiene el softwere y le seleccionas inmediatamente el idioma con la opción “Castellano, o el idioma d tu pais” para poder tener una mejor operatividad con la configuracion. El paso siguiente es cerrar el programa y reiniciarlo Una vez que arranque veras el programa HHTrack en tu idioma ya que dispones de varios. Con el software otra vez funcionando, seleccionas “Siguiente” y llegaras un nuevo panel. Aparentemente los paneles producen una cierta sensacion de complejidad; de hecho algunas partes de este softwere si son complicadas, pero en el resto de paneles y a menos que seas muy exigente con solo marcar unas pocas opciones obtendras un buen resultado y una descarga del sitio excelente.


En el siguiente panel debes insertar el nombre del proyecto. Para que lo entiendas facilmente, el nombre del proyecto se refiere al nombre que le darás a la carpeta donde quieres que se descargue la pagina web que tu pretendes bajar desde internet. Luego le colocas una etiqueta, que en este caso será un sitio web aunque si se trata de un blog debes poner Blog. En el apartado “Ruta Base” tú puedes elegir en que unidad de disco duro quieres que esta carpeta denominada proyecto se aloje. Como ejemplo, si tienes dos discos duros, y quieres que la carpeta como la que ves aquí WEB MICROSOFT se aloje en tu segundo disco duro E:\ pues sustituyes la unidad C:\ por la unidad E:\. Una vez configurado esto nos vamos pulsando siguiente a una nueva pantalla.


En nuestra siguiente pantalla ya tenemos algunas opciones más que configurar. Lo primero que vamos a hacer es insertar donde indica Dirección Web URL, la dirección de la pagina web que deseamos que nos copie y nos baje desde Internet, que en este caso y para demostración hemos puesto la de tío Bill, que es la de Microsoft. En la pestaña Acción, seleccionaremos copiar todas las páginas del sitio (Copia Múltiple). Con esto conseguimos que HHTrack se infiltre en todas las paginas que componen el sitio web que deseamos copiar. Continuando con la configuración (Ya sé que es un poco molesto hacerlo) pero si al comienzo configuramos correctamente estas opciones, los resultados serán en un 90% de las veces muy buenos o tendrán éxito completo, mientras que habrá un 10% aproximadamente en que solo se copiara lo que el administrador web permita y no tenga baneado.


Pulsamos en Definir las Opciones y en esta pantalla aparecerá un sub panel donde veremos varias opciones que habra de ajustar para lograr que el sitio web que queremos copiar lo haga completamente. Aquí vamos a recorrer varias pestañas para configurar óptimamente nuestra descarga. La primera pestaña, filtro sirve para seleccionar que tipo de archivos deseas que se bajen, y como ya puedes ver están representados casi todos. Si tu intención es bajarlos todos, pues marcas todos, pero si solo te interesan un tipo concreto de archivos, marca el que desees y deja en blanco el resto. Una vez marcados, pulsa el botón aceptar enlaces, y selecciona TODOS LOS ENLACES, y eso permitira al HHTrack que tenga en cuenta todos los links que existan relacionados con el sitio, bien del propio sitio como los que son de otros sitios.


La siguiente pestaña es algo más simple y solo tienes que marcar tres de las cuatro opciones, que son las siguientes; intentar detectar todos los enlaces que te permitira que HHTrack rastree toda la web por dentro, la siguient opcion es capturar todos los ficheros lo que te permitira localizar cualquier fichero ocuto que exista alojado en ese sitio web; bien sea videos, peliculas, Mp3, Imagenes, textos, Zip, Rar; PDF, y en general cualquier material que el Administrador no haya restringido o prohibido (Baneado) expresamente, y por ultimo la opcion comprobar todos los enlaces incluso los prohibidos, que es lo mas util puesto que traspasa zonas donde hay materiales que podrian ser descargados pero que si HHTrack si los descubre y no hay reglas establecidas puede bajarlos. Después de haber configurados estas opciones, pulsa aceptar y entraras en siguiente panel.


En este panel hay que seleccionar no conectar con el proveedor (Conexión ya establecida) y listo. Si tu sistema de navegacion es un Moden Router ADSL conectado de forma directa al cable telefonico y por un cable LAN a un conector RJ45 a uno de los pruertos del router, esta sera la opcion. Existe la posiblidad de navegar detras de un Servidor proxy que tu previamente hayas ya examidado. Esta opcion es la que usan muchos paranoicos precisamente para evitar dejar rastros y pistas de sus numeros IP verdaderos en los servidores donde pretenden copiar la pagina web, ya que queda registrado toda la actividad, y eso les permite estar ocultos y no ser traceados. Ahora que ya sabes todo esto, siéntate y espera, que la descarga de la pagina web puede llevar cerca de una hora o más, dependiendo de lo grande que sea el sitio, del ancho de banda que tengas y de si estas conectado al Bittorrent o emule, o cualquier otro software que consuma velocidad.


Aquí podéis ver la descarga del sitio de Microsoft, que es un éxito, y HHTrack bajara la pagina web completa si nadie de Microsoft se lo impide. Debo advertir como nota final, que muchos Administradores de sitios Web de Internet estan al corriente de estas practicas, y si estan monitorizando el trafico con alguna potente herramienta Linux, y detectan una conexion de una IP por un tiempo prolongado, en la que ademas se esta produciendo una actividad sospechosa en la que se incluyen descargas de archivos, el Administrador puede automaticamente forzar remotamente la desconexion del HHTrack. Esto lo comento porque si notais que se desconecta con relativa frecuencia, es que el Administrador os esta Baneando y tendreis que usar el ingenio para engañarle y poder bajar la pagina sin interrupciones.


LinkWithin

Related Posts Plugin for WordPress, Blogger...