Google+ Seguidores

domingo, 13 de mayo de 2018

DuCrawler - Extractor de Imágenes de Google Automático


Hola amigos de Internet, mi nombre es Luis y les doy la bienvenida nuevamente a Mi Diario Phython.

En el día de hoy les mostrare un proyecto que me he encontrado en github. DuCrawler, cuyo objetivo es extraer imágenes de google de forma automática.

Imagen relacionada

DuCrawler es un proyecto realizado por “Ruofei Du” y puedes descargarlo ingresando al siguiente enlace: https://github.com/ruofeidu/DuCrawler.

DuCrawler:

¿Qué les parece si vemos el código de este proyecto y luego lo probamos? De esta manera vemos los procedimientos que realiza y al mismo tiempo aprendemos.

Hay dos scripts, “crawler_google” y “crawler_bing”. En el caso de hoy, analizaremos a “crawler_google”.

 

Lo primero que vemos al abrir el código, son los modulos que se utilizaran. Como pueden observar se hace uso de “BeautifulSoup”, “Requests”,“OpencCv (cv2)” y otros modulos de la librería estándar de Python.
También podemos ver el nombre del creador del script.
Seguido de esto vemos una clase llamada “Paras”. Como pueden apreciar, al principio de la clase se declaran 12 variables. Estas variables son parámetros que la búsqueda utilizara. Se pueden observar: el nombre de la carpeta en donde se descargaran las imágenes (Result), el keywords_file el cual es el archivo en donde escribiremos las palabras claves de la búsqueda, y otros valores.


En la clase “Para”, también tenemos el método “search_google”, el cual realizara el procedimiento de búsqueda de las imágenes.
Muy bien, no seguiré mostrando la clase, pasare directamente al uso de la misma. Si quieren ver todos los métodos de la clase “Para”, recuerden que pueden descargar el script ingresando al siguiente enlace: https://github.com/ruofeidu/DuCrawler.

Sabemos que la clase “Para” es la estrella de este proyecto, pero ¿Cómo utilizarla? Te lo mostrare en seguida. Antes, quiero mostrarles el contenido del archivo “config_google.ini” el cual se encuentra en la carpeta junto con el script “crawler_google.py”:


Que les parece si lo abrimos:


Este archivo contiene información que ayudara al script hacer su trabajabo. Vemos las cabeceras de las búsquedas, el título del archivo que contiene las palabras claves, el nombre de la carpeta que contendrá las imágenes, el número máximo de resultados y otros valores, que pueden cambiar a voluntad.

Ahora, podemos como utilizar la clase. Pueden crear un archivo nuevo y vacío y realizar el procedimiento que verán ahora, por supuesto, si lo harán en otro archivo, deben de importar este script.


Perfecto. Lo primero que se ve es el __name__ == “__main__”, esto permite ejecutar el script a aunque este sea una clase. Creo que no se me explicar muy bien, así que si tienen duda, saben que pueden dejar un comentario.

Perfecto, vemos que se hace uso de “configparse” para abrir el archivo con formato “.ini” el cual contiene los parámetros de la configuración.

Luego vemos que se cambian los valores de los atributos de la clase.
¿Qué les parece si ejecutamos el script?

Antes les sugiero que vean el archivo “keywords.txt” el cual contiene la palabras claves de la búsqueda, cámbienla a su gusto.


Ejecutamos el script, y el proceso empezara. Se creara una carpeta llamada “Result” y dentro de esta carpeta se creara otra carpeta cuyo nombre será el de la palabra clave que hayas ingresado en el archivo “keywords.txt”. La palabra clave que yo ingrese fue “Pirámides de Egipto”.

Mi resultado será el siguiente:


Muy bueno ¿No crees? El proceso no dejara de descargar imágenes hasta llegar a los 1000 resultados.

¿Qué te pareció? Interesante ¿Verdad? Y muy útil.
Recuerda que puedes descargar este proyecto ingresando al siguiente enlace: https://github.com/ruofeidu/DuCrawler.

No hay comentarios :
Write comentarios

Tu comentario es importante y nos motiva a seguir escribiendo...

Powered by Blogger .