Portalnet Photo Extractor [Python 3][Web Scraper]

freishner · 18 Mayo 2022

Alguien por ahí me pidió (sí, los hago a pedido :santo

) éste script para bajarse fotos de acáp (entre bajo su riesgo).
Yo se que mas de alguno por acá tiene la ilusión de guardar las fotiwis de las nudes, así que se los dejo de regalo, total ya está pagado el trabajo y me da no se qué dejarlo ahí tirado, a parte que se que a varios les gusta/intriga el web scraping

Advertencia:

No me hago responsable de nada, Úselo con responsabilidad. No lo use en el compu de la pega. Ni en el de la pareja.

Versión de Python: 3.8 (no he probado anteriores)
Módulos necesarios:

lxml
requests

Instrucciones para sistemas basados en debian (debian, ubuntu, mate...)

Instalar Python LXML

Bash:

sudo apt-get install python3-lxml

Instalar módulo Requests

Bash:

pip3 install requests

Instalar módulo CSS Select

Bash:

pip3 install cssselect

Uso:

Es una herramienta CLI, tiene 2 parámetros, el nombre de la carpeta donde se guardará todo, y la url. Además en el source tiene que asignarle una carpeta a la variable packsFolder en la línea 8, para que todos los "packs" se guarden en un lugar definido.

Si hizo todo bien la ejecución debería ser algo así:

Luego, como tenemos configurada la carpeta img para guardar los packs, se debería ver algo así:

¿Cuanto cuesta algo así?

El cliente pagó 80K. Y estuvo entre el almuerzo y la once. (Para saciar su curiosidad).

PD: No baja fotos de instagram... ese no es gratis (y esa cazuela se está cocinando todavía)...
PD2: Se viene el medio asado el fin de semana :xd

Source

Python:

# -*- coding: utf-8 -*-
from lxml import html
from os import mkdir
from os.path import basename, exists
from sys import argv
from requests import get
# SETUP PACKS FOLDER HERE
packsFolder = './img/'
def run():
    if len(argv) < 3:
        print('[ERROR] Folder name not given!')
        print('[ERROR] Portalnet.cl url not given!')
        exit()
      
    if not 'https://www.portalnet.cl/temas/' in argv[2]:
        exit('[ERROR] Given URL do not match to Portalnet.cl!')
      
    packOutFolder = f"{packsFolder}{argv[1]}"
  
    # ADD / AT END OF PATH
    if packOutFolder[-1] != '/':
        packOutFolder += '/'
      
    # CREATE FOLDER
    if not exists(packOutFolder):
        print(f"[INFO] Creating: '{packOutFolder}'...", end='')
        mkdir(packOutFolder)
        print('[DONE]')
    # REQUEST HTML
    r = get(argv[2])
    if r.status_code == 200:
        dom = html.fromstring(r.text)
        imgList = dom.cssselect('#messageList')[0] \
            .cssselect('li')[0] \
            .cssselect('blockquote.messageText')[0] \
            .cssselect('img.bbCodeImage')
        imgLinks = [img.get('data-src') for img in imgList]
      
        # DOWNLOAD PHOTOS
        if len(imgLinks) > 0:
            print(f"[INFO] {len(imgLinks)} photos found!")
          
            for imgLink in imgLinks:
                imgName = f"{packOutFolder}{basename(imgLink)}"
              
                print(f"[INFO] Downloading: {imgLink}...", end='')
              
                # AVOID IF ALREADY EXISTS
                if exists(imgName):
                    print('[AVOID: ALREADY EXISTS!]')
                    continue
              
                with get(imgLink, stream=True) as imgR:
                    if imgR.status_code == 200:
                        with open(imgName, 'wb') as imgFile:
                            for chunk in imgR.iter_content(chunk_size=8192):
                                imgFile.write(chunk)
                        print('[COMPLETE]')
                    else:
                        print(f"[ERROR: HTTP CODE {imgR.status_code}]")
        else:
            print('[INFO] No photos found in first thread!')
              
    else:
        exit("\n[ERROR] HTTP_CODE: " + r.status_code)
      
# CLI PARAMETERS
# 1: FOLDER NAME INSIDE packsFolder
# 2: PORTALNET LINK
if __name__ == '__main__':
    try:
        run()
    except KeyboardInterrupt as e:
        print('\n\n...Aborted!')

tglaria · 18 Mayo 2022

Vamos a echarle un vistazo al codigo.

Hace rato que ando con ganas de aprender webscrapping.

freishner · 18 Mayo 2022

tglaria dijo:
Vamos a echarle un vistazo al codigo.

Hace rato que ando con ganas de aprender webscrapping.

Dale una mirada al módulo lxml, la gracia del web scraping es parsear el dom y mirar con el inspector de código para hacer los requests que hagan falta.

Tambien está Selenium para Python. Es para hacer pruebas, pero tambien sirve como scraper.

buhoblue · 18 Mayo 2022

será posible algún videito simple de como poder hacerlo? Si no es mucha la patudes.

tglaria · 18 Mayo 2022

@freishner
En Windows, hay que instalar el paquete 'cssselect' para que funcione.

Personalmente estoy acostumbrado a usar nombres más descriptivos para las variables.
Consulta, ¿no sería mejor usar hebras para la descarga de imágenes?
Encuentro lento el descargarlas una tras otra de manera secuencial.

Por cierto, no funciona cuando la ruta de las fotos tienen argumentos/parámetros en su enlace (e.g.: url_foto.png?width=1024)

buhoblue dijo:
será posible algún videito simple de como poder hacerlo? Si no es mucha la patudes.

¿ No será mucho ?

freishner · 18 Mayo 2022

@tglaria

tglaria dijo:
En Windows, hay que instalar el paquete 'cssselect' para que funcione.

En Linux tambien, si no lo mencionas ni me acuerdo.

tglaria dijo:
Personalmente estoy acostumbrado a usar nombres más descriptivos para las variables.

Me vendría bien un ejemplo.

tglaria dijo:
Personalmente estoy acostumbrado a usar nombres más descriptivos para las variables.
Consulta, ¿no sería mejor usar hebras para la descarga de imágenes?
Encuentro lento el descargarlas una tras otra de manera secuencial.

Sí, de hecho se puede implementar un ThreadPool con ThreadPoolExecutor (módulo concurrent.futures), pero eso quedará para cuando el cliente diga que es lento y abra la posibilidad de una actualización. Lo hubiera hecho mas lento, pero se notaría :xd

tglaria dijo:
Por cierto, no funciona cuando la ruta de las fotos tienen argumentos/parámetros en su enlace (e.g.: url_foto.png?width=1024)

¿Me podrías pasar la url en específico que intentaste descargar?

buhoblue dijo:
será posible algún videito simple de como poder hacerlo? Si no es mucha la patudes.

No lo veo muy viable, sólo los hago para la clientela en formato paso a paso como capacitación.

ricm · 18 Mayo 2022

Por curiosidad, pq los textos son en inglés y no español?

frosstatx · 18 Mayo 2022

Contruyo cosas parecidas en ruby + watir, quedan piolas en modo headless

tglaria · 18 Mayo 2022

ricm dijo:
Por curiosidad, pq los textos son en inglés y no español?

olvidé consultar eso mismo...

tglaria · 19 Mayo 2022

freishner dijo:
Me vendría bien un ejemplo.

Leyendo con más calma, creo que es sólo para un par de casos (que para esta aplicación no es realmente relevante): las variables <r> y <imgR>. Pero es tan acotado su uso que es irrelevante para este caso.

freishner dijo:
¿Me podrías pasar la url en específico que intentaste descargar?

Las de este enlace.
El error se produce al querer guardar el archivo en Windows.
Quizá en linux no ocurre el problema.

freishner · 19 Mayo 2022

frosstatx dijo:
Contruyo cosas parecidas en ruby + watir, quedan piolas en modo headless

Vi que tienen soporte para Python, lo voy a probar.

ricm dijo:
Por curiosidad, pq los textos son en inglés y no español?

tglaria dijo:
olvidé consultar eso mismo...

Fué solicitud del cliente.

tglaria dijo:
<r> y <imgR>

Ambas variables corresponden a una respuesta de un request. Son abreviaciones de response e imagenResponse respectivamente.

tglaria dijo:
Las de este enlace.
El error se produce al querer guardar el archivo en Windows.
Quizá en linux no ocurre el problema.

Ya sé a lo que te refieres. Gracias

Portalnet Photo Extractor [Python 3][Web Scraper]

freishner

Pro

tglaria

InExperto

freishner

Pro

buhoblue

Casi-gamer

tglaria

InExperto

freishner

Pro

ricm

☭

frosstatx

AMD EX-NV Y LINUX FANBOY

tglaria

InExperto

tglaria

InExperto

freishner

Pro