Descargar una imagen a través de urllib y python

Resuelto Mike asked hace 14 años • 0 respuestas

Así que estoy intentando crear un script en Python que descargue cómics web y los coloque en una carpeta en mi escritorio. Encontré algunos programas similares aquí que hacen algo similar, pero nada parecido a lo que necesito. El que encontré más similar está aquí ( http://bytes.com/topic/python/answers/850927-problem-using-urllib-download-images ). Intenté usar este código:

>>> import urllib
>>> image = urllib.URLopener()
>>> image.retrieve("http://www.gunnerkrigg.com//comics/00000001.jpg","00000001.jpg")
('00000001.jpg', <httplib.HTTPMessage instance at 0x1457a80>)

Luego busqué en mi computadora un archivo "00000001.jpg", pero todo lo que encontré fue su imagen almacenada en caché. Ni siquiera estoy seguro de que haya guardado el archivo en mi computadora. Una vez que comprendo cómo descargar el archivo, creo que sé cómo manejar el resto. Básicamente, simplemente use un bucle for y divida la cadena en '00000000'.'jpg' e incremente '00000000' hasta el número más grande, que tendría que determinar de alguna manera. ¿Alguna recomendación sobre la mejor manera de hacer esto o cómo descargar el archivo correctamente?

¡Gracias!

EDITAR 15/06/10

Aquí está el script completo, guarda los archivos en cualquier directorio que elija. Por alguna extraña razón, los archivos no se descargaban y simplemente lo hicieron. Cualquier sugerencia sobre cómo limpiarlo será muy apreciada. Actualmente estoy trabajando en cómo descubrir que existen muchos cómics en el sitio para poder obtener sólo el último, en lugar de cerrar el programa después de que se genere una cierta cantidad de excepciones.

import urllib
import os

comicCounter=len(os.listdir('/file'))+1  # reads the number of files in the folder to start downloading at the next comic
errorCount=0

def download_comic(url,comicName):
    """
    download a comic in the form of

    url = http://www.example.com
    comicName = '00000000.jpg'
    """
    image=urllib.URLopener()
    image.retrieve(url,comicName)  # download comicName at URL

while comicCounter <= 1000:  # not the most elegant solution
    os.chdir('/file')  # set where files download to
        try:
        if comicCounter < 10:  # needed to break into 10^n segments because comic names are a set of zeros followed by a number
            comicNumber=str('0000000'+str(comicCounter))  # string containing the eight digit comic number
            comicName=str(comicNumber+".jpg")  # string containing the file name
            url=str("http://www.gunnerkrigg.com//comics/"+comicName)  # creates the URL for the comic
            comicCounter+=1  # increments the comic counter to go to the next comic, must be before the download in case the download raises an exception
            download_comic(url,comicName)  # uses the function defined above to download the comic
            print url
        if 10 <= comicCounter < 100:
            comicNumber=str('000000'+str(comicCounter))
            comicName=str(comicNumber+".jpg")
            url=str("http://www.gunnerkrigg.com//comics/"+comicName)
            comicCounter+=1
            download_comic(url,comicName)
            print url
        if 100 <= comicCounter < 1000:
            comicNumber=str('00000'+str(comicCounter))
            comicName=str(comicNumber+".jpg")
            url=str("http://www.gunnerkrigg.com//comics/"+comicName)
            comicCounter+=1
            download_comic(url,comicName)
            print url
        else:  # quit the program if any number outside this range shows up
            quit
    except IOError:  # urllib raises an IOError for a 404 error, when the comic doesn't exist
        errorCount+=1  # add one to the error count
        if errorCount>3:  # if more than three errors occur during downloading, quit the program
            break
        else:
            print str("comic"+ ' ' + str(comicCounter) + ' ' + "does not exist")  # otherwise say that the certain comic number doesn't exist
print "all comics are up to date"  # prints if all comics are downloaded
Mike avatar Jun 15 '10 12:06 Mike
Aceptado

Pitón 2

Usando urllib.urlretrieve

import urllib
urllib.urlretrieve("http://www.gunnerkrigg.com//comics/00000001.jpg", "00000001.jpg")

Pitón 3

Usando urllib.request.urlretrieve (parte de la interfaz heredada de Python 3, funciona exactamente igual)

import urllib.request
urllib.request.urlretrieve("http://www.gunnerkrigg.com//comics/00000001.jpg", "00000001.jpg")
Matthew Flaschen avatar Jun 15 '2010 05:06 Matthew Flaschen

Pitón 2:

import urllib
f = open('00000001.jpg','wb')
f.write(urllib.urlopen('http://www.gunnerkrigg.com//comics/00000001.jpg').read())
f.close()

Pitón 3:

import urllib.request
f = open('00000001.jpg','wb')
f.write(urllib.request.urlopen('http://www.gunnerkrigg.com//comics/00000001.jpg').read())
f.close()
Dig avatar Jun 15 '2010 05:06 Dig

Solo para que conste, utilizando la biblioteca de solicitudes.

import requests
f = open('00000001.jpg','wb')
f.write(requests.get('http://www.gunnerkrigg.com//comics/00000001.jpg').content)
f.close()

Aunque debería comprobar si hay un error request.get().

ellimilial avatar Feb 19 '2013 16:02 ellimilial

Para Python 3 necesitarás importar import urllib.request:

import urllib.request 

urllib.request.urlretrieve(url, filename)

para más información mira el enlace

HISI avatar Jul 30 '2017 14:07 HISI