Preguntas con la etiqueta [web-scraping]

Lista web-scraping preguntas

Estoy intentando obtener el número de resultado (en el código HTML) de cada palabra clave que busco mediante Excel VBA. Reducir los criterios por nombre de clase, identificación y código

Estoy practicando el código de 'Web Scraping with Python' y sigo teniendo este problema con el certificado: from urllib.request import urlopen from bs4 import BeautifulSoup import re pages = set()

WebDriverWait no funciona como se esperaba

1
respuestas
18
votos
19.1k
vistas

Estoy trabajando con selenio para extraer algunos datos. Hay un botón en la página en la que estoy haciendo clic que dice "custom_cols". Este botón me abre una ventana donde

Eliminación de datos del sitio web usando vba

5
respuestas
18
votos
164.0k
vistas

Estoy intentando extraer datos del sitio web: http://uk.investing.com/rates-bonds/financial-futures a través de vba, como el precio en tiempo real, es decir, el Bobl alemán a 5 años, el T-Bond estadounidense a

Descargo de responsabilidad: he visto muchas otras publicaciones similares en StackOverflow y traté de hacerlo de la misma manera, pero parece que no funcionan en este sitio web. Estoy usando

Estoy creando una API web que extrae una URL determinada y la envía de vuelta. Estoy usando Puppeteer para hacer esto. Hice esta pregunta: Titiritero no se comporta como en

¿Cómo puedo extraer tablas html usando el paquete XML? Tomemos, por ejemplo, esta página de Wikipedia sobre la selección brasileña de fútbol . Me gustaría leerlo en R y obtener

¿Cómo evito el raspado de sitios? [cerrado]

0
respuestas
342
votos
146.2k
vistas

Tengo un sitio web de música bastante grande con una gran base de datos de artistas. He notado que otros sitios de música recopilan los datos de nuestro sitio (ingreso

Estoy intentando pasar una variable a una page.evaluate()función en Puppeteer , pero cuando uso el siguiente ejemplo muy simplificado, la variable evalVarno está definida. No puedo encontrar ningún ejemplo sobre

Estoy intentando desarrollar un raspador web simple. Quiero extraer texto sin formato sin formato HTML. Mi código funciona en HTML simple (estático), pero no cuando el contenido se genera mediante

Cómo encontrar elementos por clase

20
respuestas
671
votos
1.2M
vistas

Tengo problemas para analizar elementos HTML con el atributo "clase" usando Beautifulsoup. El código se ve así soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] ==