Preguntas con la etiqueta [apache-spark]

Lista apache-spark preguntas

Con pyspark dataframe, ¿cómo se hace el equivalente de Pandas df['col'].unique()? Quiero enumerar todos los valores únicos en una columna de marco de datos de pyspark. No del tipo SQL

Leí la descripción general del modo de clúster y todavía no puedo comprender los diferentes procesos en el clúster independiente de Spark y el paralelismo. ¿El trabajador es un proceso

Empecé a aprender sobre Apache Spark y estoy muy impresionado con el marco. Aunque una cosa que me sigue molestando es que en todas las presentaciones de Spark hablan de

Cómo dar más condiciones de columna al unir dos marcos de datos. Por ejemplo quiero ejecutar lo siguiente: val Lead_all = Leads.join(Utm_Master, Leaddetails.columns("LeadSource","Utm_Source","Utm_Medium","Utm_Campaign") == Utm_Master.columns("LeadSource","Utm_Source","Utm_Medium","Utm_Campaign"), "left") Quiero unirme solo cuando

Mi cluster: 1 maestro, 11 esclavos, cada nodo tiene 6 GB de memoria. Mi configuración: spark.executor.memory=4g, Dspark.akka.frameSize=512 Aquí está el problema: Primero , leí algunos datos (2,19 GB) de HDFS

Llamar a la función Java/Scala desde una tarea

1
respuestas
45
votos
16.9k
vistas

Fondo Mi pregunta original aquí era ¿ Por qué el uso DecisionTreeModel.predictde la función de mapa interno genera una excepción? y está relacionado con ¿Cómo generar tuplas de (etiqueta original,

¿Cómo divido un RDD en dos o más RDD?

4
respuestas
41
votos
62.8k
vistas

Estoy buscando una manera de dividir un RDD en dos o más RDD. Lo más cercano que he visto es Scala Spark: ¿Dividir la colección en varios RDD? que sigue

¿Cómo definir la partición de DataFrame?

5
respuestas
145
votos
204.0k
vistas

Comencé a usar Spark SQL y DataFrames en Spark 1.4.0. Quiero definir un particionador personalizado en DataFrames, en Scala, pero no veo cómo hacerlo. Una de las tablas de datos

¿Hay alguna manera de aplicar una función agregada a todas (o a una lista de) columnas de un marco de datos al realizar un groupBy? En otras palabras, ¿hay alguna

Estoy usando HiveContext con SparkSQL y estoy intentando conectarme a un metastore remoto de Hive, la única forma de configurar el metastore de Hive es incluyendo el archivo hive-site.xml en

Desvincular en Spark SQL/PySpark

2
respuestas
31
votos
56.8k
vistas

Tengo a mano un planteamiento de problema en el que quiero desvincular la tabla en Spark SQL/PySpark. Revisé la documentación y pude ver que solo hay soporte para pivot, pero

¿Cómo seleccionar la primera fila de cada grupo?

10
respuestas
196
votos
177.9k
vistas

Tengo un DataFrame generado de la siguiente manera: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Los resultados se ven así: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13|

Vengo de pandas y estoy acostumbrado a leer datos de archivos CSV en un marco de datos y luego simplemente cambiar los nombres de las columnas a algo útil usando

Obteniendo un comportamiento extraño al llamar a una función fuera de un cierre: cuando la función está en un objeto, todo funciona cuando la función está en una clase obtiene:

Quiero agregar una columna en a DataFramecon algún valor arbitrario (que es el mismo para cada fila). Recibo un error cuando uso withColumnlo siguiente: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most