Preguntas con la etiqueta [apache-spark-sql]

Lista apache-spark-sql preguntas

Con pyspark dataframe, ¿cómo se hace el equivalente de Pandas df['col'].unique()? Quiero enumerar todos los valores únicos en una columna de marco de datos de pyspark. No del tipo SQL

Cómo dar más condiciones de columna al unir dos marcos de datos. Por ejemplo quiero ejecutar lo siguiente: val Lead_all = Leads.join(Utm_Master, Leaddetails.columns("LeadSource","Utm_Source","Utm_Medium","Utm_Campaign") == Utm_Master.columns("LeadSource","Utm_Source","Utm_Medium","Utm_Campaign"), "left") Quiero unirme solo cuando

¿Cómo definir la partición de DataFrame?

5
respuestas
145
votos
204.0k
vistas

Comencé a usar Spark SQL y DataFrames en Spark 1.4.0. Quiero definir un particionador personalizado en DataFrames, en Scala, pero no veo cómo hacerlo. Una de las tablas de datos

¿Hay alguna manera de aplicar una función agregada a todas (o a una lista de) columnas de un marco de datos al realizar un groupBy? En otras palabras, ¿hay alguna

Estoy usando HiveContext con SparkSQL y estoy intentando conectarme a un metastore remoto de Hive, la única forma de configurar el metastore de Hive es incluyendo el archivo hive-site.xml en

Desvincular en Spark SQL/PySpark

2
respuestas
31
votos
56.8k
vistas

Tengo a mano un planteamiento de problema en el que quiero desvincular la tabla en Spark SQL/PySpark. Revisé la documentación y pude ver que solo hay soporte para pivot, pero

¿Cómo seleccionar la primera fila de cada grupo?

10
respuestas
196
votos
177.9k
vistas

Tengo un DataFrame generado de la siguiente manera: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Los resultados se ven así: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13|

Vengo de pandas y estoy acostumbrado a leer datos de archivos CSV en un marco de datos y luego simplemente cambiar los nombres de las columnas a algo útil usando

Quiero agregar una columna en a DataFramecon algún valor arbitrario (que es el mismo para cada fila). Recibo un error cuando uso withColumnlo siguiente: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most

¿Funciones Spark versus rendimiento UDF?

4
respuestas
85
votos
68.7k
vistas

Spark ahora ofrece funciones predefinidas que se pueden usar en marcos de datos y parece que están altamente optimizadas. Mi pregunta original iba a ser cuál es más rápido, pero