Preguntas más recientes sobre 'apache-spark-sql'

Mostrar valores de columna distintos en el marco de datos de pyspark

15

respuestas

217

votos

572.7k

vistas

Con pyspark dataframe, ¿cómo se hace el equivalente de Pandas df['col'].unique()? Quiero enumerar todos los valores únicos en una columna de marco de datos de pyspark. No del tipo SQL

Satya

python

apache-spark

pyspark

apache-spark-sql

Spark especifica múltiples condiciones de columna para unirse al marco de datos

9

respuestas

52

votos

162.4k

vistas

Cómo dar más condiciones de columna al unir dos marcos de datos. Por ejemplo quiero ejecutar lo siguiente: val Lead_all = Leads.join(Utm_Master, Leaddetails.columns("LeadSource","Utm_Source","Utm_Medium","Utm_Campaign") == Utm_Master.columns("LeadSource","Utm_Source","Utm_Medium","Utm_Campaign"), "left") Quiero unirme solo cuando

user568109

apache-spark

apache-spark-sql

rdd

¿Cómo definir la partición de DataFrame?

5

respuestas

145

votos

204.0k

vistas

Comencé a usar Spark SQL y DataFrames en Spark 1.4.0. Quiero definir un particionador personalizado en DataFrames, en Scala, pero no veo cómo hacerlo. Una de las tablas de datos

rake

scala

apache-spark

dataframe

apache-spark-sql

partitioning

Spark SQL: aplica funciones agregadas a una lista de columnas

4

respuestas

98

votos

221.9k

vistas

¿Hay alguna manera de aplicar una función agregada a todas (o a una lista de) columnas de un marco de datos al realizar un groupBy? En otras palabras, ¿hay alguna

lilloraffa

apache-spark

dataframe

apache-spark-sql

aggregate-functions

¿Cómo conectar Spark SQL al metastore remoto de Hive (a través del protocolo de ahorro) sin hive-site.xml?

11

respuestas

30

votos

103.9k

vistas

Estoy usando HiveContext con SparkSQL y estoy intentando conectarme a un metastore remoto de Hive, la única forma de configurar el metastore de Hive es incluyendo el archivo hive-site.xml en

amarouni

apache-spark

hive

apache-spark-sql

Desvincular en Spark SQL/PySpark

2

respuestas

31

votos

56.8k

vistas

Tengo a mano un planteamiento de problema en el que quiero desvincular la tabla en Spark SQL/PySpark. Revisé la documentación y pude ver que solo hay soporte para pivot, pero

Manish Mehra

apache-spark

pyspark

apache-spark-sql

pivot

unpivot

¿Cómo seleccionar la primera fila de cada grupo?

10

respuestas

196

votos

177.9k

vistas

Tengo un DataFrame generado de la siguiente manera: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Los resultados se ven así: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13|

Rami

sql

scala

apache-spark

dataframe

apache-spark-sql

¿Cómo cambiar los nombres de las columnas del marco de datos en PySpark?

26

respuestas

339

votos

630.4k

vistas

Vengo de pandas y estoy acostumbrado a leer datos de archivos CSV en un marco de datos y luego simplemente cambiar los nombres de las columnas a algo útil usando

Shubhanshu Mishra

python

apache-spark

pyspark

apache-spark-sql

rename

¿Cómo agregar una columna constante en un Spark DataFrame?

4

respuestas

208

votos

336.0k

vistas

Quiero agregar una columna en a DataFramecon algún valor arbitrario (que es el mismo para cada fila). Recibo un error cuando uso withColumnlo siguiente: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most

Evan Zamir

python

apache-spark

dataframe

pyspark

apache-spark-sql

¿Funciones Spark versus rendimiento UDF?

4

respuestas

85

votos

68.7k

vistas

Spark ahora ofrece funciones predefinidas que se pueden usar en marcos de datos y parece que están altamente optimizadas. Mi pregunta original iba a ser cuál es más rápido, pero

alfredox

performance

apache-spark

pyspark

apache-spark-sql

user-defined-functions

Preguntas con la etiqueta [apache-spark-sql]