Preguntas con la etiqueta [apache-spark-sql]
Mostrar valores de columna distintos en el marco de datos de pyspark
Con pyspark dataframe, ¿cómo se hace el equivalente de Pandas df['col'].unique()? Quiero enumerar todos los valores únicos en una columna de marco de datos de pyspark. No del tipo SQL
Spark especifica múltiples condiciones de columna para unirse al marco de datos
Cómo dar más condiciones de columna al unir dos marcos de datos. Por ejemplo quiero ejecutar lo siguiente: val Lead_all = Leads.join(Utm_Master, Leaddetails.columns("LeadSource","Utm_Source","Utm_Medium","Utm_Campaign") == Utm_Master.columns("LeadSource","Utm_Source","Utm_Medium","Utm_Campaign"), "left") Quiero unirme solo cuando
¿Cómo definir la partición de DataFrame?
Comencé a usar Spark SQL y DataFrames en Spark 1.4.0. Quiero definir un particionador personalizado en DataFrames, en Scala, pero no veo cómo hacerlo. Una de las tablas de datos
Spark SQL: aplica funciones agregadas a una lista de columnas
¿Hay alguna manera de aplicar una función agregada a todas (o a una lista de) columnas de un marco de datos al realizar un groupBy? En otras palabras, ¿hay alguna
¿Cómo conectar Spark SQL al metastore remoto de Hive (a través del protocolo de ahorro) sin hive-site.xml?
Estoy usando HiveContext con SparkSQL y estoy intentando conectarme a un metastore remoto de Hive, la única forma de configurar el metastore de Hive es incluyendo el archivo hive-site.xml en
Desvincular en Spark SQL/PySpark
Tengo a mano un planteamiento de problema en el que quiero desvincular la tabla en Spark SQL/PySpark. Revisé la documentación y pude ver que solo hay soporte para pivot, pero
¿Cómo seleccionar la primera fila de cada grupo?
Tengo un DataFrame generado de la siguiente manera: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Los resultados se ven así: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13|
¿Cómo cambiar los nombres de las columnas del marco de datos en PySpark?
Vengo de pandas y estoy acostumbrado a leer datos de archivos CSV en un marco de datos y luego simplemente cambiar los nombres de las columnas a algo útil usando
¿Cómo agregar una columna constante en un Spark DataFrame?
Quiero agregar una columna en a DataFramecon algún valor arbitrario (que es el mismo para cada fila). Recibo un error cuando uso withColumnlo siguiente: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most
¿Funciones Spark versus rendimiento UDF?
Spark ahora ofrece funciones predefinidas que se pueden usar en marcos de datos y parece que están altamente optimizadas. Mi pregunta original iba a ser cuál es más rápido, pero