Preguntas más recientes sobre 'pyspark'

Mostrar valores de columna distintos en el marco de datos de pyspark

15

respuestas

217

votos

572.7k

vistas

Con pyspark dataframe, ¿cómo se hace el equivalente de Pandas df['col'].unique()? Quiero enumerar todos los valores únicos en una columna de marco de datos de pyspark. No del tipo SQL

Satya

python

apache-spark

pyspark

apache-spark-sql

Llamar a la función Java/Scala desde una tarea

1

respuestas

45

votos

16.9k

vistas

Fondo Mi pregunta original aquí era ¿ Por qué el uso DecisionTreeModel.predictde la función de mapa interno genera una excepción? y está relacionado con ¿Cómo generar tuplas de (etiqueta original,

zero323

python

scala

apache-spark

pyspark

apache-spark-mllib

¿Cómo divido un RDD en dos o más RDD?

4

respuestas

41

votos

62.8k

vistas

Estoy buscando una manera de dividir un RDD en dos o más RDD. Lo más cercano que he visto es Scala Spark: ¿Dividir la colección en varios RDD? que sigue

Carlos Bribiescas

apache-spark

pyspark

rdd

Desvincular en Spark SQL/PySpark

2

respuestas

31

votos

56.8k

vistas

Tengo a mano un planteamiento de problema en el que quiero desvincular la tabla en Spark SQL/PySpark. Revisé la documentación y pude ver que solo hay soporte para pivot, pero

Manish Mehra

apache-spark

pyspark

apache-spark-sql

pivot

unpivot

¿Cómo cambiar los nombres de las columnas del marco de datos en PySpark?

26

respuestas

339

votos

630.4k

vistas

Vengo de pandas y estoy acostumbrado a leer datos de archivos CSV en un marco de datos y luego simplemente cambiar los nombres de las columnas a algo útil usando

Shubhanshu Mishra

python

apache-spark

pyspark

apache-spark-sql

rename

¿Cómo agregar una columna constante en un Spark DataFrame?

4

respuestas

208

votos

336.0k

vistas

Quiero agregar una columna en a DataFramecon algún valor arbitrario (que es el mismo para cada fila). Recibo un error cuando uso withColumnlo siguiente: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most

Evan Zamir

python

apache-spark

dataframe

pyspark

apache-spark-sql

¿Funciones Spark versus rendimiento UDF?

4

respuestas

85

votos

68.7k

vistas

Spark ahora ofrece funciones predefinidas que se pueden usar en marcos de datos y parece que están altamente optimizadas. Mi pregunta original iba a ser cuál es más rápido, pero

alfredox

performance

apache-spark

pyspark

apache-spark-sql

user-defined-functions

Preguntas con la etiqueta [pyspark]

Mostrar valores de columna distintos en el marco de datos de pyspark

Llamar a la función Java/Scala desde una tarea

¿Cómo divido un RDD en dos o más RDD?

Desvincular en Spark SQL/PySpark

¿Cómo cambiar los nombres de las columnas del marco de datos en PySpark?

¿Cómo agregar una columna constante en un Spark DataFrame?

¿Funciones Spark versus rendimiento UDF?