Subconjunto de filas correspondientes al valor máximo por grupo usando data.table

Resuelto hadley asked hace 55 años • 1 respuestas

Supongamos que tengo un archivo data.tableque contiene algunos jugadores de béisbol:

library(plyr)
library(data.table)

bdt <- as.data.table(baseball)

Para cada grupo (dado por el jugador 'id'), quiero seleccionar filas correspondientes al número máximo de juegos 'g'. Esto es sencillo en plyr:

ddply(baseball, "id", subset, g == max(g))

¿Cuál es el código equivalente paradata.table ?

Lo intenté:

setkey(bdt, "id") 
bdt[g == max(g)]  # only one row
bdt[g == max(g), by = id]  # Error: 'by' or 'keyby' is supplied but not j
bdt[, .SD[g == max(g)]] # only one row

Esto funciona:

bdt[, .SD[g == max(g)], by = id]

Pero es sólo un 30% más rápido que plyr, lo que sugiere que probablemente no sea idiomático.

Jan 01 '70 08:01 hadley

Aceptado

Esta es la data.tableforma rápida:

bdt[bdt[, .I[g == max(g)], by = id]$V1]

Esto evita la construcción .SD, que es el cuello de botella en sus expresiones.

Editar: En realidad, la razón principal por la que el OP es lento no es solo que lo tiene .SD, sino el hecho de que lo usa de una manera particular: llamando a [.data.table, que en este momento tiene una sobrecarga enorme, por lo que lo ejecuta en un bucle. (cuando uno hace un by) acumula una penalización muy grande.

May 15 '2013 20:05 eddi