Implementación de PyTorch MultiHeadAttention
En la implementación MultiHeadAttention de Pytorch , con respecto a in_proj_weight, ¿es cierto que los primeros elementos embed_dim corresponden a la consulta, los siguientes elementos embed_dim corresponden a la clave y los elementos embed_dim finales corresponden al valor? Solo confirmo.
Esta es una pregunta formulada en el mismo contexto, pero no responde a mi pregunta específica.
Aceptado
Sí, ese es el caso.
Puedes ver cómo in_proj_weight
se usa en la función _in_projection_packed
projection weights for q, k and v, packed into a single tensor. Weights
are packed along dimension 0, in q, k, v order.