Implementación de PyTorch MultiHeadAttention

Resuelto carpet119 asked hace 7 meses • 0 respuestas

En la implementación MultiHeadAttention de Pytorch , con respecto a in_proj_weight, ¿es cierto que los primeros elementos embed_dim corresponden a la consulta, los siguientes elementos embed_dim corresponden a la clave y los elementos embed_dim finales corresponden al valor? Solo confirmo.

Esta es una pregunta formulada en el mismo contexto, pero no responde a mi pregunta específica.

carpet119 avatar Feb 16 '24 09:02 carpet119
Aceptado

Sí, ese es el caso.

Puedes ver cómo in_proj_weightse usa en la función _in_projection_packed

projection weights for q, k and v, packed into a single tensor. Weights
are packed along dimension 0, in q, k, v order.
Karl avatar Feb 16 '2024 03:02 Karl