Gradient Descent on Token Input Embeddings

3 points by kp1197 10 months ago · 1 comment

Reader

kp1197OP 10 months ago

Does performing gradient descent on token input embeddings lead to interpretable results? And if not, why?

Settings