Sparse Transformers - NFHN Reader

Our open source project, Sparse Transformers, is about making Large Language Model (LLM) inference dramatically faster and more memory-efficient by leveraging contextual sparsity. Find out more - https://github.com/NimbleEdge/sparse_transformers