LLM.int8(): 8-Bit Matrix Multiplication for Transformers at Scale

7 points by ofirpress 4 years ago · 1 comment

Reader

ofirpressOP 4 years ago

Cool new efficient inference method that saves 2x memory and does not degrade performance for large language models!

Settings