karinemellata

Karma: 59
Created: 6 years ago

Recent Submissions

1. ▲ Alignment is not free: How model upgrades can silence your confidence signals (variance.co) 121 points · 1 year ago · 67 comments
2. ▲ We used sparse autoencoders to explain LLM moderation flags of violent threats (variance.co) 6 points · 1 year ago · 0 comments

All submissions on HN · View profile on HN