2025/02/12 3

Titans: Learning to Memorize at Test Time

현재 계속 세상을 놀라게 하고 있는 GPT, Claude 등의 LLM 들은 많은 장점을 가지고 있지만, 그렇다고 완벽하다고 보기는 아직 어렵습니다. LLM의 단점 중 하나로 입력되는 Context의 길이가 증가할수록 이를 처리하기 위한 계산 및 메모리 비용은 기하급수적으로 증가한다는 문제가 있습니다. 그렇기에, Mamba 와 같은 모델이 주목 받기도 했는데요.(Mamba에 대해서는 따로 다루도록 하겠습니다.) 일부에서 Mamba와 같은 모델들이 문맥을 압축하는 과정에 중요한 세부 정보를 놓치는 문제가 있다고 지적하기도 합니다. 그래서 최근 Google 에서는 '트랜스포머' 기반 LLM에 ‘신경 기억(neural memory)' 레이어를 추가, 모델이 단기와 장기 기억 작업을 모두 효율적으로 처리할 수 있..

AI/LLM 2025.02.12

DeepSeek R1

안녕하세요! 며칠 전부터 세상이 DeepSeek 때문에 떠들썩한 것 같습니다. DeepSeek에서 출시한 모델들이 오픈소스로 모든 것이 공개되어 있습니다. 특히 DeepSeek R1이 매우 뛰어난 성능을 보이고, 최근 미국이 중국에 대한 반도체 규제를 강화하는 가운데 나온 모델들이라 더욱 이슈가 되는 것 같습니다.  DeepSeek R1이 이렇게 주목 받는 이유는 가령 성능 뿐만이 아닙니다. 흔히 instruct라는 명칭이 붙는 모델들은 지도 미세 조정 (SFT, Supervised Fine-Tuning)을 통해 베이스 모델의 성능을 개선 시킵니다. 그러나 R1의 경우, 강화학습을 통한 Post-Training을 하여 엄청난 비용 절감을 이루어 내어, 과연 엔비디아의 초고가의 고성능 칩들이 필요한가에 대..

AI/LLM 2025.02.12

Improving Language Understandingby Generative Pre-Training

Transformer 시리즈 (3) : Improving Language Understanding by Generative Pre-Training  현재, 우리는 GPT의 시대에 살고 있다고 해도 과언이 아닙니다. 2023년 말 gpt-3.5 기반의 Chatgpt가 세상에 등장하고 부터,  그 이전과 이후의 세상은 완전히 달라졌다고 생각합니다. 사람들의 업무 일부를 GPT가 대체하기 시작했고 그로 인해 생산성은 빠르게 올라갔습니다. 또한 GPT에 대항하기 위해 Claude, Perplexity 와 같은 서비스들이 출시되었습니다. 그리고 GPT를 활용한 다양한 서비스들이 속속 등장하고 있습니다. 현재 gpt-3.5 이후에 gpt-4. 4o, o1 등이 출시되었습니다. 그렇다면 gpt의 처음은 무엇이었을까요..