IBM과 ETH Zürich의 연구원들이 새로운 아날로그 기초 모델(Analog Foundation Models, AFMs)을 공개했습니다. 이 모델은 대형 언어 모델(LLMs)과 아날로그 메모리 내 연산(Analog In-Memory Computing, AIMC) 하드웨어 간의 간극을 줄이도록 설계되었습니다. AIMC는 비휘발성 메모리를 활용하여 작은 크기의 디바이스에서도 효율적으로 모델을 실행할 수 있는 가능성을 가지고 있지만, 소음 문제로 인해 기존 모델에 대한 직접적인 적용은 어려운 상황입니다.
아날로그 기초 모델의 필요성과 중요성
아날로그 기초 모델은 AIMC 하드웨어의 특성을 최대한 활용하기 위해 고안되었습니다. AIMC는 전통적인 디지털 프로세서와 비교할 때 메모리와 계산을 통합하여 행렬-벡터 곱셈을 직접 수행할 수 있습니다. 이는 전통적인 기억장치와 처리 장치 간의 데이터 전송에서 발생하는 병목 현상을 제거하고, 처리 속도와 전력 효율성을 비약적으로 향상시킵니다. 과거의 연구에서는 AIMC와 Mixture-of-Experts(MoE) 아키텍처를 결합할 경우, 이론상으로는 조밀한 가속 시스템에서도 트릴리언 개의 파라미터를 지원하는 대형 모델이 가능할 것이라고 밝혔습니다. 이로 인해 데이터 센터를 넘어서는 다양한 장치에서 기초 수준의 AI 모델이 가능해지는 것입니다.
하지만, AIMC의 큰 장애물은 소음입니다. AIMC에서 계산할 때 발생하는 불확실한 오류는 기존 모델의 정확성을 심각하게 저하시킬 수 있습니다. 이러한 소음은 예측할 수 없고, 전통적인 GPU에서의 양자화와는 달리 비결정적입니다. 작은 네트워크(예: 1억 개 이하의 파라미터)에 대한 연구는 이 소음을 다루는 방법을 제공했지만, 수십억 개의 파라미터를 가진 LLM은 AIMC의 제약 아래에서 연달아 실패했습니다. 이러한 배경 속에서 IBM 연구팀은 새로운 아날로그 기초 모델을 통해 AIMC 하드웨어에 적합한 LLM을 구현할 수 있는 가능성을 열었습니다.
소음 문제를 해결하기 위한 방법론
아날로그 기초 모델을 통해 IBM 팀은 하드웨어에 최적화된 트레이닝 기법을 통해 LLM을 아날로그 연산에 적합하게 조정합니다. 이 트레이닝 파이프라인의 주요 요소는 다음과 같습니다:
- **소음 주입**: 훈련 과정 중 소음을 의도적으로 주입하여 AIMC에서의 불확실성을 시뮬레이션합니다.
- **반복적인 가중치 클리핑**: 기기의 한도 내에서 분포를 안정화하기 위해 가중치를 조정합니다.
- **학습된 정적 입력/출력 양자화 범위**: 실제 하드웨어의 제약에 맞도록 양자화 범위를 조정합니다.
- **사전 훈련된 LLM으로부터의 증류**: 20억 개의 토큰을 사용하여 합성 데이터를 통해 학습합니다.
이러한 방법들은 AIHWKIT-Lightning을 통해 구현되며, Phi-3-mini-4k-instruct와 Llama-3.2-1B-Instruct와 같은 모델들이 아날로그 소음 하에서도 4비트의 가중치 양자화 및 8비트 활성화 기반의 성능을 상회할 수 있게 합니다. 다양한 추론 및 사실 기준에서의 평가에서, 아날로그 기초 모델은 양자화 인지 훈련(QAT) 및 후 훈련 양자화(SpinQuant)을 초월하여 뛰어난 성과를 보여주었습니다. 이러한 혁신적인 방법론은 AIMC 하드웨어의 실제 사용 가능성을 크게 높여 줍니다.
아날로그 하드웨어를 넘어서는 성능과 호환성
특히 흥미로운 점은 이 아날로그 기초 모델이 아날로그 하드웨어에만 국한되지 않고, 저정밀 디지털 하드웨어에서도 우수한 성능을 발휘한다는 것입니다. AFM은 소음과 클리핑에 잘 적응하도록 훈련되었기 때문에, 기존 방법보다 단순한 후 훈련 반올림(RTN) 양자화를 더욱 효과적으로 처리할 수 있습니다. 이로써 AIMC 가속기뿐만 아니라 일반 디지털 추론 하드웨어에서도 유용하게 활용될 수 있습니다.
또한, 연구진들은 MATH-500 벤치마크를 통해 테스트 시간에서의 성능 확장 가능성을 검증했습니다. 다수의 답변을 생성한 후 보상 모델을 통해 최적의 답변을 선택하는 방식으로, AFM은 QAT 모델에 비해 더욱 뛰어난 확장 성능을 보여주었습니다. 이는 AIMC의 특징인 저전압 및 고속 추론에 유리한 결과로, 연구팀은 AIMC이 훈련보다는 추론에 강점을 가진 것을 다시 한 번 입증했습니다.
이러한 다양한 성과들은 아날로그 기초 모델이 기존 디지털 가속기 한계를 넘어, AI 연구 및 상용화의 새로운 가능성을 열어줄 것임을 시사합니다.
IBM과 ETH Zürich의 연구진은 아날로그 기초 모델의 발표를 통해 AIMC 하드웨어의 활용 가능성을 현실로 만들어가고 있습니다. 아날로그 하드웨어의 소음을 극복하며 LLM의 효과성을 높이는 이 연구는 전력 효율이 뛰어난 대규모 모델을 소형 하드웨어에서 운영할 수 있는 길을 여는 매우 중요한 이정표라는 평가를 받고 있습니다. 향후 이 연구를 바탕으로 한 추가적인 발전이 기대됩니다.
댓글
댓글 쓰기