끊임없이 발전하는 AI 세계에서, 새로운 발전은 기계가 할 수 있는 일의 경계를 지속적으로 재정의하고 있습니다. 최근 주목받고 있는 혁신 중 하나는 LAM(Large Action Models)으로 대규모 행동 모델입니다. LAM은 대규모 언어 모델(LLM)을 넘어 행동 가능한 지능과 동적 의사결정에 초점을 맞추면서 AI의 새로운 지평을 열고 있습니다. 즉, 사람처럼 행동하고, 사람이 취한 행동을 이해하여 반응하는 기술입니다. 이 글에서는 LAM의 개념, 특징 등을 살펴보겠습니다.
LLM과 LAM의 차이
LLM이 인간과 유사한 텍스트 처리와 생성에 뛰어나다면, LAM은 복잡한 환경에서 행동을 해석하고 계획하며 실행할 수 있도록 설계되었습니다. 이 혁신은 AI를 정적 정보 처리에서 동적 상호작용으로 전환시킵니다. LAM의 핵심은 자연어 이해, 강화 학습, 멀티모달 센서 통합을 결합하는 데 있습니다. 이러한 기능을 통합함으로써 LAM은 단순히 문맥을 이해하는 것뿐만 아니라 특정 목표에 맞춰 행동 순서를 예측하고 수행할 수 있습니다.
LAM 활용
Rabbit R1은 휴대용 AI 기반 개인 비서 장치로, 사용자와 기술 간의 상호작용을 혁신적으로 단순화하고 향상시키기 위해 설계되었습니다. 이 장치는 단순한 가상 비서 이상의 기능을 제공하며, 다양한 작업을 수행할 수 있습니다. 이 기기에는 자체개발한 LAM을 통하여 플랫폼이나 앱의 제한없이 어디에서나 이용가능한 서비스를 누릴 수 있으며 사용자가 음성으로 원하는 것을 요구하면, 의도를 파악하고 사용자가 원하는 식당을 예약하거나 음악을 재생할 수 있습니다. LAM의 초기단계이니만큼 향후 LAM 시장이 점점 발전하게 되면 사용자의 음성이나 입력 몇번으로 AI가 모든 것을 대신해줄 수 있을지도 모릅니다.
<Rabbit R1, 출처 : rabbit>
LAM 특징 및 한계
LAM은 단순히 정보를 처리하는 데 그치지 않고, 실질적인 행동을 목표로 설계되었습니다. 이를 통해 환경과의 상호작용이 가능하며, 사용자의 요구나 상황에 맞는 행동을 수행할 수 있습니다. 또한, 멀티모달 데이터 통합을 통해 텍스트, 음성, 이미지, 영상, 센서 데이터 등 다양한 데이터 소스를 통합하여 종합적인 이해와 행동을 가능하게 합니다. 이러한 LAM은 강화 학습(Reinforcement Learning, RL) 기반으로 행동 학습을 진행하는데, 시뮬레이션 환경에서의 학습을 통해 현실 세계에서 발생할 수 있는 다양한 변수를 효과적으로 다룰 수 있게 합니다. 강화학습은 주어진 데이터를 학습시키는 것이 아닌 주어진 환경 내에서 알아서 학습하게끔 하는 학습방법으로 어떤 것이 잘된 행동이었는지 스스로 알게끔 하는 것입니다.
다만, 아직 LAM은 해결해야할 과제가 남아있는 상태입니다. 우선 필요한 데이터 요구량이 많습니다. LAM의 훈련에는 방대한 양의 멀티모달 데이터가 필요하여 이는 데이터 수집, 처리 및 저장 측면에서 높은 비용과 시간이 소요됩니다. 그리고 LAM이 의사결정을 내리는 과정에서 발생할 수 있는 윤리적 문제는 큰 과제입니다. 특히, 의료, 법률, 군사와 같은 민감한 분야에서는 이 문제가 더욱 중요합니다. 마지막으로 LAM을 실질적인 환경에 적용하려면 고도의 기술적 전문성과 인프라가 필요합니다. 이는 중소기업이나 개발 초기 단계의 조직에서 구현이 어려울 수 있습니다.
마무리
LAM은 정보를 이해하고 생성하는 데 초점을 맞춘 LLM에서 행동을 수행하는 데 중점을 둔 AI의 중요한 진화를 나타냅니다. 복잡한 환경과 동적으로 상호작용할 수 있는 능력을 갖춘 LAM은 산업 전반에 걸쳐 혁신을 주도하고 AI의 미래를 재정의할 준비가 되어 있습니다. 앞으로 LAM이 AI의 핵심 요소로 자리 잡으며 인간과 기계 간의 상호작용을 더욱 풍부하게 만들 잠재력을 가지고 있습니다.