Problem

대화 내역 모두 parameter에 기억시키고 싶다. 하지만 in-context learning이 그렇듯 모든 대화를 하나하나 정확히 기억할 필요가 없다. 대화가 길어지면 핵심만 남고 디테일은 없어지는 법이다.

formulation해보면 다음과 같다.

Context

언어 모델은 주어진 맥락에 기반하여 텍스트를 생성하는 인공 지능 시스템이다. 이 모델들은 대화, 번역, 요약 등 다양한 자연어 처리 태스크에서 중요한 역할을 한다. 특히, 모델이 이전에 접한 맥락 정보를 통합하고 활용하여 새로운 입력에 대해 보다 정확한 예측을 하는 능력은 매우 중요하다.

Given

Unknown

Assumption

Objective

$$ \text{Find } f \text{ s.t. } \forall n, m \in \mathcal{L}, \\\theta' := f(\theta, n) \\\text{minimizes } CE(P_{\theta}(\cdot | n \circ m), P_{\theta'}(\cdot | m)) $$

<aside> 💡 Example.

n: Here are some examples of fruits and their colors.

m: Banana is

$P_\theta(n\circ m)$: yellow

자 풀어서 설명해보자. Here are some examples of fruits and their colors. Banana is를 input으로 LLM에게 주면 Yellow라고 나온다. 이 LLM은 parameter theta를 갖고 있다. LLM function은 P라고 정의한다. (Pretrained의 P이다.)

Here are some examples of fruits and their colors.와 theta로 새로 업데이트된 theta’을 만든다. 이 때 theta’을 갖고 있는 LLM에게 Banana만 주면 Yellow라고 답할 수 있어야 한다.

theta가 주어져 있을 때 임의의 메시지 n, m에 대해 만족하는 theta’을 만드는 함수 f를 만드는 것이 우리의 문제이다.

</aside>

<aside> 💡 추가 설명.

i. 만약 KL Divergence를 0까지 줄일 수 있는 f가 있다면 recursive하게 모든 메시지에 대해 파라미터에 대화 기억을 담을 수 있다. ii. 위 objective에서는 token 하나에 대한 KL Divergence를 minimize하지만 해당 token을 추론한 이후 $m + m_0$를 $m$에 대입하면 지속적으로 문장 형태로 생성 가능하다.

</aside>