대화 내역 모두 parameter에 기억시키고 싶다. 하지만 in-context learning이 그렇듯 모든 대화를 하나하나 정확히 기억할 필요가 없다. 대화가 길어지면 핵심만 남고 디테일은 없어지는 법이다.
formulation해보면 다음과 같다.
언어 모델은 주어진 맥락에 기반하여 텍스트를 생성하는 인공 지능 시스템이다. 이 모델들은 대화, 번역, 요약 등 다양한 자연어 처리 태스크에서 중요한 역할을 한다. 특히, 모델이 이전에 접한 맥락 정보를 통합하고 활용하여 새로운 입력에 대해 보다 정확한 예측을 하는 능력은 매우 중요하다.
$$ \text{Find } f \text{ s.t. } \forall n, m \in \mathcal{L}, \\\theta' := f(\theta, n) \\\text{minimizes } CE(P_{\theta}(\cdot | n \circ m), P_{\theta'}(\cdot | m)) $$
<aside> 💡 Example.
n: Here are some examples of fruits and their colors.
m: Banana is
$P_\theta(n\circ m)$: yellow
자 풀어서 설명해보자. Here are some examples of fruits and their colors. Banana is를 input으로 LLM에게 주면 Yellow라고 나온다. 이 LLM은 parameter theta를 갖고 있다. LLM function은 P라고 정의한다. (Pretrained의 P이다.)
Here are some examples of fruits and their colors.와 theta로 새로 업데이트된 theta’을 만든다. 이 때 theta’을 갖고 있는 LLM에게 Banana만 주면 Yellow라고 답할 수 있어야 한다.
theta가 주어져 있을 때 임의의 메시지 n, m에 대해 만족하는 theta’을 만드는 함수 f를 만드는 것이 우리의 문제이다.
</aside>
<aside> 💡 추가 설명.
i. 만약 KL Divergence를 0까지 줄일 수 있는 f가 있다면 recursive하게 모든 메시지에 대해 파라미터에 대화 기억을 담을 수 있다. ii. 위 objective에서는 token 하나에 대한 KL Divergence를 minimize하지만 해당 token을 추론한 이후 $m + m_0$를 $m$에 대입하면 지속적으로 문장 형태로 생성 가능하다.
</aside>