본문 바로가기
Paper Review/Natural Language Processing

[Paper Review] Faithful Logical Reasoning via Symbolic Chain-of-Thought

by BangGeuk 2024. 12. 18.

본 글은 https://arxiv.org/abs/2405.18357 내용을 기반으로 합니다. ACL 2024에 accept된 논문입니다.

혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.


Abstract

최근 CoT 기법은 LLMs의 이론적 사고 능력을 강화했으나, 여전히 symbolic 표현과 엄격한 추론 규칙에 크게 의존하는 논리적 추론을 처리하는 데 한계를 가질 수 있다. 이에 따라, LLM의 논리적 추론 능력을 강화하기 위해, symbolic 표현과 논리 규칙을 CoT prompting과 통합한 새로운 Symbolic Chain-of-Thought인 SymbCoT라는 LLM 기반 프레임워크를 제안한다. SymbCOT는 다음 과정을 통해 문제를 해결한다. 1) 자연어 맥락을 이해하고 symbolic 형식으로 번역하고 2) symbolic 논리 규칙을 사용하여 문제를 step-by-step으로 해결하는 계획을 도출하며 3) 번역 및 추론 과정을 검증하는 검증기를 활용한다. 5개의 standard dataset을 활용한 First-Order Logic 및 Constraint Optimization symbolic 평가를 통해 SymbCoT는 CoT 기법을 꾸준히 능가하는 놀라운 성능 향상을 보여주었으며, SOTA 성능을 달성하였다. 또한, 본 논문의 시스템이 보다 신뢰할 수 있고 유연하며 설명 가능한 논리적 추론을 제공함을 입증했다. SymbCoT는 LLM 기반 논리적 추론을 위해 symbolic 표현과 규칙을 CoT에 통합한 최초의 사례다. 

 

1. Introduction

인간과 유사한 논리적 추론 능력을 달성하는 것은 문제 해결, 의사 결정, 비판적 사고를 가능하게 하는 지능형 시스템의 핵심 요소로서 Artificial General Intelligence (AGI)를 실현하는 데 매우 중요하다. 최근 연구에 따르면, LLM은 전례 없는 수준의 의미 이해 능력을 보여주며 AGI 달성에 대한 희망을 제시하고 있다. 특히 논리적 추론에서 인간 수준의 추론 능력을 달성하기 위해 LLM을 더욱 발전시키는 것은 대단히 중요한 과제이다. 논리적 추론은 다른 유형의 추론과 달리, 철저한 증거 평가, 논증 구성, 논리적 연역으로 특징지어지는 인지적 과정의 전형으로 필수적이면서도 도전적인 추론 형태로 두드러진다. 최근 동향으로는 LLM을 symbolic solver와 통합하여 성능을 강화하려는 시도가 이루어지고 있다. 그러나 이러한 노력은 LLM을 단순히 텍스트를 기호적으로 번역하는 도구로 사용하는 데 그치고 있으며 핵심 추론 과정은 여전히 전통적인 외부 추론기에 의존하고 있다. 이러한 접근 방식은 첫째, LLM의 논리적 추론 능력을 본질적으로 강화하지 못하며 둘째, 외부 symbolic solver에 대한 과도한 의존은 시스템의 유연성 부족, 정보 누락, 비설명성이라는 문제를 초래하는 경우가 많다.

 

* symbolic solver: 문제를 symbolic 표현으로 변환한 뒤, 수학적 논리와 알고리즘을 기반으로 문제를 해결하는 도구나 시스템. 

 

한편, CoT는 문제 해결 과정에서 LLM이 중간 단계를 명시적으로 고려하고 결정에 대한 논리적 근거를 제공하도록 유도함으로써 인간의 사고 과정을 모방하려는 목적으로 도입되었다. 이를 통해 추론 과정의 신뢰성을 높이는 데 기여하였다. 논리적 추론에 CoT를 적용하려는 관심이 증가하고 있으며 이를 강화하기 위해 self-consistency 및 Tree-of-Thought와 같은 전략이 개발되고 있다. 그러나 기본 CoT를 논리적 추론에 직접 적용하는 것은 언어 표현의 추상적 성격 때문에 본질적인 한계를 가진다. 논리적 추론은 문제의 내부 구조를 나타내기 위해 기호적 표현과 엄격한 추론 규칙에 크게 의존하는 정확한 논리 계산을 요구한다. 일반 텍스트는 이러한 정밀한 논리를 지원하기에 부족한 경우가 많으며, 특히 엄격한 논리적 표현이 필요한 상황에서는 한계가 명확하다. 예를 들어, Figure 1에 제시된 바와 같이 논리적 추론 문제를 해결할 때, 자연어 기반의 CoT 논증보다 First-Order Logic (FOL)과 같은 symbolic 표현을 활용하는 것이 문제를 보다 명확하고 정확하게 나타내며, 명확한 추론 규칙을 통해 엄격한 논리적 추론을 가능하게 한다.

 

이러한 문제를 해결하기 위해, 논리적 추론을 위한 새로운 SymbCoT를 소개한다. 기존 SOTA LLM 기반 symbolic 추론 시스템과 달리, SymbCoT는 외부 추론기나 도구에 의존하지 않고 LLM만으로 초기 번역부터 이후 추론 단계까지 완전히 처리한다. Figure 2는 전체 시스템 workflow의 개요를 제공한다. 기술적으로, SymbCoT는 Translator, Planner, Solver, Verifier 네 개의 주요 모듈로 구성된다. 특히, SymbCoT는 다음 세 가지 핵심 측면으로 특징지어진다.

1) SymbCoT는 중간 추론 과정을 설명하기 위해 symbolic 표현을 CoT에 통합하여, 보다 정확한 논리적 계산을 가능하게 한다. 하지만 symbolic 표현에만 의존할 경우, 질문에 내재된 암시적 의도나 중요한 맥락적 정보를 포착하지 못하는 경우가 있다. 따라서 symbolic 표현과 자연어 표현의 결합을 고려하여, 두 가지 장점을 동시에 활용한다. 자연어 표현에서는 암시적 의도와 맥락 정보를 자유롭게 나타내고, symbolic 형식에서는 엄격한 표현을 통해 정밀성을 제공한다.

2) 기본 CoT의 "thinking step by step"을 단순히 prompting하는 방식과 달리, SymbCoT는 plan-then-solve 구조를 고려한다. 이는 원래의 복잡한 문제를 더 작고 관리 가능한 여러 하위 문제로 나눈 뒤, 이를 하나씩 해결하는 방식이다. 이를 통해 전체 추론 과정이 더 명확하고 구조화되며 문제 해결 접근 방식이 더욱 추적 가능하게 된다.

3) 회고적 검증(retrospective verification) 메커니즘을 고안하여 번역 단계와 이후 문제 해결 단계 모두에서 각 단계의 결과를 처음 주어진 조건으로 다시 추적하여 정확성을 검증한다. 이러한 검증 과정은 추론 과정에서 수행된 작업의 정확성과 신뢰성을 보장한다.

 

* 암시적 의도(implied intent): 질문이나 문제의 겉으로 드러나지 않은 숨겨진 의미나 맥락적 단서.

ex. 가게에서 사과와 오렌지를 샀는데, 둘 다 총 10달러였다. 사과가 더 비싸다면 오렌지 가격은 얼마일까?

여기서, 암시적 의도는 "사과와 오렌지의 가격을 비교해야 한다"는 사실로, 문제에 명시적으로 드러나지 않음. LLM은 자연어의 유연성을 활용해 이러한 맥락을 해석할 수 있음.

 

* 엄격한 표현(rigorous expression): symbolic 표현으로 문제를 정확하고 명확하게 정의하기 위해 수학적, 논리적 구조를 사용하는 방식.

ex. 암시적 의도에서의 예시 문제를 기호적 표현으로 변환하면:

사과 가격: x, 오렌지 가격: y

조건: x+y=10, x>y

이를 통해, y = 10 - x와 같은 명확한 논리적 계산 가능.

 

 

실험에서, SymbCoT는 FOL과 constraint optimization (CO)의 symbolic 표현을 활용하여 다섯 개의 논리적 추론 데이터셋에서 GPT-3.5와 GPT-4를 사용해 테스트하였다. 결과적으로, SymbCoT는 vanilla CoT의 추론 능력을 크게 향상시켰으며, 현재 SOTA 솔루션들을 능가하는 성능을 보였다. 또한, 논리적 추론 과제가 복잡할수록 SymbCoT가 vanilla CoT보다 더 두드러진 성능 향상을 보인다는 점을 입증했으며, 검증 메커니즘을 통해 추론 과정의 신뢰성을 보장하였다. 심층적인 분석을 통해 LLM 기반의 논리적 추론이 symbolic syntax robustness, human-readable explanations, fuller utilization of information과 같은 장점을 제공할 수 있음을 확인하였다.

 

요약하면, 본 논문의 technical contribution은 다음과 같다.

  • CoT를 기반으로 한 LLM 기반 논리적 추론 프레임워크를 제안하였으며 LLM이 외부 추론 도구 없이도 강력한 논리적 추론 능력을 달성할 수 있음을 입증하였다. 기존의 외부 해석기에 의존하는 SOTA 방법들과 비교하여 SymbCoT는 번역 오류에 대한 더 나은 견고성과 사람이 이해하기 쉬운 설명을 제공한다.
  • symbolic 표현과 자연어 표현의 강점을 혁신적으로 통합하여 정밀한 추론 계산을 가능하게 하면서도 암시적 정보를 완전히 해석하고 풍부한 맥락을 포착할 수 있도록 하였다.
  • CoT 추론을 위해 plan-then-solve 구조와 회고적 검증 메커니즘을 도입하여 추론 과정의 신뢰성을 강화하였다.

 

2. Related Work

LLM에 의해 강화된 추론 연구의 최근 성과는 유망한 결과를 보여주었으며 심오한 의미 이해 능력 덕분에 LLM이 인간 수준의 추론 능력에 더 가까워지고 있다. 이러한 성과 중에서 Chain-of-Thought (CoT) 방법론은 인간의 이산적 체인 추론을 모방하는 방식으로 점점 더 많은 주목을 받고 있다. self-consistency 및 비선형, 다차원적 topological 구조와 같은 메커니즘을 통합한 더욱 강화된 추론 프레임워크를 도입하였다.

 

* 이산적 체인 추론(discrete chain reasoning): 복잡한 문제를 해결하기 위해 문제를 논리적인 단계(step)으로 나누고 각 단계를 순차적으로 수행하여 결론에 도달하는 추론 방법.

 

그러나 CoT가 자연어 논리를 기반으로 한다는 점에서 한계가 있다는 점도 강조되었다. 이는 특정 상황에서는 항상 유리하지 않을 수 있다. 연구에 따르면, CoT의 중간 단계를 과제의 본질적 구조를 반영하는 구조화된 방식으로 표현하면, 특정 과제에서는 추론 능력을 강화할 수 있다고 한다. 논리적 추론에 초점을 맞추면, 중간 추론 단계를 자연어 형식만으로 표현할 경우 특히 복잡한 논리적 추론 작업을 처리할 때 상당한 정보 손실이 불가피하다는 점이 분명해진다. 따라서, 본 논문은 논리적 추론에 특화된 symbolic-oriented CoT 접근 방식을 제안한다.

 

논리적 추론은 추론 분야에서 가장 중요한 측면 중 하나로, 복잡한 논리 구조를 정확히 이해하고 조작할 수 있는 모델을 요구한다. 최신 동향은 LLM을 symbolic reasoning 과정에 통합하는 것을 포함한다. 예를 들어, Logic-LM과 LINC는 LLM을 번역기로 활용하여 자연어를 FOL과 같은 기호적 구문으로 변환하고 이를 외부 추론 도구로 처리하여 추론 성능을 향상시키는 방식을 제안한다. 이러한 접근법들은 LLM이 규칙 기반 추론기만큼 symbolic 표현을 신뢰성 있게 처리할 수 없다고 주장한다.

 

그러나 LLM을 단순히 번역기로 사용하는 것은 LLM의 논리적 추론 능력을 본질적으로 향상시키지 못한다. 본 연구는 논리적 추론을 위해 특별히 설계된 최초의 symbolic CoT를 제안하며 LLM을 완전히 활용한다. Logic-LM이나 LINC 같은 접근법과 비교하여, 본 논문의 방법은 다음과 같은 여러 가지 발전을 보여준다.

1. 외부 추론기의 한계 극복.

외부 추론기는 엄격한 형식을 요구하며, LLM의 번역 오류는 구문 분석 및 추론 실패로 이어질 수 있다. 본 논문의 추론 과정은 LLM을 통해 이루어지며, 구문 오류에 대해 더 높은 견고성을 제공한다.

2. 인간 친화적 설명 제공.

전체 추론 과정이 LLM에 의해 수행되며 논리적 근거를 포함해 사람이 이해하기 쉬운 설명을 제공한다.

3. 기호적 표현과 자연어 표현의 융합.

논리적 추론 과정에서 symbolic 형식과 자연어 표현을 결합하여 정밀한 추론 계산을 가능하게 하면서도 자연어에 내재된 암시적 정보와 맥락을 완전히 해석한다.

4. plan-then-solve CoT 추론 아키텍처와 검증 메커니즘 도입.

CoT 추론 구조에서 계획 후 해결하는 방식을 제안하고 추론 과정의 신뢰성을 보장하기 위해 검증 메커니즘을 도입하였다.

 

3. SymbCoT for Symbolic Reasoning

3.1 Task Definition

논리적 추론은 다음과 같다. 형식적으로, 전체 집합 P={p1, p2, ..., pn}이 주어졌을 때 각 p는 논리적 명제를 나타낸다. 본 논문의 목표는 주어진 명제 S에 대해 결론을 도출하는 것이다. 이 작업의 목적은 전제에서 도출된 논리적 추론을 바탕으로 S가 참(T)인지, 거짓(F)인지, 혹은 알수없음(U)인지 판단하는 것이다.

 

3.2 Modules

Figure 2에서 보여지듯, SymbCoT 시스템은 LLM에 의해 완전히 지원되며 Translator, Planner, Solver, Verifier 네 가지 모듈로 구성된다. 각 모듈의 역할은 아래와 같다.

Translator.

Translator는 전제와 질문 명제를 자연어에서 symbolic 형식으로 변환한다. 이 과정은 논리적 분석에 적합한 형식으로 입력을 준비하며, 이후 추론 과정의 구조적 요구사항에 부합하도록 문제를 표현한다.

 

Planner.

Planner는 원래 문제를 더 작은 하위 문제로 분해하고 자연어 및 symbolic 형식 모두에서 주어진 전제를 질문 명제와 연결하는 상세하고 단계적인 계획을 개발한다. 이러한 설계도는 논리적 단계의 순서를 개략적으로 보여주며 구조화된 추론 과정을 안내한다.

 

Solver.

Solver는 전제와 질문 명제, 그리고 세심하게 설계된 계획을 기반으로 순차적인 논리적 추론 과정을 통해 답을 도출하는 역할을 맡는다. 이 모듈은 symbolic 추론 규칙에 기반한 논리적 연역의 중요성을 강조한다. 예를 들어, LLM은 FOL에서 부정 논법과 같은 논리적 연역 기법을 명시적으로 적용하도록 지시받는다.

 

Verifier.

Verifier는 본 논문의 프레임워크에서 두 가지 기능을 수행한다.

1. symbolic translation의 정확성 검증

LLM에게 symbolic translation이 해당 자연어와 의미적으로 동등한지 확인하도록 요청한다. 만약 불일치가 발견되면, LLM은 원래 자연어를 기반으로 symbolic translation을 수정하여 의미적 일관성을 보장한다.

2. Solver의 논리적 추론 검증

Solver가 생성한 단계별 논리적 추론과 최종 답변을 검증한다. 이 검증 과정에서 Verifier는 각 논리적 연역이 형식 논리의 원칙을 엄격히 준수하는지 세밀히 검사한다. 만약 잘못된 논리가 발견되면, Verifier는 올바른 논리에 따라 추론 단계를 수정하고 새로운 답을 도출한다.

 

3.3 Reasoning Steps

지금부터 SymbCoT의 추론 단계를 상세한 예와 함께 설명하며 각 단계는 Figure 2에서 제시된 과정에 해당한다.

 

Step 1: Translating natural language context into symbolic.

전체 집합 P={p1, p2, ..., pn}과 질문 명제 S가 주어졌을 때, Translator는 이를 해당하는 symbolic 형식으로 해석한다. 변환된 symbolic 표현은 P'={p1', p2', ..., pn'}과 S'으로 표기된다. 이후, 자연어 표현 P와 symbolic 표현 P'을 혼합 형식(hybrid format)으로 결합하여 Pc로 표기하고 질문 명제 S와 symbolic 표현 S'을 결합하여 Sc로 표기한다. 즉, 이러한 혼합 형식 표현은 이후 추론 단계를 위한 준비 과정으로 사용된다.

 

Step 2: Deriving plan based on the natural and symbolic context.

이 단계에서 Planner 모듈은 Pc와 Sc를 활용하여 중간 단계로 구성된 계획 I={i1, i2, ..., im}을 생성한다. 이 중간 단계들은 전제 Pc에서 질문 명제 Sc로 논리적으로 연결되도록 순차적인 논리적 추론 과정을 형성한다.

 

Step 3: Solving the problem given context and plan.

이 단계에서 Solver는 전제 Pc, 질문 명제 Sc, 그리고 계획 I를 바탕으로 체계적으로 논리 규칙을 적용하여 문제를 해결한다. Solver는 관련된 전제를 반복적으로 선택하고, 추론 단계를 통해 새로운 통찰을 도출한다. 이러한 추론 단계는 D={d1, d2, ..., dl}로 표현되며, 여기서 각 d는 반복 과정 중 관련 전제로부터 도출도니 통찰을 나타내며, 질문 명제 Sc의 단서가 된다. 이 반복적 방법론은 최종 결론 C에 도달하도록 하며, 질문 명제 Sc가 참(T), 거짓(F), 혹은 불확실(U) 중 어느 것인지 판단한다.

 

Step 4: Verifying the translation and solving process.

이 단계에서는 Step 1에서 생성된 결합된 input Pc와 Sc, 그리고 Step 3에서 도출된 추론 체인 D와 결론 C를 바탕으로 Verifier가 두 가지 방식의 검증 과정을 수행한다.

1. symbolic 언어 번역 검증

Verifier는 자연어 맥락에 기반하여 symbolic 언어가 올바르게 번역되었는지 확인한다. 이 과정은 Vtrans=Verify(P->P',S->S')로 표현된다. 만약 번역 오류가 발견되면, Verifier는 전제와 명제의 번역을 수정하여 P'refined와 S'refined라는 개정된 번역을 생성한다.

2. 추론 검증

Verifier는 추론 체인 D가 유효한 논리 규칙을 따르고 있는지 검증한다. 논리적 오류가 발견될 경우, Verifier는 올바른 논리 규칙을 사용하여 개정된 추론 Drefined를 수행한다.

이러한 수정 과정을 통해 최종적으로 개정된 답변 Crefined가 생성된다. 검증이 성공적으로 완료되면, 즉 Vvalidity(D/Drefined)가 충족되면 Verifier는 검증된 답변 Cverfied를 제공한다.

 

4. Experiments

4.1 Settings

Model.

Logic-LM의 이전 연구에 따라, GPT-3.5와 GPT-4를 사용하여 baseline과 방법을 평가하였으며, 동일한 모델 파라미터를 사용하여 공정한 비교를 보장하였다.

 

Dataset.

PrnOntoQA, ProofWriter, FOLIO, LogicalDeduction, AR-LSAT 다섯 개의 데이터셋을 사용하였다. 각 데이터셋은 서로 다른 symbolic representation을 사용하며, 논리적 추론 주제에서 고유한 도전 과제를 제공한다. 평가의 주요 지표는 정확도이며, 이는 객관식 문제의 정답률을 측정한다.

 

Symbolic Structure.

PrOntoQA, ProofWriter, FOLIO 데이터셋에서는 FOL을 기호적 구조로 사용한다. 본 논문의 프레임워크가 서로 다른 기호적 구조 간의 일반화 가능성을 테스트하기 위해, LogicalDeduction과 AR-LSAT 데이터셋에서 CO symbolic 표현을 추가로 고려하였다.

 

Baseline.

여러 baseline 모델들과 비교하였으며 GPT-3.5를 기반으로 하는 baseline 모델은 1) Naive Prompting, 2) CoT, 3) Logic-LM 이다. GPT-4에서는 위 baseline 모델들 외에도 4) CoT-SC, 5) ToT, 6) Cumulative Reasoning, 7) DetermLR 와 같이 추가적인 시스템을 포함하였다. 추가적인 symbolic 구조, 데이터셋, baseline, 및 전체 프롬프트 설정은 appendix에 설명되어 있다.

 

4.2 Main Result

Table 1은 본 논문의 방법이 Naive, CoT, Logic-LM baseline 모델을 크게 능가했음을 보여준다.

 

Table 2는 두 데이터셋에서 CO symbolic 표현을 사용한 결과를 보여준다.

 

4.3 Model Ablation

본 논문의 프레임워크 내 각 모듈의 개별적인 영향을 확인하기 위해 ablation study를 수행하였다. Figure 3의 패턴에 따르면, GPT-4에서 각 모듈이 전체 성능에 기여하는 정도는 다르게 나타났다. 특히, Planner와 Solver가 가장 영향력이 컸고 그 다음으로 Translator 모듈이 성능 향상을 제공하였다. 이 결과는 문제를 더 작은 하위 문제로 나누는 plan-then-solve 설계가 원래의 복잡한 질문을 해결하는데 효과적임을 강조한다. 또한, symbolic 표현과 규칙의 사용이 추론 능력을 크게 향상시키는데 기여함을 보여준다.

 

5. Analysis and Discussion

이제 본 논문의 시스템을 더 깊이 탐구하며, 그것이 어떻게 성능을 향상시키는지 분석하고자 한다.

 

5.1 Performance on Complex Reasoning

전반적인 성능의 비교를 통해, 본 논문의 접근 방식이 기존 baseline 모델을 능가하며 특히 CoT의 성능에서 상당한 향상을 이루었음을 입증하였다. 이제, 다양한 추론 깊이 수준에서 서로 다른 방법의 성능을 분석하고자 한다. 직관적으로, 더 깊이가 클수록 더 복잡한 문제를 나타낸다. Figure 4를 관찰하면, 깊이가 증가할수록 CoT를 능가하는 성능 향상이 더욱 두드러지며 이는 복잡한 문제를 해결하는 데 있어 강점을 가지고 있음을 시사한다. 게다가, 추론 깊이 5에서도 여전히 최고 성능을 달성하고 있다.

 

5.2 Robustness to Symbolic Syntax Error

Figure 5에서 외부 해석기에 의존하는 방법과 본 논문의 LLM 기반 추론기를 비교하며, symbolic 표현 구문 실행의 성공률에 초점을 맞추었다. 눈에 띄는 점은, 본 논문의 방법이 항상 100% 성공률로 실행되며, symbolic 구문 오류에 대해 탁월한 견고성을 보여준다는 것이다. 

 

5.3 Benefit of Hybrid Expression of Symbolic and Natural Language

LLM이 자연어를 symbolic 언어로 번역할 때, 중요한 정보가 누락되거나 부정확성이 발생하여 잘못된 symbolic 표현으로 이어질 수 있다. Figure 6에 제시된 분석은 FOLIO 데이터셋에서 외부 Solver가 잘못 알수없음(U)로 분류한 사례에서 발생한 오류를 조사한 것이다. 조사 결과, 이러한 오류 중 55.6%는 중요한 세부사항이 누락된 경우(정보 손실, IL)과 번역이 잘못된 경우(정보 오류, IE)에서 비롯되었다. 본 논문의 방법을 적용한 결과, 이러한 오류를 73.3% 줄였다. 이는 LLM 기반 symbolic 추론 접근법이 자연어와 symbolic 데이터를 교차 참조하여 번역 오류를 수정하고 논리적 추론을 강화하는 데 효과적임을 입증한다.

 

5.4 Reasoning Faithfulness

LLM은 종종 잘못된 추론 과정을 통해 우연히 정답을 도출하는 경우가 있다. 즉, 논리적 절차를 제대로 따르지 않고 운에 의해 올바른 결론에 도달할 수 있다. Figure 7에서는 FOLIO 데이터셋에서 CoT, Verifier가 없는 SymbCoT, SymbCoT의 추론 신뢰성을 평가했다. 'Faithful'은 정답과 과정 모두가 올바르고 논리적인 것이고 'Unfaithful'은 정답은 올바르지만, 과정이 잘못된 것이고 'False'는 답 자체가 잘못된 것이다. 정답이 올바른 경우, 추론 과정의 논리적 타당성을 검증하기 위해 수작업으로 평가하였다. CoT에서 Verifier가 없는 SymbCoT, SymbCoT로 갈수록 신뢰할 수 있고 symbolic 기반 추론을 보장하며 우연에 의존하는 비율을 줄이는 데 효과적임을 보여준다.

 

5.5 Impact of Using Different LLMs

세 개의 FOL 데이터셋에서 GPT-3.5와 GPT-4를 비교한 결과, 모델 업그레이드를 통해 큰 성능 향상을 가져왔다. 본 논문의 접근 방식이 더 발전된 모델과 시너지를 발휘함을 강조한다.

 

5.6 Error analysis

오류 분석에 따르면, LLM이 추론 작업을 정확히 완료하려면 다음 두 가지 주요 능력이 필요하다. 1) 올바른 추론 경로를 식별하는 능력, 2) 올바른 경로를 식별한 후, 각 추론 단계가 유효한 논리에 기반하는 능력. SymbCoT의 개발은 주로 두 번째 능력을 강화하는 데 초점을 맞추었다. 그러나 첫 번째 능력인 계획 능력도 문제 해결에 있어 동일하게 중요하다. 따라서, 본 논문의 접근 방식은 모델의 계획 능력을 향상시키지 않는다. 이는 LLM 자체에 본질적으로 의존하는 능력이다. 결과적으로, SymbCoT가 효과적으로 작동하려면, LLM이 최소한의 추론 baseline을 충족해야 한다.

 

5.7 Case Study

마지막으로, 본 논문의 방법의 장점을 자세히 보여주는 두 가지 사례를 제시한다.

 

CoT makes logical fallacy.

본 논문의 방법과 CoT를 비교한 결과, CoT가 논리적 오류에 취약하다는 점이 드러났다. CoT는 잘못된 추론을 하여 잘못된 결론에 도달할 수 있다. 반면, 본 논문의 방법은 이러한 오류를 효과적으로 방지한다.

 

External solver fails due to information loss.

외부 Solver를 FOL 문제에 사용하는 경우, 번역 과정에서 중요한 술어를 놓칠 위험이 있다. 이로 인해 정확도가 감소할 수 있다. 반면, 본 논문의 LLM 기반 접근 방식은 자연어 이해를 활용하여 맥락의 세부 사항을 더 잘 포착하고 정보 손실을 줄인다.

 

6. Conclusion

본 연구는 Symbolic Chain-of-Thought (SymbCoT) 프레임워크를 제시하며, symbolic 표현과 논리 규칙을 CoT prompting과 혁신적으로 통합하여 LLM의 논리적 추론 능력을 향상시켰다. 구체적으로, SymbCoT는 backbone LLM을 통해 자연어 맥락을 symbolic 형식으로 번역한 후, symbolic 논리 규칙을 활용하여 논리적 추론 문제를 단계적으로 해결하기 위한 계획을 도출한다. 마지막으로, 번역 및 추론 체인을 검증하는 Verifier를 포함한다. 5개의 표준 벤치마크에서 FOL과 CO symbolic 표현을 사용한 실험 결과, SymbCoT는 논리적 추론에서 vanilla CoT를 크게 능가함을 입증하였다.

 

Limitations

본 연구에는 다음과 같은 잠재적 한계가 있다.

1. 제한된 symbolic 구조 평가

본 프레임워크는 두 가지 symbolic 구조만 평가하였다. First-Order Logic (FOL)과 Constraint Optimization (CO)가 LLM의 논리적 추론 능력을 강화하는 데 중요한 잠재력을 입증했지만, 추가적인 symbolic 언어에 대한 평가가 필요하다. 이는 더 포괄적인 검증을 보장하기 위함이다.

2. 높은 비용 문제

프레임워크의 구현은 상당한 비용이 발생한다. 이러한 비용은 symbolic 규칙을 통합하는 방법론에서 비롯되며, 이는 더 길어진 추론 체인을 포함하고 결과적으로 모델이 생성하는 토큰 수의 증가로 이어진다. 토큰 생성 증가로 인해 API 사용 비용 또는 컴퓨팅 자원 할당과 관련된 추가적인 지출이 요구된다.

이러한 한계를 해결하기 위해 추가적인 연구와 최적화가 필요하다.