https://github.com/kchyhj/sociology-wiki-template

 

GitHub - kchyhj/sociology-wiki-template: Accuracy-first research wiki template for sociologists using Claude Code

Accuracy-first research wiki template for sociologists using Claude Code - kchyhj/sociology-wiki-template

github.com

 

사회(과)학 연구자의 문헌 정리에 특화된 LLM-Wiki 템플릿입니다. 

 

이공계 분들에 비해서 LLM-Wiki가 아직 많이 퍼져있는 것 같지는 않은데, 위키 기능은 다른 무엇보다도 사회학 연구자들에게 필요하고, 도움이 된다고 생각한다.

 

이 위키의 최고 원칙은 "정확성 >>> 효율성"이다.

 

위키를 구축하면서 가장 크게 느낀게, AI는 어떻게해서든지 환각(hallucinations)을 만들어낸다는 것이다. 두 가지 이유가 추정되는데 하나는 LLM은 기본적으로 랭귀지 모델이고, 언어의 확률만 높으면 어떤 말이든 만들어낸다는 것이고, 다른 하나는 비용 효율성(= 작은 토큰 사용량)을 높이기 위해서 어떻게 해서든지 short cut을 발견한다는 것이다. 그리고 이 숏컷은 거의 반드시 환각으로 이어진다. 아무 말이나 그럴듯한 말을 채워넣는다. 아무리 명시적으로 그러지말라고 지시해도 소용없다. 죽어라 말 안듣는 반항아와 같다. 예를 들어, 논문이 길면, pdf를 md로 변환해도 다 안읽고 일부만 읽은 다음에 엉터리 용어나 숫자로 내용을 채운다. 한꺼번에 많은 파일을 처리하게 시키면 이 경향이 커진다. PDF 소스를 제공하는게 환각 방지의 전부가 아니다. 끝까지 밀어붙였더니 100% 환각 방지 방법은 연구자가 직접 정리하는 수 밖에 없다고 니가 직접할래라고 묻더라. 

 

이 위키 템플릿의 디자인은 환각을 가능한 최대로 방지하는데 가장 큰 초점을 맞추고 있다. 설사 느리게 구축되더라도 정확하게 구축하는게 목표다. 여러 시행착오 끝에 이렇게 디자인한 것이다. 

 

기타 많이 회자되는 위키와 또 다른 점은 다섯 개 층위로 문헌 정리가 된다는 것이다. 

(1) 각 논문 정리 (references)

(2) 각 논문 정리를 연결해서 항목별로 정리. 항목은 기본적으로 ASA의 섹션을 따르지만 임의로 제가 쓰는 7개 주제에서 시작한다. 일부는 자동으로 되지만, 상당 부분은 개인 연구자가 필요에 따라 세부 항목을 만들어야 한다 (general)

(3) 연구자 자신이 논문을 읽고 느낀점과 종합적 사고를 간단히 적으면, 그걸 지지하거나 반박하는 문헌을 정리하는 문헌 정리 (claim)

(4) 연구자가 진행하는 프로젝트별로 정리하는 층위. 예를 들어 "조선시대 양반" 프로젝트가 있으면 이 프로젝트를 별도로 정리한다. 프로젝트를 "인제스트"하면 이 층위가 자동 생성된다. (projects) 

(5) 마지막으로 인덱스. 주제별로, 저자별로, 각 색인별로 정리한다. 위의 (1) 각 논문에서 정리한 모든 저자들의 논문과 도서가 알파벳 순으로 리스트되어 있다. 인덱스는 당연히 자동 생선된다. (index)

 

영어만, 한국어만, 한국어+영어, 세 가지 옵션 중 선택해서 구축할 수 있게 디자인했다. 제 개인 위키는 모든 페이지가 한국어+영어로 구축되어 있다. 

 

이게 이 템플릿의 특징이고, 보다 구체적인 내용은 readme, quickstart, philosophy에 적혀있다.

 

그런데 이렇게 해도 환각을 100% 피하는 것은 불가능하다. 어디엔가 구멍이 있고, 그 구멍을 AI는 귀신같이 찾아서 엉터리 내용을 넣는다. 궁극적으로 정확성을 담보하는 것은 개인 연구자의 몫이다. 

 

 

 

그럼 이게 왜 사회(과)학자들에게 유용한가 의문일 수 있는데, 저는 기억력이 나빠서 대학원 시절부터 논문을 읽으면 1-2페이지로 정리해서 ASCII 텍스트 파일로 저장하고 (위의 references 층위), 논문을 읽을 때 마다 관련된 추가 연구 질문은 무엇인지 (위의 claim 층위) 정리했었다. 이게 종합 시험 준비와 박사 논문 작성에 크게 도움이 되었다. 

 

그런데 이 정리 파일이 너무 많아져서 오히려 보지 않게 되어 버렸다. 정리된 노트 파일과 이걸 프린트해서 바인딩한게 너무 많아서, 어디에 뭐가 있는지 알 수도 없고, 그거 정리하는 것도 큰 작업이 되어버렸다. 그래서 예전 문헌 정리해둔 것을 안보게 되더라. 이런걸 잘 정리하는 분들도 있겠지만 저는 아니었다. 

 

개인의 리서치 위키를 구축하면 이 한계를 극복할 수 있다. 각 논문을 정리할 수 있고, 개인적 노트를 쓰면서 정리한 논문을 연계시킬 수 있고, AI가 알아서 각 개념과 논쟁의 역사를 정리해준다. General에서 어떻게 정리하는게 좋은지는 각자 정해서 AI에게 요청하면 된다. 관련된 문헌을 정리하라고 요청하면 예전문서부터 최근 문서까지 잘 링크해서 정리해준다. AI가 "위키 + RAG (이것도 템플릿에서 자동으로 구축하도록 되어 있는데, RAG가 뭔지 잘 모르면 찾아보시길)" 두 축으로 문헌을 찾고 정리하니까, 문헌 정리가 훨씬 더 용이해지더라. AI가 인용하거나 설명하는데 잘 기억이 안나는 논문은 바로 위키에서 찾아볼 수 있고. 

 

최근 논문 작업을 하면서 지금까지 구축한 것을 사용해봤는데 상당히 유용하더라. 

 

템플릿을 제공하지만, 제 경험에 의하면, 남이 만들어놓은 템플릿에 기반해서 자신의 연구에 사용할 만큼 높은 수준으로 위키를 구축할 수는 없다. 결국 스스로 시간과 비용을 투자해서 위키  구축 과정에서 발생하는 수 많은 문제를 해결해야 한다. 그럼에도 불구하고 이 템플릿이 초심자가 시작할 때 마주하는 진입 장벽을 아주 약간 낮추고 미약하나마 시간과 비용을 절약하는데 도움이 되었으면 좋겠다.  

 

개선 사항이나 기타 코멘트가 있으면 댓글로 남겨주시길. 

 

 

 

Ps. AI가 헤매는 또 다른 분야가 index 정리다. 저자를 알파벳 순으로 정렬하고 관련 논문을 모두 링크하게 되어 있는데, 알파벳이 뒤섞이거나, 관련 논문을 누락하는 경우가 빈번하다. 가끔 살펴봐서 오류를 지적하고 업데해야 한다. 논문이 많아지면, 저자나 논문을 혼돈하는 경우도 있더라. 글 쓸 때 도움을 받더라도 최종 확인은 반드시 본인이 직접 해야. 

 

Pps. 그래서 LLM-Wiki는 욕심내지 말고 논문 하나하나 구축하는게 좋다. PDF 왕창 던져주고 AI가 알아서 해주는 시스템으로 구축하면 반드시 문제가 생긴다. 작게 시작해서 연구자 자신의 논문 읽는 양이 늘면서 Wiki도 풍부해지는 그런 시스템이 좋지 않나 싶다. 지금 당장 쓸만한 위키로 구축할려면, 위키 구축 초기에 투자 비용과 시간을 상당히 들여야 한다. 

Posted by sovidence
,