트리루 기술 블로그

프론트엔드, 백엔드, DB, IT 인프라, AI 솔루션에 대한 인사이트와 실무 가이드를 공유합니다.

ALL

LLM 디코딩 파라미터 비교 — Temperature 0.1~0.9 실전 분석

Temperature를 얼마로 설정해야 할까요? 60문항 × 5단계 = 300회 실험으로 시나리오별 최적값과 환각 행동 차이를 실측합니다.

32B가 14B보다 2배 느립니다. 그만큼 품질이 좋을까요? 동일 60문항으로 속도, 품질, 환각 방어력을 직접 비교합니다.

16개 모델 실측으로 확인한 AWQ 양자화 효과. 모델이 클수록 속도 향상 극대화, MoE 30B가 Dense 14B보다 빠른 반전까지 분석합니다.

23개 모델을 SGLang으로 서빙하며 정리한 실전 설정 가이드. 양자화 선택부터 MoE 특수 설정, VRAM 관리, 트러블슈팅까지.

RTX 5060 Ti(16GB)에서 8B·14B 모델의 단일 속도부터 동시 30명 부하, 크로스서버 추론까지 종합 벤치마크 결과를 공개합니다.

7개 회사를 GPU 1장에서 동시 서빙하며 정보가 새지 않는지 15건의 격리 테스트를 실행한 결과를 공개합니다.

10쌍의 데이터와 6초의 학습으로 회사별 맞춤 AI를 만드는 LoRA 파인튜닝 실전 가이드를 공개합니다.

SGLang과 vLLM을 동일 GPU·모델·LoRA 조건에서 200명까지 부하 테스트한 실전 비교 결과를 공개합니다.

RTX PRO 6000에서 로컬 LLM 동시 접속 부하 테스트 결과를 공개합니다. 8B와 32B 모델로 동시 200명까지.

RTX PRO 6000에서 6개 LLM의 실제 토큰 생성 속도를 측정하고 속도-품질 트레이드오프를 분석합니다.