0. 이번 주 진행사항 요약

1. 로컬 LLM 가용성 평가 결과

50명 동시접속 시 3.4초 내 응답 가능 [ 현 코드플레이스 운영 서버 로컬 환경에서 테스트 결과 / RTX5090 ]

항목 30명 테스트 (목표 달성) 50명 80명 100명
평균 응답 시간 2.891초 3.400초 6.205초 8.098초
성공/실패 성공 1,817건 / 실패 0건 성공 2723 / 실패 0 성공 2825 / 실패 0 성공 2891 / 실패 0
Prefix Cache Hit Rate 약 95.56% 약 95.5% 95.5% 95.5%
VRAM 사용량 약 31.1GB 31.1GB 31.3GB 31.6GB

2. 로컬 LLM 모델 선정

모델의 응답 속도와 용량, 성능, 서버 사양 등을 모두 고려하여 Qwen2.5 Coder 7B Instruct 모델로 선정하게 되었습니다.

image.png

image.png

3. 기획

3.1. 기본 디자인 구성

AI조교 UI