3/26(목) 회의 자료

0. 이번 주 진행사항 요약

50명 동시접속 시 3.4초 내 응답 가능 [ 현 코드플레이스 운영 서버 로컬 환경에서 테스트 결과 / RTX5090 ]

항목	30명 테스트 (목표 달성)	50명	80명	100명
평균 응답 시간	2.891초	3.400초	6.205초	8.098초
성공/실패	성공 1,817건 / 실패 0건	성공 2723 / 실패 0	성공 2825 / 실패 0	성공 2891 / 실패 0
Prefix Cache Hit Rate	약 95.56%	약 95.5%	95.5%	95.5%
VRAM 사용량	약 31.1GB	31.1GB	31.3GB	31.6GB

모델의 응답 속도와 용량, 성능, 서버 사양 등을 모두 고려하여 Qwen2.5 Coder 7B Instruct 모델로 선정하게 되었습니다.