50명 동시접속 시 3.4초 내 응답 가능 [ 현 코드플레이스 운영 서버 로컬 환경에서 테스트 결과 / RTX5090 ]
| 항목 | 30명 테스트 (목표 달성) | 50명 | 80명 | 100명 |
|---|---|---|---|---|
| 평균 응답 시간 | 2.891초 | 3.400초 | 6.205초 | 8.098초 |
| 성공/실패 | 성공 1,817건 / 실패 0건 | 성공 2723 / 실패 0 | 성공 2825 / 실패 0 | 성공 2891 / 실패 0 |
| Prefix Cache Hit Rate | 약 95.56% | 약 95.5% | 95.5% | 95.5% |
| VRAM 사용량 | 약 31.1GB | 31.1GB | 31.3GB | 31.6GB |
따라서 외부 API 도입이 불필요하다고 판단하였습니다.
Streaming 방식 도입 시 평균 응답 시간을 더 줄일 수 있을 것으로 기대 (첫 출력 0.5초 미만)

모델의 응답 속도와 용량, 성능, 서버 사양 등을 모두 고려하여 Qwen2.5 Coder 7B Instruct 모델로 선정하게 되었습니다.

