Large Language Model (1) 썸네일형 리스트형 vLLM (1): 빌드하여 파이썬 패키지 설치, API 호출하는 예제 코드 작성 What is vLLM?최근 성능이 좋은 LLM의 경우 오픈 소스로 배포되는 경우가 많은데, 모델의 훈련된 parameter가 배포되었다면, 사용자나 application을 개발하는 입장에서는 훈련된 parameter를 받아와서 추론 (inference) 서비스를 잘 실행하는 것이 중요하다. 서버 환경에서 여러 사용자 요청이 동시 다발적으로 들어오는 환경에서 추론 서비스를 제공해야 하는 경우 scheduling, batching, memory management 등 시스템적으로 고려해야 할 요소가 많고, 특정 요청만을 GPU에서 돌리는 경우라도 GPU가 여러 개 있으면 어떻게 잘 나눠서 사용할 것인지, 메모리가 부족하면 어떻게 할 것인지, 모델에서 정의된 수학적 연산을 실제 GPU 하드웨어에서 어떻게 잘.. 이전 1 다음