지난번에는 Intel Gaudi2 및 vLLM을 활용하여 LLM 모델을 serving하는 방법에 대해서 글을 작성해보았는데요. 이번에는 Quantinization된 모델을 활용하는 방법 그리고 Fine-tuning하는 방법에 대해서 다루어 보고자 합니다 * 준비 사항Docker 이미지 pull 및 컨테이너 구동 docker pull vault.habana.ai/gaudidocker/1.20.0/ubuntu22.04/habanalabs/pytorch-installer-2.6.0:latestdocker run -it --runtime=habana \-e HABANA_VISIBLE_DEVICES=all \-e OMPI_MCA_btl_vader_single_copy_mechanism=none --cap-add..