I am using the following code to use lora to finetune Llama-7B import torch from datasets import Dataset from transformers import AutoTokenizer, AutoModelForCausalLM, DataCollatorForSeq2Seq, TrainingArguments, Trainer from peft import LoraConfig, TaskType, get_peft_model ds = Dataset.load_from_dis…

magically, after change device_map='auto' to device_map='cuda', everything works fine

RuntimeError: CUDA error: CUBLAS_STATUS_EXECUTION_FAILED when calling `cublasGemmEx( handle, opa, opb, m, n, k, &falpha, a, CUDA_R_16F, lda, b, CUDA_R_16F, ldb, &fbeta, c, CUDA_R_16F, ldc, CUDA_R_32F, CUBLAS_GEMM_DEFAULT_TENSOR_OP)

nielsr September 30, 2024, 1:36pm 3

Hi,

1 Like