Slow speed with large context

owaisorakzai · July 24, 2024, 2:19pm

Hello everyone. I am using ibm granite 20b model for code generation task, its working pretty good but when I make my prompt and examples in prompt longer, it gets very slow… Can anyone tell how can I make it faster with longer prompts. I have already applied quantization etc

Topic		Replies	Views
Conversational pipeline by huggingface transformer taking too long to generate output 🤗Transformers	0	852	September 27, 2023
Handle long generation in text generation pipeline 🤗Transformers	0	517	June 16, 2023
Inference slows down after restrictions 🤗Transformers	0	210	March 22, 2021
Optimize response time of model output 🤗Transformers	0	695	December 23, 2021
Closest model available to OpenAI's codex/ GitHub Copilot for code completion 🤗Transformers	6	7857	August 7, 2023

Slow speed with large context

Related topics