Spaces:

ACloudCenter
/

canary-qwen-transcriber-2.5b

Runtime error

App Files Files Community

ACloudCenter commited on Aug 26

Commit

4c3f05f

1 Parent(s): 5bc92c5

feat: add additional comments for function clarity. Fix pipeline error by using model.generate() directly

Browse files

Files changed (1) hide show

app.py +26 -14

app.py CHANGED Viewed

@@ -4,53 +4,64 @@ import spaces
 from lhotse import Recording
 from nemo.collections.speechlm2 import SALM
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 SAMPLE_RATE = 16000
 model = SALM.from_pretrained("nvidia/canary-qwen-2.5b").bfloat16().eval().to(device)
 @spaces.GPU
 def transcribe_audio(audio_filepath):
     if audio_filepath is None:
         return "Please upload an audio file", ""
     rec = Recording.from_file(audio_filepath, recording_id="temp")
     cut = rec.resample(SAMPLE_RATE).to_cut()
     if cut.num_channels > 1:
         cut = cut.to_mono(mono_downmix=True)
     audio, audio_lens = cut.load_audio()
     with torch.inference_mode():
         output_ids = model.generate(
-            prompts=[[{"role": "user", "content": f"Transcribe the following: {model.audio_locator_tag}"}]],
             audios=torch.as_tensor(audio).unsqueeze(0).to(device),
-            audio_lens=torch.as_tensor([audio_lens]).to(device),
-            max_new_tokens=256,
         )
     transcript = model.tokenizer.ids_to_text(output_ids[0].cpu())
     return transcript, transcript
-@spaces.GPU
 def answer_question(transcript, question):
     if not transcript:
         return "Please transcribe audio first"
     with torch.inference_mode(), model.llm.disable_adapter():
         output_ids = model.generate(
-            prompts=[[{"role": "user", "content": f"{question}\n\n{transcript}"}]],
             max_new_tokens=512,
         )
     answer = model.tokenizer.ids_to_text(output_ids[0].cpu())
     answer = answer.split("<|im_start|>assistant")[-1]
     return answer.strip()
 with gr.Blocks(title="Canary-Qwen Transcriber & Q&A") as demo:
     gr.Markdown("# Canary-Qwen Transcriber with Q&A")
-    gr.Markdown("Upload audio to transcribe, then ask questions about it!")
     with gr.Row():
         with gr.Column():
             audio_input = gr.Audio(sources=["microphone", "upload"], type="filepath", label="Audio Input")
@@ -58,7 +69,8 @@ with gr.Blocks(title="Canary-Qwen Transcriber & Q&A") as demo:
         with gr.Column():
             transcript_output = gr.Textbox(label="Transcript", lines=8)
     transcript_state = gr.State()
     with gr.Row():

 from lhotse import Recording
 from nemo.collections.speechlm2 import SALM
+# Set device to use cuda if available and sample rate to 16000 for Nvidia NeMo
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 SAMPLE_RATE = 16000
+# Load the model from Hugging Face Hub using Nvidia SALM
 model = SALM.from_pretrained("nvidia/canary-qwen-2.5b").bfloat16().eval().to(device)
+# Define the audio transcription function and use ZeroGPU
 @spaces.GPU
 def transcribe_audio(audio_filepath):
     if audio_filepath is None:
         return "Please upload an audio file", ""
+    # Load and preprocess audio from the users file
     rec = Recording.from_file(audio_filepath, recording_id="temp")
+    # Resample and convert to mono if needed
     cut = rec.resample(SAMPLE_RATE).to_cut()
     if cut.num_channels > 1:
         cut = cut.to_mono(mono_downmix=True)
+    # Load audio data
     audio, audio_lens = cut.load_audio()
+    # Generate transcription
     with torch.inference_mode():
         output_ids = model.generate(
+            prompts=[[{"role": "user", "content": f"Transcribe the following: {model.audio_locator_tag}"}]], # torch.as_tensor is used to convert the audio data to a tensor for model input
             audios=torch.as_tensor(audio).unsqueeze(0).to(device),
+            audio_lens=torch.as_tensor([audio_lens]).to(device), # torch.as_tensor is used to convert the audio length to a tensor for model input
+            max_new_tokens=256, # Maximum number of tokens to generate
         )
+    # Convert output IDs to text then return the transcript
     transcript = model.tokenizer.ids_to_text(output_ids[0].cpu())
     return transcript, transcript
+# Define the question answering function for transcription queries
+@spaces.GPU
 def answer_question(transcript, question):
     if not transcript:
         return "Please transcribe audio first"
     with torch.inference_mode(), model.llm.disable_adapter():
         output_ids = model.generate(
+            prompts=[[{"role": "user", "content": f"{question}\n\n{transcript}"}]], # torch.as_tensor is used to convert the audio data to a tensor for model input
             max_new_tokens=512,
         )
+    # Convert output IDs to text then return the answer
     answer = model.tokenizer.ids_to_text(output_ids[0].cpu())
     answer = answer.split("<|im_start|>assistant")[-1]
     return answer.strip()
+# Build the Gradio interface
 with gr.Blocks(title="Canary-Qwen Transcriber & Q&A") as demo:
     gr.Markdown("# Canary-Qwen Transcriber with Q&A")
+    gr.Markdown("Upload or record audio to transcribe, then ask questions about it.")
     with gr.Row():
         with gr.Column():
             audio_input = gr.Audio(sources=["microphone", "upload"], type="filepath", label="Audio Input")
         with gr.Column():
             transcript_output = gr.Textbox(label="Transcript", lines=8)
+    # Define a state variable to hold the transcript
     transcript_state = gr.State()
     with gr.Row():