Spaces:

ACloudCenter
/

canary-qwen-transcriber-2.5b

Runtime error

App Files Files Community

ACloudCenter commited on Aug 26

Commit

e46b406

1 Parent(s): 7c3f7d9

feat: add GPU Zero acceleration first before attemping L4

Browse files

Files changed (2) hide show

app.py +21 -76
pre-requirements.txt +1 -0

app.py CHANGED Viewed

@@ -1,85 +1,30 @@
 import gradio as gr
 import torch
-import spaces
-from lhotse import Recording
 from nemo.collections.speechlm2 import SALM
-device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-SAMPLE_RATE = 16000
 model = SALM.from_pretrained("nvidia/canary-qwen-2.5b").bfloat16().eval().to(device)
 @spaces.GPU
-def transcribe_audio(audio_filepath):
-    if audio_filepath is None:
-        return "Please upload an audio file", ""
-    rec = Recording.from_file(audio_filepath, recording_id="temp")
-    cut = rec.resample(SAMPLE_RATE).to_cut()
-    if cut.num_channels > 1:
-        cut = cut.to_mono(mono_downmix=True)
-    audio, audio_lens = cut.load_audio()
-    with torch.inference_mode():
-        output_ids = model.generate(
-            prompts=[[{"role": "user", "content": f"Transcribe the following: {model.audio_locator_tag}"}]],
-            audios=torch.as_tensor(audio).unsqueeze(0).to(device),
-            audio_lens=torch.as_tensor([audio_lens]).to(device),
-            max_new_tokens=256,
-        )
-    transcript = model.tokenizer.ids_to_text(output_ids[0].cpu())
-    return transcript, transcript
-@spaces.GPU
-def answer_question(transcript, question):
-    if not transcript:
-        return "Please transcribe audio first"
-    with torch.inference_mode(), model.llm.disable_adapter():
-        output_ids = model.generate(
-            prompts=[[{"role": "user", "content": f"{question}\n\n{transcript}"}]],
-            max_new_tokens=512,
-        )
-    answer = model.tokenizer.ids_to_text(output_ids[0].cpu())
-    answer = answer.split("<|im_start|>assistant")[-1]
-    return answer.strip()
-with gr.Blocks(title="Canary-Qwen Transcriber & Q&A") as demo:
-    gr.Markdown("# Canary-Qwen Transcriber with Q&A")
-    gr.Markdown("Upload audio to transcribe, then ask questions about it!")
-    with gr.Row():
-        with gr.Column():
-            audio_input = gr.Audio(sources=["microphone", "upload"], type="filepath", label="Audio Input")
-            transcribe_btn = gr.Button("Transcribe", variant="primary")
-        with gr.Column():
-            transcript_output = gr.Textbox(label="Transcript", lines=8)
-    transcript_state = gr.State()
-    with gr.Row():
-        with gr.Column():
-            question_input = gr.Textbox(label="Ask a question about the transcript", placeholder="What is the main topic?")
-            ask_btn = gr.Button("Ask", variant="primary")
-        with gr.Column():
-            answer_output = gr.Textbox(label="Answer", lines=4)
-    transcribe_btn.click(
-        fn=transcribe_audio,
-        inputs=[audio_input],
-        outputs=[transcript_output, transcript_state]
-    )
-    ask_btn.click(
-        fn=answer_question,
-        inputs=[transcript_state, question_input],
-        outputs=[answer_output]
-    )
-demo.queue()
-demo.launch()

 import gradio as gr
+from transformers import pipeline
 import torch
 from nemo.collections.speechlm2 import SALM
+import spaces
+if torch.cuda.is_available():
+    device = torch.device("cuda")
+else:
+    device = torch.device("cpu")
+SAMPLE_RATE = 16000 # Hz - NVIDIA model sampling rate
+MAX_AUDIO_MINUTES = 120 # wont try to transcribe if longer than this
+CHUNK_SECONDS = 40.0  # max audio length seen by the model
+BATCH_SIZE = 192  # for parallel transcription of audio longer than CHUNK_SECONDS
+# Initialize the ASR model which is based on the "nvidia/canary-qwen-2.5b" architecture and uses NVIDIA's NeMo framework
 model = SALM.from_pretrained("nvidia/canary-qwen-2.5b").bfloat16().eval().to(device)
+transcriber = pipeline("automatic-speech-recognition", model = model)
+# Transcribe audio file using NeMo's transcribe class and use spaces for GPU acceleration
 @spaces.GPU
+def transcribe_audio(audio_file):
+    transcript = transcriber([audio_file])[0].text
+    return transcript
+demo = gr.Interface(
+    fn=transcribe_audio,
+    inputs=gr.Audio(source="upload", type="filepath"),
+    outputs=gr.Textbox())

pre-requirements.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ Cython