Spaces:

Csplk
/

moondream2-batch-processing

Runtime error

App Files Files Community

Csplk commited on 7 days ago

Commit

8a039e2

verified ·

1 Parent(s): ed3a44a

Update app.py

Browse files

Files changed (1) hide show

app.py +4 -43

app.py CHANGED Viewed

@@ -8,7 +8,6 @@ from PIL import ImageDraw
 from torchvision.transforms.v2 import Resize
 from transformers import AutoModelForCausalLM
 moondream = AutoModelForCausalLM.from_pretrained(
     "moondream/moondream3-preview",
     trust_remote_code=True,
@@ -16,49 +15,12 @@ moondream = AutoModelForCausalLM.from_pretrained(
     device_map={"": "cuda"},
 )
 moondream.compile()
-tokenizer = AutoTokenizer.from_pretrained("moondream/moondream3-preview")
-"""
-#model_id = "vikhyatk/moondream2"
-#revision = "2025-01-09"
-#def load_moondream():
-#    Load Moondream model and tokenizer.
- #    model = AutoModelForCausalLM.from_pretrained(
-#        "vikhyatk/moondream2", trust_remote_code=True, device_map={"": "cuda"}
-#    )
-#    tokenizer = AutoTokenizer.from_pretrained("vikhyatk/moondream2")
-#    return model, tokenizer
-#tokenizer = AutoTokenizer.from_pretrained(model_id, revision=revision)
-#moondream = AutoModelForCausalLM.from_pretrained(
-#    model_id, trust_remote_code=True, revision=revision,
-#    torch_dtype=torch.bfloat16, device_map={"": "cuda"},
-#)
-#moondream.eval()
-model = AutoModelForCausalLM.from_pretrained(
-    "vikhyatk/moondream2",
-    trust_remote_code=True,
-    dtype=torch.bfloat16,
-    device_map="cuda", # "cuda" on Nvidia GPUs
-)
-"""
-@spaces.GPU(durtion="150")
 def answer_questions(image_tuples, prompt_text):
     # Encode image once
     image = [img[0] for img in image_tuples if img[0] is not none]
     encoded = moondream.encode_image(image)
-    # Reuse the encoding for multiple queries
-    questions = [
-        "How many people are in this image?",
-        "What time of day was this taken?",
-        "What's the weather like?"
-    ]
     for q in questions:
         result1 = moondream.query(image=encoded, question=q, reasoning=False)
@@ -85,7 +47,7 @@ def answer_questions(image_tuples, prompt_text):
     # With spatial hint (bounding box)
     result3 = model.segment(image, "cat", spatial_refs=[[0.2, 0.1, 0.8, 0.9]])
     print(result3)
     result = ""
     Q_and_A = ""
     prompts = [p.strip() for p in prompt_text.split('?')]
@@ -93,10 +55,9 @@ def answer_questions(image_tuples, prompt_text):
     answers = []
     for prompt in prompts:
-        answers.append(moondream.batch_answer(
             images=[img.convert("RGB") for img in image_embeds],
             prompts=[prompt] * len(image_embeds),
-            tokenizer=tokenizer
         ))
     for i, prompt in enumerate(prompts):
@@ -138,5 +99,5 @@ with gr.Blocks() as demo:
     with gr.Row():
         output2 = gr.Dataframe(label="Structured Dataframe", type="array", wrap=True)
     submit.click(answer_questions, inputs=[img, prompt], outputs=[output, output2])
 demo.queue().launch()

 from torchvision.transforms.v2 import Resize
 from transformers import AutoModelForCausalLM
 moondream = AutoModelForCausalLM.from_pretrained(
     "moondream/moondream3-preview",
     trust_remote_code=True,
     device_map={"": "cuda"},
 )
 moondream.compile()
 def answer_questions(image_tuples, prompt_text):
     # Encode image once
     image = [img[0] for img in image_tuples if img[0] is not none]
     encoded = moondream.encode_image(image)
+    questions = prompt_text
     for q in questions:
         result1 = moondream.query(image=encoded, question=q, reasoning=False)
     # With spatial hint (bounding box)
     result3 = model.segment(image, "cat", spatial_refs=[[0.2, 0.1, 0.8, 0.9]])
     print(result3)
     result = ""
     Q_and_A = ""
     prompts = [p.strip() for p in prompt_text.split('?')]
     answers = []
     for prompt in prompts:
+        answers.append(moondream.query(
             images=[img.convert("RGB") for img in image_embeds],
             prompts=[prompt] * len(image_embeds),
         ))
     for i, prompt in enumerate(prompts):
     with gr.Row():
         output2 = gr.Dataframe(label="Structured Dataframe", type="array", wrap=True)
     submit.click(answer_questions, inputs=[img, prompt], outputs=[output, output2])
 demo.queue().launch()