diff --git a/groundingdino/util/inference.py b/groundingdino/util/inference.py
index f4c6c92..fe3ac64 100644
--- a/groundingdino/util/inference.py
+++ b/groundingdino/util/inference.py
@@ -189,7 +189,7 @@ class Model:
         box_annotator = sv.BoxAnnotator()
         annotated_image = box_annotator.annotate(scene=image, detections=detections)
         """
-        caption = ", ".join(classes)
+        caption = ". ".join(classes)
         processed_image = Model.preprocess_image(image_bgr=image).to(self.device)
         boxes, logits, phrases = predict(
             model=self.model,