Agentic Reasoning for Robust Vision Systems via Increased Test-Time Compute

Chung-En (Johnny) Yu; Brian Jalaian; Nathaniel D Bastian

doi:10.48550/arxiv.2509.16343

Back

Agentic Reasoning for Robust Vision Systems via Increased Test-Time Compute

Preprint

Open access

Agentic Reasoning for Robust Vision Systems via Increased Test-Time Compute

Chung-En (Johnny) Yu, Brian Jalaian and Nathaniel D Bastian

arXiv

09/19/2025

DOI: https://doi.org/10.48550/arxiv.2509.16343

Metrics

2 File views/ downloads

13 Record Views

Abstract

Developing trustworthy intelligent vision systems for high-stakes domains, e.g., remote sensing and medical diagnosis, demands broad robustness without costly retraining. We propose Visual Reasoning Agent (VRA), a training-free, agentic reasoning framework that wraps off-the-shelf vision-language models and pure vision systems in a Think--Critique--Act loop. While VRA incurs significant additional test-time computation, it achieves up to 40\% absolute accuracy gains on challenging visual reasoning benchmarks. Future work will optimize query routing and early stopping to reduce inference overhead while preserving reliability in vision tasks.

Files and links (2)

pdf

Agentic Reasoning for Robust Vision Systems via Increased Test-Time Compute731.37 kBDownload View

Preprint Preprint pdfCC BY V4.0, Open Access

url

Agentic Reasoning for Robust Vision Systems via Increased Test-Time ComputeView

Preprint link to articleCC BY V4.0, Open

Details

Title: Agentic Reasoning for Robust Vision Systems via Increased Test-Time Compute
Resource Type: Preprint
Publisher: arXiv
Format: link and pdf
Identifiers: 99381512426906600
Academic Unit: Intelligent Systems and Robotics; Hal Marcus College of Science and Engineering
Language: English

Agentic Reasoning for Robust Vision Systems via Increased Test-Time Compute

Metrics

Abstract

Files and links (2)

Details

University of West Florida Social media