Vision-Language Containers#

Containers specialized for evaluating multimodal models that process both visual and textual information.

VLMEvalKit Container#

NGC Catalog: vlmevalkit

Container for Vision-Language Model evaluation toolkit.

Use Cases:

Pull Command:

docker pull nvcr.io/nvidia/eval-factory/vlmevalkit:25.10

Default Parameters:

Supported Benchmarks:

ocrbench - Optical character recognition and text understanding
slidevqa - Slide-based visual question answering (requires OPENAI_CLIENT_ID, OPENAI_CLIENT_SECRET)
chartqa - Chart and graph interpretation
ai2d_judge - AI2 Diagram understanding (requires OPENAI_CLIENT_ID, OPENAI_CLIENT_SECRET)