[Benchmark] Add Support for LVOmniBench by KD-TAO · Pull Request #1510 · open-compass/VLMEvalKit

KD-TAO · 2026-04-09T10:56:30Z

Summary

Add LVOmniBench, a benchmark for evaluating omnimodal LLMs on long-form audio-video understanding.

Fine-grained accuracy across 4 dimensions:
- question_type (9 categories): Attribute Perception, Counting, Event Understanding, etc.
- audio_type (3 categories): Speech, Music, Sound
- difficulty (3 levels): High, Medium, Low
- video_category (6 categories): Film & TV, Entertainment, Sports, etc.

File	Change
`vlmeval/dataset/lvomnibench.py`	New dataset class
`vlmeval/dataset/utils/lvomnibench.py`	Evaluation utilities
`vlmeval/dataset/__init__.py`	Registration (+2 lines)
`vlmeval/dataset/video_dataset_config.py`	Config variants (+11 lines)

# Default (video_llm mode, no frame extraction)              
python run.py --data LVOmniBench --model Qwen2.5-Omni-7B-ForVideo

Add LVOmniBench - Long Audio-Video Understanding Benchmark

c491273