Finding the Needle in a Haystack: Comparing Multi-Vector Search Strategies

Model	Strategy	Hit@1	Hit@5	Hit@20	Avg. Latency (s)
`openai/clip-vit-base-patch32`	`base`	1.6%	4.7%	11.8%	0.008 s

Model	Strategy	Hit@1	Hit@5	Hit@20	Avg. Latency (s)
`vidore/colqwen2-v1.0`	`flatten`	1.9%	5.5%	11.9%	0.010 s
`vidore/colqwen2-v1.0`	`flatten and multi-vector rerank`	0.3%	1.5%	7.3%	0.692 s
`vidore/colqwen2-v1.0`	`hierarchical token pooling`	13.7%	60.5%	91.6%	0.144 s
`vidore/colqwen2-v1.0`	`base`	14.0%	65.4%	95.5%	0.668 s
`vidore/colpali-v1.3`	`flatten`	1.7%	4.5%	9.3%	0.008 s
`vidore/colpali-v1.3`	`flatten and multi-vector rerank`	0.6%	2.3%	6.9%	0.949 s
`vidore/colpali-v1.3`	`hierarchical token pooling`	10.8%	41.7%	64.8%	0.189 s
`vidore/colpali-v1.3`	`base`	11.3%	42.3%	65.6%	0.936 s
`vidore/colSmol-256M`	`flatten`	1.6%	4.7%	10.5%	0.008 s
`vidore/colSmol-256M`	`flatten and multi-vector rerank`	0.3%	1.6%	7.0%	0.853 s
`vidore/colSmol-256M`	`base`	14.4%	64.0%	91.7%	0.848 s

Model & Pooling Strategy	Hit@1	Hit@5	Hit@20	Avg. Latency (s)
`vidore/colqwen2-v1.0` (`mean_pooling`)	1.9%	5.5%	11.9%	0.010 s
`vidore/colqwen2-v1.0` (`max_pooling`)	1.4%	4.2%	11.2%	0.011 s
`vidore/colqwen2-v1.0` (`base`)	14.0%	65.4%	95.5%	0.668 s

Strategy (on `vidore/colqwen2-v1.0`)	Avg. Search Latency (s)	Hit@20 Accuracy
`flatten` (Fast but Ineffective)	0.010 s	11.9%
`flatten and multi-vector rerank` (Slower and Ineffective)	0.692 s	7.3%
`hierarchical token pooling` (Accurate & Fast)	0.144 s	91.6%
`base` (Most Accurate)	0.668 s	95.5%

name	_runtime	_step	_timestamp	_wandb	avg_inference_latency	avg_search_latency	hit_rates	model_name	strategy
vidore/colqwen2-v0.1_base	13410	0	1.75873e+09	{‘runtime’: 13410}	0.0418646	0.751151	{‘1’: 0.1355151515151515, ‘10’: 0.888, ‘20’: 0.9597575757575758, ‘3’: 0.3936969696969697, ‘5’: 0.6349090909090909}	vidore/colqwen2-v0.1	base
vidore/colqwen2-v1.0_rerank	13008	0	1.75873e+09	{‘runtime’: 13008}	0.0426252	0.692482	{‘1’: 0.003393939393939394, ‘10’: 0.03296969696969697, ‘20’: 0.07296969696969698, ‘3’: 0.010666666666666666, ‘5’: 0.015272727272727271}	vidore/colqwen2-v1.0	rerank
vidore/colpali-v1.3_flatten	2998	0	1.75872e+09	{‘runtime’: 2998}	0.0296511	0.00833224	{‘1’: 0.017454545454545455, ‘10’: 0.06448484848484848, ‘20’: 0.09333333333333334, ‘3’: 0.034666666666666665, ‘5’: 0.04509090909090909}	vidore/colpali-v1.3	flatten
vidore/colqwen2-v0.1_rerank	13512	0	1.75873e+09	{‘runtime’: 13512}	0.0418855	0.662372	{‘1’: 0.002909090909090909, ‘10’: 0.026424242424242423, ‘20’: 0.05987878787878788, ‘3’: 0.0075151515151515155, ‘5’: 0.014545454545454544}	vidore/colqwen2-v0.1	rerank
vidore/colqwen2-v1.0_base	12933	0	1.75873e+09	{‘runtime’: 12933}	0.0416839	0.667898	{‘1’: 0.14012121212121212, ‘10’: 0.8846060606060606, ‘20’: 0.9553939393939394, ‘3’: 0.4111515151515152, ‘5’: 0.6538181818181819}	vidore/colqwen2-v1.0	base
vidore/colpali-v1.3_rerank	12090	0	1.75873e+09	{‘runtime’: 12090}	0.0310783	0.949047	{‘1’: 0.006060606060606061, ‘10’: 0.03878787878787879, ‘20’: 0.06933333333333333, ‘3’: 0.014545454545454544, ‘5’: 0.022787878787878788}	vidore/colpali-v1.3	rerank
vidore/colqwen2-v1.0_flatten	4846	0	1.75874e+09	{‘runtime’: 4846}	0.0504031	0.010443	{‘1’: 0.018666666666666668, ‘10’: 0.07854545454545454, ‘20’: 0.11903030303030304, ‘3’: 0.041212121212121214, ‘5’: 0.055030303030303034}	vidore/colqwen2-v1.0	flatten
vidore/colqwen2-v0.1_base	10838	0	1.75874e+09	{‘runtime’: 10838}	0.04627	0.692836	{‘1’: 0.13575757575757577, ‘10’: 0.8870303030303031, ‘20’: 0.96, ‘3’: 0.3941818181818182, ‘5’: 0.6351515151515151}	vidore/colqwen2-v0.1	base
vidore/colqwen2-v0.1_flatten	4828	0	1.75874e+09	{‘runtime’: 4828}	0.0486335	0.0103028	{‘1’: 0.018424242424242423, ‘10’: 0.07224242424242425, ‘20’: 0.10521212121212122, ‘3’: 0.03903030303030303, ‘5’: 0.05212121212121213}	vidore/colqwen2-v0.1	flatten
vidore/colpali-v1.3_base	10253	0	1.75874e+09	{‘runtime’: 10253}	0.0312334	0.93611	{‘1’: 0.11272727272727272, ‘10’: 0.551030303030303, ‘20’: 0.6555151515151515, ‘3’: 0.29987878787878786, ‘5’: 0.4232727272727273}	vidore/colpali-v1.3	base
vidore/colqwen2-v0.1_flatten	4745	0	1.75874e+09	{‘runtime’: 4745}	0.0472825	0.00990508	{‘1’: 0.018424242424242423, ‘10’: 0.07296969696969698, ‘20’: 0.10496969696969696, ‘3’: 0.03951515151515152, ‘5’: 0.05236363636363636}	vidore/colqwen2-v0.1	flatten
vidore/colqwen2.5-v0.2_base	17218	0	1.75875e+09	{‘runtime’: 17218}	0.0540356	0.694855	{‘1’: 0.11903030303030304, ‘10’: 0.7127272727272728, ‘20’: 0.8366060606060606, ‘3’: 0.336, ‘5’: 0.5258181818181819}	vidore/colqwen2.5-v0.2	base
vidore/colqwen2.5-v0.2_rerank	16859	0	1.75875e+09	{‘runtime’: 16859}	0.0518383	0.71693	{‘1’: 0.0026666666666666666, ‘10’: 0.025212121212121213, ‘20’: 0.060848484848484846, ‘3’: 0.006787878787878788, ‘5’: 0.01187878787878788}	vidore/colqwen2.5-v0.2	rerank
vidore/colqwen2-v0.1_rerank	9484	0	1.75875e+09	{‘runtime’: 9484}	0.0445599	0.691609	{‘1’: 0.005333333333333333, ‘10’: 0.030545454545454542, ‘20’: 0.064, ‘3’: 0.010666666666666666, ‘5’: 0.017696969696969697}	vidore/colqwen2-v0.1	rerank
vidore/colSmol-256M_flatten	6822	0	1.75875e+09	{‘runtime’: 6822}	0.0404544	0.00822329	{‘1’: 0.01575757575757576, ‘10’: 0.06836363636363636, ‘20’: 0.10496969696969696, ‘3’: 0.03442424242424243, ‘5’: 0.04678787878787879}	vidore/colSmol-256M	flatten
vidore/colSmol-500M_base	12681	0	1.75875e+09	{‘runtime’: 12681}	0.0408026	0.850902	{‘1’: 0.136, ‘10’: 0.8029090909090909, ‘20’: 0.8993939393939394, ‘3’: 0.3806060606060606, ‘5’: 0.5975757575757575}	vidore/colSmol-500M	base
vidore/colSmol-500M_rerank	13066	0	1.75876e+09	{‘runtime’: 13066}	0.0440974	0.927632	{‘1’: 0.003636363636363637, ‘10’: 0.028606060606060607, ‘20’: 0.07054545454545455, ‘3’: 0.00896969696969697, ‘5’: 0.015030303030303033}	vidore/colSmol-500M	rerank
vidore/colSmol-256M_rerank	12646	0	1.75876e+09	{‘runtime’: 12646}	0.0391553	0.853279	{‘1’: 0.003393939393939394, ‘10’: 0.02909090909090909, ‘20’: 0.07006060606060606, ‘3’: 0.008727272727272728, ‘5’: 0.015515151515151517}	vidore/colSmol-256M	rerank
vidore/colqwen2.5-v0.2_flatten	6348	0	1.75876e+09	{‘runtime’: 6348}	0.0509971	0.00772653	{‘1’: 0.017696969696969697, ‘10’: 0.06545454545454546, ‘20’: 0.09284848484848485, ‘3’: 0.03515151515151515, ‘5’: 0.045575757575757575}	vidore/colqwen2.5-v0.2	flatten
vidore/colSmol-256M_base	11554	0	1.75876e+09	{‘runtime’: 11554}	0.0366467	0.848463	{‘1’: 0.1435151515151515, ‘10’: 0.8426666666666667, ‘20’: 0.9173333333333332, ‘3’: 0.40824242424242424, ‘5’: 0.6404848484848484}	vidore/colSmol-256M	base
vidore/colSmol-500M_flatten	6395	0	1.75876e+09	{‘runtime’: 6395}	0.0384664	0.00716238	{‘1’: 0.018424242424242423, ‘10’: 0.07345454545454545, ‘20’: 0.11393939393939394, ‘3’: 0.03903030303030303, ‘5’: 0.05090909090909091}	vidore/colSmol-500M	flatten
openai/clip-vit-base-patch32_base	815	0	1.75876e+09	{‘runtime’: 815}	0.00533487	0.00794629	{‘1’: 0.016, ‘10’: 0.07636363636363637, ‘20’: 0.11757575757575756, ‘3’: 0.03296969696969697, ‘5’: 0.04703030303030303}	openai/clip-vit-base-patch32	base
vidore/colqwen2-v0.1_max_pooling	8758	0	1.7595e+09	{‘runtime’: 8758}	0.0985753	0.0106716	{‘1’: 0.015515151515151517, ‘10’: 0.07296969696969698, ‘20’: 0.11248484848484848, ‘3’: 0.032484848484848484, ‘5’: 0.04703030303030303}	vidore/colqwen2-v0.1	max_pooling
vidore/colpali-v1.3_max_pooling	4728	0	1.75949e+09	{‘runtime’: 4728}	0.0718573	0.0103053	{‘1’: 0.011393939393939394, ‘10’: 0.05672727272727273, ‘20’: 0.08872727272727272, ‘3’: 0.02666666666666667, ‘5’: 0.03709090909090909}	vidore/colpali-v1.3	max_pooling
vidore/colqwen2-v1.0_max_pooling	8760	0	1.7595e+09	{‘runtime’: 8760}	0.0981102	0.0106316	{‘1’: 0.013575757575757576, ‘10’: 0.06933333333333333, ‘20’: 0.112, ‘3’: 0.02812121212121212, ‘5’: 0.041939393939393936}	vidore/colqwen2-v1.0	max_pooling
vidore/colqwen2-v0.1_max_pooling	7696	0	1.7595e+09	{‘runtime’: 7696}	0.105203	0.011907	{‘1’: 0.016242424242424242, ‘10’: 0.07321212121212121, ‘20’: 0.1132121212121212, ‘3’: 0.03442424242424243, ‘5’: 0.04945454545454545}	vidore/colqwen2-v0.1	max_pooling
vidore/colSmol-256M_max_pooling	13982	0	1.75951e+09	{‘runtime’: 13982}	0.0999708	0.0121211	{‘1’: 0.00993939393939394, ‘10’: 0.05818181818181818, ‘20’: 0.09187878787878788, ‘3’: 0.025212121212121213, ‘5’: 0.037575757575757575}	vidore/colSmol-256M	max_pooling
vidore/colSmol-500M_max_pooling	14191	0	1.75951e+09	{‘runtime’: 14191}	0.111858	0.0121703	{‘1’: 0.012363636363636365, ‘10’: 0.07539393939393939, ‘20’: 0.13187878787878787, ‘3’: 0.02787878787878788, ‘5’: 0.0416969696969697}	vidore/colSmol-500M	max_pooling
vidore/colqwen2-v0.1_hierarchical_pooling	4507	0	1.7599e+09	{‘runtime’: 4507}	0.0320023	0.133653	{‘1’: 0.1296969696969697, ‘10’: 0.8504242424242424, ‘20’: 0.9343030303030304, ‘3’: 0.37527272727272726, ‘5’: 0.6041212121212122}	vidore/colqwen2-v0.1	hierarchical_pooling
vidore/colpali-v1.3_hierarchical_pooling	5816	0	1.7599e+09	{‘runtime’: 5816}	0.0217625	0.188727	{‘1’: 0.10763636363636364, ‘10’: 0.5372121212121213, ‘20’: 0.6482424242424243, ‘3’: 0.29333333333333333, ‘5’: 0.4167272727272727}	vidore/colpali-v1.3	hierarchical_pooling
vidore/colqwen2.5-v0.2_hierarchical_pooling	8430	0	1.75991e+09	{‘runtime’: 8430}	0.043073	0.141276	{‘1’: 0.11103030303030303, ‘10’: 0.6892121212121212, ‘20’: 0.8203636363636364, ‘3’: 0.3185454545454545, ‘5’: 0.4989090909090909}	vidore/colqwen2.5-v0.2	hierarchical_pooling
vidore/colqwen2-v1.0_hierarchical_pooling	5685	0	1.75991e+09	{‘runtime’: 5685}	0.0343824	0.144062	{‘1’: 0.13745454545454547, ‘10’: 0.822060606060606, ‘20’: 0.9156363636363636, ‘3’: 0.3856969696969697, ‘5’: 0.6050909090909091}	vidore/colqwen2-v1.0	hierarchical_pooling

Social media

The Dataset

The Task: The Document Haystack Dataset

Models and Architectures

Single-Vector (Bi-Encoder) Baseline: `openai/clip-vit-base-patch32`

Multi-Vector (Late-Interaction) Models

Different Retrieval Strategies Used

1. `base`: The Gold Standard (Full Multi-Vector Search)

2. `flatten`: Mean Pooling

3. `max_pooling`

4. `flatten and multi-vector rerank`: The Hybrid “Optimization”

5. `hierarchical token pooling`: Compressing the Haystack

The Results

Baseline Performance: Single-Vector Bi-Encoder

Multi-Vector Model Performance

In-Depth Analysis of Pooling Strategies

Latency:

Practical Considerations:

Search Latency and Computational Complexity

When to Use Multi-Vector Search

Appendix: Full Benchmark Results

The Dataset

The Task: The Document Haystack Dataset

Models and Architectures

Single-Vector (Bi-Encoder) Baseline: openai/clip-vit-base-patch32

Multi-Vector (Late-Interaction) Models

Different Retrieval Strategies Used

1. base: The Gold Standard (Full Multi-Vector Search)

2. flatten: Mean Pooling

3. max_pooling

4. flatten and multi-vector rerank: The Hybrid “Optimization”

5. hierarchical token pooling: Compressing the Haystack

The Results

Baseline Performance: Single-Vector Bi-Encoder

Multi-Vector Model Performance

In-Depth Analysis of Pooling Strategies

Latency:

Practical Considerations:

Search Latency and Computational Complexity

When to Use Multi-Vector Search

Appendix: Full Benchmark Results

Single-Vector (Bi-Encoder) Baseline: `openai/clip-vit-base-patch32`

1. `base`: The Gold Standard (Full Multi-Vector Search)

2. `flatten`: Mean Pooling

3. `max_pooling`

4. `flatten and multi-vector rerank`: The Hybrid “Optimization”

5. `hierarchical token pooling`: Compressing the Haystack