Sang, Haifeng, and Ge Hai. “A Framework: Region-Frame-Attention-Compact Bilinear Pooling Layer Based S2VT For Video Description”. European Journal of Applied Sciences 7, no. 4 (September 8, 2019): 17–30. Accessed February 4, 2026. http://116.203.177.230/index.php/AIVP/article/view/6717.