文献题目:Simple is not Easy: A Simple Strong Baseline for TextVQA and TextCaps
摘要
OCR(光学字符识别)工具可以识别的日常场景中出现的文本包含重要信息,例如街道名称、产品品牌和价格。两项任务——基于文本的视觉问答和…
文献题目:Pythia - A platform for vision & language research
摘要 本文介绍了 Pythia,一个用于视觉和语言任务的深度学习研究平台。 Pythia 以即插即用策略为核心,使研究人员能够为视觉和语言任务(如视觉问答 (VQA)、视觉…
文献题目:TextFuseNet: Scene Text Detection with Richer Fused Features文献时间:2020
摘要
自然场景中的任意形状文本检测是一项极具挑战性的任务。与仅基于有限特征表示来感知文本的现有文本检测方法不同,我们提出了一个新颖的框架&…
文献题目:VideoBERT: A Joint Model for Video and Language Representation Learning代码:https://github.com/ammesatyajit/VideoBERT
摘要
自我监督学习对于利用 YouTube 等平台上可用的大量未标记数据变得越来越重要。尽管大多数现有方法都学习低级…