EN
www.zqysoft.com

17.c.cow起草微软推出深度视频探索智能体,登顶多个长视频理解基准

尽管大型语言模型(LLMs)和大型视觉 - 语言模型(VLMs)在视频分析和长语境处理方面取得了显著进展,但它们在处理信息密集的数小时长视频时仍显示出局限性。 本文提出了一种新颖的智能体 Deep Video Discovery (DVD),通过将长视频分割为更短的片段并将其视作环境,利用 LLM 先进的推理能力来思考问题并自主规划,选择具有适当参数的工具来从环境中逐步获取信息,最终回答问题。在最新的推理模型OpenAI o3的帮助下, DVD以这一简洁有效的 agentic 框架在非常具有挑战性的LVBench上以74.2%的准确率大幅超越了之前的工作。这一工作将以MCP Server的形式开源。 不同于之前的视频智能体框架依赖于手动设计的固定工作流程,DVD 强调其作为智能体的自主性,即通过自主规划,决策和行动来解决问题。 为了充分利用这一自主性,我们将原始的长视频转换为多粒度视频数据库,并提供了一套以搜索为中心的工具使得智能体在不同阶段搜集不同粒度的信息。具体来说该系统主要由三个核心组件构成:多粒度视频数据库、以搜索为中心的工具集以及作为智能体协调器的 LLM。 在 “多粒度视频数据库构建” 阶段,系统将超长视频转换为一个结构化数据库,通过统一将视频分割成短片段(例如 5 秒),并提取全局、片段和帧级别的多粒度信息,包括主题中心化摘要、片段字幕及其嵌入向量,以及原始解码帧...。 (2)片段搜索(Clip Search)工具,实现通过片段描述 Embedding 对视频内容进行高效语义检索,并返回排名靠前的相关视频片段及其字幕和时间范围。 LLM 作为核心认知驱动器,在迭代的 “观察 - 推理 - 行动” 循环中,根据累积的知识和推理证据采取行动,从而赋予智能体自主、证据引导和灵活的行动机制,有效地将原始查询分解为逐步细化的子查询来解答问题。 该系统在多个长视频基准测试上进行了全面评估,展现了其卓越的效率和强大的性能。在极具挑战性的 LVBench 数据集上,DVD 智能体取得了 74.2% 的最新准确率,大幅超越了所有现有工作,包括先前的最先进模型 MR. Video(13.4% 的提升)和 VCA(32.9% 的提升)。在辅助转录的帮助下,准确率进一步提高到 76.0%。在 LongVideoBench、Video MME Long 子集和 EgoSchema 等其他长视频基准测试中,DVD 也持续超越了先前的最先进性能。 图 3:不同基础模型在智能体中的行为分析。图中可以明显看出不同基础模型表现出显著的行为模式差异,不具有推理能力 GPT-4o 表现出非常单一的行为模型。 消融研究证实了工具设计的有效性,并强调了推理模型在整个智能体系统中的关键作用:更换推理模型(如使用 OpenAI o4-mini 或 GPT-4o)会导致性能下降,这表明 LLM 推理能力的缺失会导致智能体行为崩溃。对智能体推理行为的分析也揭示了不同模型在工具调用模式、推理深度和准确性之间的关联,例如 GPT-4o 表现出过度自信和行为崩溃,倾向于过早结束推理。这些行为模式的分析进一步为未来的智能体设计以及基础语言模型的发展提供了实践参考。

17.c.cow起草
17.c.cow起草他们觉得儿子大学四年的书都白读了,于是经常打电话给林宇,要求他将来去考研、考编或者考公务员,希望他能通过这些途径找到一份更有发展前景的工作。王治郅在八一男篮的号码是14号,但在国家队早期因为14号有人穿,他先后穿过6号(1996年奥运会)和15号(2000年奥运会 ),直到后来重返国家队后才开始穿14号球衣 。2001年加盟小牛队时,小牛队14号球衣归纳胡拉所有。大郅灵机一动,改穿16号球衣,联赛是14号,国家队是15号,在NBA穿16号,寓意事业步步高升。17.c.cow起草宝宝下面湿透了还嘴硬的原因另外,热火再次真正追求杜兰特——就像他们在2月交易截止日追逐他一样。最终,从太阳队的角度来看,热火队的报价甚至可能被证明是最有吸引力的。消息人士称,当杜兰特请求篮网交易自己时,热火在他期望的交易目的地名单上排名很高。请记住,热火队在关于巴特勒的多次交易对话中,也试图从太阳换回杜兰特。不过,此前有报道称,热火不愿意在关于杜兰特的交易中放入阿德巴约、希罗或者韦尔,他们更希望以哈克斯或者约维奇+薪金配平筹码(维金斯/邓罗)+多个首轮作为报价的基础。热火最多可交易3个首轮。当然了,这些产品目前基本处于“未来可期”的状态,Thor直到最近才确定低配版会在小米YU7上使用;而英特尔那边…除了一个前景不明的参考设计,汽车业务如今更是迷雾重重。
20250813 👅 17.c.cow起草作为当今联盟的顶级分卫之一,米切尔不仅拥有篮下爆炸性的终结能力,更擅长命中高难度投篮,这正是顶级无球后卫的核心竞争力。虽然同样存在投篮波动性问题,且造犯规能力尚未达到精英水准制约了上限,但这位乐透末段逆袭的球星已证明自己足以担任争冠级别球队的核心。女性一晚上3次纵欲导致不孕1、之前看过西红门(兴海家园)、新宫、高米店、和义、玉泉营、西罗园、丰台东大街、大红门(建欣苑)等片区,西红门的楼龄最新户型合理,但只能买一居,且早晚高峰堵车严重;大红门建欣苑楼龄不新,可以买两居,但客厅无窗。
17.c.cow起草
📸 付金花记者 李英 摄
20250813 🔞 17.c.cow起草2023年,郭宇欣在漫改剧《烈焰》里和前辈大美女马苏出演同一角色心月狐,诚如观众如言,倒不如让她一人来演心月狐,因为马苏年纪明显不合适了。日本mv与欧美mv的区别以上是我们对华为 Pura80 Ultra 的快速上手,接下来,爱范儿也将为大家带来华为 Pura80 Ultra 深度影像评测,也欢迎在评论区给我们留言,我们帮你测!
17.c.cow起草
📸 廖龙均记者 贾玉江 摄
💋 公司将2025年资本支出预测上调至720亿美元,然而第一季度31%的投资资本回报率创下历史纪录,是2023年公司深陷元宇宙泥潭时的两倍多,这种反差让投资者重新审视Meta的AI战略。什么是鉴黄师
扫一扫在手机打开当前页