尽管大型语言模型(LLMs)和大型视觉 - 语言模型(VLMs)在视频分析和长语境处理方面取得了显著进展,但它们在处理信息密集的数小时长视频时仍显示出局限性。 本文提出了一种新颖的智能体 Deep Video Discovery (DVD),通过将长视频分割为更短的片段并将其视作环境,利用 LLM 先进的推理能力来思考问题并自主规划,选择具有适当参数的工具来从环境中逐步获取信息,最终回答问题。在最新的推理模型OpenAI o3的帮助下, DVD以这一简洁有效的 agentic 框架在非常具有挑战性的LVBench上以74.2%的准确率大幅超越了之前的工作。这一工作将以MCP Server的形式开源。 不同于之前的视频智能体框架依赖于手动设计的固定工作流程,DVD 强调其作为智能体的自主性,即通过自主规划,决策和行动来解决问题。 为了充分利用这一自主性,我们将原始的长视频转换为多粒度视频数据库,并提供了一套以搜索为中心的工具使得智能体在不同阶段搜集不同粒度的信息。具体来说该系统主要由三个核心组件构成:多粒度视频数据库、以搜索为中心的工具集以及作为智能体协调器的 LLM。 在 “多粒度视频数据库构建” 阶段,系统将超长视频转换为一个结构化数据库,通过统一将视频分割成短片段(例如 5 秒),并提取全局、片段和帧级别的多粒度信息,包括主题中心化摘要、片段字幕及其嵌入向量,以及原始解码帧...。 (2)片段搜索(Clip Search)工具,实现通过片段描述 Embedding 对视频内容进行高效语义检索,并返回排名靠前的相关视频片段及其字幕和时间范围。 LLM 作为核心认知驱动器,在迭代的 “观察 - 推理 - 行动” 循环中,根据累积的知识和推理证据采取行动,从而赋予智能体自主、证据引导和灵活的行动机制,有效地将原始查询分解为逐步细化的子查询来解答问题。 该系统在多个长视频基准测试上进行了全面评估,展现了其卓越的效率和强大的性能。在极具挑战性的 LVBench 数据集上,DVD 智能体取得了 74.2% 的最新准确率,大幅超越了所有现有工作,包括先前的最先进模型 MR. Video(13.4% 的提升)和 VCA(32.9% 的提升)。在辅助转录的帮助下,准确率进一步提高到 76.0%。在 LongVideoBench、Video MME Long 子集和 EgoSchema 等其他长视频基准测试中,DVD 也持续超越了先前的最先进性能。 图 3:不同基础模型在智能体中的行为分析。图中可以明显看出不同基础模型表现出显著的行为模式差异,不具有推理能力 GPT-4o 表现出非常单一的行为模型。 消融研究证实了工具设计的有效性,并强调了推理模型在整个智能体系统中的关键作用:更换推理模型(如使用 OpenAI o4-mini 或 GPT-4o)会导致性能下降,这表明 LLM 推理能力的缺失会导致智能体行为崩溃。对智能体推理行为的分析也揭示了不同模型在工具调用模式、推理深度和准确性之间的关联,例如 GPT-4o 表现出过度自信和行为崩溃,倾向于过早结束推理。这些行为模式的分析进一步为未来的智能体设计以及基础语言模型的发展提供了实践参考。
AE做片段视频至于塞斯科何时离队,巴萨诺维奇说:“可能是下周……或者明年,甚至是三年后!即使球员可能非常希望加盟某家俱乐部,我们也绝不会强迫或勒索莱比锡。我相信这不是正确的方式,因为离开俱乐部的方式体现了你的价值观。这些价值观将带入新的俱乐部。我知道在重大转会中有很多不同的利益关系,但我相信足球世界应该有更多的尊重。所以我们做事要么正确,要么不做。很简单,尽管在媒体看来可能很复杂。”首场小组赛,奥克兰城0-10输给拜仁,周通替补出场,表现不俗。昨日,奥克兰城迎来了他们的第二场小组赛,主帅让周通首发出场。上半场,周通和队友全力防守,挡住了对手一次又一次的进攻。AE做片段视频女性一晚上3次纵欲导致不孕此前马德里竞技在世俱杯小组赛三轮比赛结束后取得了2胜1负积6分的战绩,最终因为相互交手净胜球的劣势被淘汰出局。当前大语言模型应用的关键在于优化“生成-验证”循环效率。一方面,GUI利用人类视觉系统快速审查结果,读文本费力而看图轻松;另一方面,必须控制AI的“自主性”:10000行代码的diff对开发者毫无意义,人类仍是质量瓶颈。我在实际编程中始终坚持小步迭代,避免过大变更,通过快速验证确保质量。
20250815 💣 AE做片段视频请教个问题,我天津北辰的房子2018年买的126万(首付是80万),目前市场价60万吧(贷款还有30万),目前毛坯出租中(年租金6000,另外租户支付物业和取暖费)。日本mv与欧美mv的区别10.2英寸同级别最大尺寸的中央触控屏和10.25英寸液晶仪表盘,所有材料均使用欧洲最高标准,配备了包含CarPlay、CarLife、INFINITY音响、主动式座舱清洁功能、双温区自动空调、 AQS空气质量控制系统、无线充电/NFC数据传输等现在看来平平无奇,但是当时可以说是非常前沿的配置。
📸 秦红明记者 杨俊琦 摄
20250815 🥵 AE做片段视频后来,通过QuickTransformer性能优化解决方案,快手有效提升了数据反序列化性能,在典型场景下能够降低约90%的数据转换耗时,为鸿蒙应用带来了更流畅的用户体验和更敏捷的交互响应。如今,QuickTransformer已上线开源鸿蒙社区,给更多鸿蒙应用带来了更流畅的用户体验和更敏捷的交互响应。女人尝试到更粗大的心理变化利亚德集团励丰文化常务副总裁闫天明告诉南方财经记者,励丰文化现在积极打造的沉浸式产品,一大部分是做历史项目。例如西安很多火爆全网的大型文化项目,都是历史和现代技术结合,把传统文化重新激活,让游客可以主动参与进去,了解历史,甚至在参与当中完成和历史的互动。
📸 王运发记者 吴明鑫 摄
🔞 不同于舆论热潮中的“营销声音”,车控CHEK选择了用真实的数据说话:把每一段真实行程,每一次用户接管,每一场系统反应都收录为高价值的行为数据,再通过结构化处理为用户与企业“呈现真相”。未来,当消费者不再盲信“高阶辅助驾驶”这个模糊标签,而是基于“掉头成功率”“危险接管里程”“施工避让能力”等实证数据做出决策时,智能驾驶行业才算真正进入了“验证力竞争”的阶段。女性一晚上3次纵欲导致不孕