2分钟实现论文调研!ByteDance Research推出论文检索
日期:2025-01-24 08:35 浏览:
2025 被称为 Agent 元年,新年伊始,ByteDance Research 就推出了一款基于强化进修的智能体利用:论文检索智能体。它能够模拟人类研讨者挪用搜寻引擎、看论文、查参考文献。繁琐漫长的论文调研,当初,只要要两分钟。从事科研任务的你,想要一个帮你尽调论文的科研小助手吗?你能否曾为了寻觅某个研讨主题的相干论文,破费了大批的时光与精神;或许对某个研讨主意充斥兴致,却不断定能否已有相似的研讨,终极消耗了大批时光在调研上?近来,ByteDance Research 的研讨团队推出了一款强盛的学术论文检索东西 ——PaSa。用户只要提出存眷的学术成绩,PaSa 即可主动挪用搜寻引擎,阅读相干论文并追踪引文收集,精准、片面地为用户浮现全部相干的学术论文,只要要两分钟,就能够实现一次细致的学术调研。先来看看 PaSa 的后果:研讨职员将 PaSa 与一系列主流检索东西停止了对照,包含 Google, Google Scholar, Google+GPT-4o, ChatGPT(装备检索才能的 GPT-4o), GPT-o1 以及 PaSa-GPT-4o。在学术 Query 测试集上,PaSa 年夜幅超出了以后主流检索东西:与 Google 比拟,PaSa-7b 在 Recall@20 跟 Recall@50 上分辨晋升了 37.78% 跟 39.90%。与基于 Prompt Engineering 实现的 PaSa-GPT-4o 比拟,经由强化进修练习的 PaSa-7b 在召回率上晋升了 30.36%,正确率上晋升了 4.25%.。PaSa 现在已开放试用。同时,研讨团队公然了细致的技巧论文,并一次性开源了全体的数据、代码跟模子:论文地点:https://arxiv.org/abs/2501.10120名目堆栈:https://github.com/bytedance/pasaPaSa 主页:https://pasa-agent.aiPaSa Agent 框架PaSa 的中心组件包括两个 LLM Agents:Crawler 跟 Selector。Crawler 经由过程自立挪用搜寻东西、浏览论文、扩大参考文献,一直网络与用户 Query 可能相干的学术论文。Selector 则担任精读 Crawler 找到的每一篇论文,决议其能否满意用户的需要。PaSa 框架:Crawler 的计划旨在最年夜化相干论文的召回率,而 Selector 则夸大准确性,即辨认论文能否合乎用户需要。下图展现了一个 PaSa 处置 User Query 的详细流程:PaSa 的任务流示例:Crawler 能够天生多样、互补的搜寻词履行屡次搜寻。别的,Crawler 还可能评价其行动的临时代价,比方在多步扩大引文收集后,Cralwer 可能发明很多与用户 Query 相干的论文,即便门路中的旁边论文并不直接与用户需要婚配。练习优化为了练习 PaSa,研讨团队起首结构了一个高品质的学术细粒度 Query 数据集:AutoScholarQuery。该数据集经由过程网络人工智能范畴顶会(ICLR 2023,ICML 2023,NeurIPS 2023,ACL 2024,CVPR 2024)宣布的论文,基于每篇论文中 “Related Work” 局部的描写及其援用的相干文献,天生学术成绩跟对应的相干论文列表。终极,数据集包括了 36k 数据,每条数据包括一个 AI 范畴的学术成绩及相干论文,示比方下图所示。只管 AutoScholarQuery 缺少人类迷信家发明论文的轨迹数据,但该数据集依然可能支撑对 PaSa 智能体停止强化进修练习。在 Crawler 的练习进程中,面对两个重要挑衅:嘉奖稀少性跟过长的举动轨迹。为懂得决嘉奖稀少性成绩,研讨团队引入了 Selector 作为帮助嘉奖模子,明显晋升了优化后果。别的,Crawler 在一次履行中可能网络到上百篇文章,招致完全的举动轨迹过长,无奈完整输入到 LLM 的高低文中。为此,团队提出了一种全新的 session-level PPO 算法,处理这一成绩。Selector 重要经由过程模拟进修停止练习。Selector 会老师成一个 Decision Token,决议论文能否合乎用户 Query 的须要。同时 Token Probability 也能够作为相干性分数用于终极成果的排序。在 Decision Token 后,Selector 还会输出决议根据。Crawler 跟 Selector 的更多练习细节详见论文。试验成果为了验证 PaSa 在实在学术搜寻场景中的表示,研讨团队开辟了一个评测集 ——RealScholarQuery。该数据集包括了 AI 研讨者提出的实在学术成绩,并为每个成绩人工构建了对应的相干论文列表。研讨团队在 AutoScholarQuery-test 跟 RealScholarQuery 两个评测集上,片面对照了 PaSa 与 baselines 的表示。BaselinesGoogle:直接用 Google 搜寻用户成绩Google Scholar:直接用 Google Scholar 搜寻用户成绩Google with GPT-4o:起首 prompt GPT-4o 改写用户成绩天生一个更适于 Google 搜寻的成绩,而后应用 Google 停止搜寻ChatGPT:上传用户成绩给有搜寻功效的 GPT-4o,并网络它的天生成果GPT-o1:直接 prompt GPT-o1 来处置用户成绩PaSa-GPT-4o:经由过程 prompt GPT-4o 模仿 Crawler 跟 Selector,形成 PaSa 架构 agentPaSaPaSa-7b:应用 Qwen2.5-7b-Instruct 作为基本模子,经由过程特别嘉奖结构的强化进修练习的 Crawler 跟 Selector 形成的 agentPaSa-7b-ensemble:集成屡次 Crawler 的搜寻成果,进步终极的召回量在 AutoScholarQuery 测试集上,PaSa-7b 的后果优于其余全部的基线模子。与最强的基线 PaSa-GPT-4o 比拟,在正确率相称的情形下,PaSa-7b 的召回率进步了 9.64%,Crawler 召回率进步了 3.66%。跟 Google 搜寻的最好成果比拟,Recall@20,Recall@50 跟 Recall@100 分辨晋升了 33.80%,38.83% 跟 42.64%。别的,集成后的 PaSa-7b-ensemble 比 PaSa-7b 的召回率跟 Crawler 召回率能进一步进步 1.51% 跟 3.44%。在更濒临实在的 RealScholarQuery 上,PaSa-7b 的晋升愈加显明。与 PaSa-GPT-4o 比拟,PaSa-7b 的召回率进步了 30.36%,准确率进步了 4.25%。Google 搜寻的最好成果比拟,Recall@20,Recall@50 跟 Recall@100 分辨晋升了 37.78%,39.90% 跟 39.83%。PaSa-7b-ensemble 的召回率跟 Crawler 召回率分辨进一步进步了 3.52% 跟 4.32%。结语学术搜寻是一个存在奇特挑衅的信息检索场景:波及大批专业性较强的长尾常识,请求片面的召回才能,并可能支撑细粒度的查问。PaSa 是基于年夜言语模子的全新论文检索智能体,经由过程模拟人类的搜寻东西挪用、论文浏览以及参考文献查阅进程,可能自立高效地实现论文调研这一庞杂的任务。