华盛顿邮报与弗吉尼亚理工大学合作开发人工智能新闻搜索工具

弗朗西斯·福特·科波拉 (Francis Ford Coppola) 执导的新片《大都市》 (Megalopolis) 最近成为头条新闻,但原因并非预想的那样。为加强这位导演反传统主义的形象,预告片引用了科波拉的一些杰作的负面评论,例如《现代启示录》和《教父》,这些评论都是在电影上映时发表的。但有一个问题:这些评论不是真的。负责寻找这些评论的营销顾问

显然是使用人工智能 (AI) 生成的。

这并不是这种特殊的人工智能(大型语言模型 (LLM))捏造和错误归因信息的第一个引人注目的案例。我们曾经看到律师提交摘要,引用不存在的案件。这些捏造或幻觉可以写得相当权威,听起来足以让人们不假思索地接受。因此,当谈到人工智能驱动的搜索工具的未来时,准确性至关重要。这就是为什么当《华盛顿邮报》决定创建这样一种工具来帮助用户更好地访问自己的档案时,它聘请了位于亚历山大弗吉尼亚理工大学创新园区的桑加尼人工智能和数据分析中心主任纳伦·拉马克里什南 (Naren Ramakrishnan) 。毋庸置疑,来自《华盛顿邮报》等来源的此类工具的门槛需要更高——高得多——比其他一些法学硕士的门槛要高。“如果你要使用语言模型,你最好确保你得出的答案以《华盛顿邮报》所做的一些实际

企业通过各种渠道收集移动电话号码数据,包括 手机号码数据 客户注册、应用程序注册和忠诚度计划。这些数据收集系统可帮助公司收集宝贵的联系信息,用于营销和通讯目的。确保以合乎道德的方式收集手机号码数据并遵守隐私政策对于保持客户信任至关重要。

报道为基础,”拉马克里希南说。

拉马克里希南曾与《华盛顿邮报》数据和人工智能主管山姆·韩合作过一个预测文章受欢迎程度的项目。他们招募了一群弗吉尼亚理工大学的学生,试图通过分析新闻报道来预测未来的社会动荡。因此,在 2023 年秋天,韩和拉马克里希南在亚历山大会见了创新园区副总裁兼执行董事兰斯·柯林斯和《华盛顿邮报》当时新任首席技术官维尼特·科斯拉。韩说:“去年,我们纵观整个行业,看到语言模型、生成式人工智能带来的巨大变化,我们认为这可能是与弗吉尼亚理工大学合作的另一个机会。”目标是将人工智能综合大量信息的能力与《华盛顿邮报》的档案结合起来,提供一种数

图书馆资源工具,可以在几秒钟内访问该报

关于任何主题的每一篇报道。他们开发的模型与传统搜索引擎和 LLM 都不同,后者使用一种称为检索增强生成的过程在几个关键方面生成了如此多的新闻报道。 传统搜索引擎的工作原理是,针对您输入的每个关键词,对它能找到的所有结果进行索引,然后提供从网络上挖掘出的与所提供术语组合相关的大量信息。开放式法学硕士 (LLM) 为问题提供答案,但通常会超出它们所接受过训练的数据范围。检索增强生成是一个由两部分组成的过程。首先,它会在可用数据集(在本例中为《华盛顿邮报》档案)中搜索与查询相关的故事。然后,它会专门从这些文章中提取信息,并通过语言模型运行这些信息,为用户生成摘要。

虽然检索增强生成仅从《华盛顿邮报》的

档案中提取内容,但它仍然在更大的语料库或数 2025 年最值得参加的营销会议 据体上进行训练。当然,这本身就带来了可信度挑战。但这正是让世界领先的报纸之一推动该项目的编辑决策过程的优势所在。《华盛顿邮报》人工智能、创新和战略高级编辑菲比康奈利 (Phoebe Connelly) 表示:“我们有技术人员指导我们,他

们和我们的记者——主题专家——在同一个测试室。”

通过此次合作,《华盛顿邮报》和弗吉尼亚理工大学正在开发的工具旨在避免 ChatGPT 等法学硕士自发布以来遇到的最大陷阱。毋庸置疑,对于《华盛顿邮报》这样的 bjb目录 机构来说,准确性至关重要。对于弗吉尼亚理工大学来说,该项目提供了一个机会来推进创新园区的使命,即利用人工智能作为积极变革的力量。

“在网络信息空间中建立信任是一个巨大的研

究领域,”拉马克里什南说。“整个新闻流程必须为生成式人工智能革命而重新构想。”弗吉尼亚理工大学计算机科学系的两名博士生Sha Li 和 Shailik Sarkar 参与了该项目,今年夏天在《华盛顿邮报》实习。这对 Sarkar 来说是个幸运的时机,因为他曾研究过如何防御即时注入技术,即黑客为破解这类工具而实施的用户指令,这些指令指示他们覆盖原始程序。他立即开始研究《华盛顿邮报》当时已在开发的 AI 模型Climate Answers,该模型于今年夏天推出。

萨卡尔说:“在现实世界的应用中实时看到这一点真的很有趣。”

这对于《华盛顿邮报》来说也是无价之宝,它能够将这个模型推向世界,之后,它与弗吉尼亚理工大学合作开发的更大的模型将以此为基础。“他们为产品的发布提供了即时的帮助。

”韩先生谈到实习生的工作时说道。

从用户角度来看,Climate Answers 与其他 LLM 之间最显著的区别可能在于,该模型不愿回答没有足够信息来提供权威性答案的问题,因为这些问题有可引用的来源。这也是 Ramakrishnan 及其团队正在构建的模型设计的一个关键功能。“在这些应用中,能够说‘我不知道’非常重要,”拉马克里希南说。“无论我们制造什么,都会有很多问题需要回答,‘我不知道答案。这听起来是个合理的问题,但

没有信息来回答这个问题。’”

如果向气候答案提出与天气无关的问题,例如“谁将赢得 2024 年总统大选?”或“通心粉和奶酪的最佳食谱是什么?”,它会适当地拒绝提供答案。如果提出与其能力相关的更广泛的问题,例如“科学家是否同意气候变化是真实的?”或“美国是否有望实现其 2050 年的气候目标?”,它会提取一系列文章,进行总结,并得出结论——科学界承认气候变化;不,“似乎”美

国没有按计划实现其目标。

如果让它预测 2024 年将有多少飓风袭击美国本土,它会给出一个令人惊讶的详细但开放的答案。它解释说,文章中没有这样的预测,尽管预报员预计 2024 年飓风季节将活跃,但无法确定登陆的确切数量。《华盛顿邮报》气候答案工具的截图,该工具由弗吉尼亚理工大学的学生和研究人员协助开发。图片由《华盛顿邮报》提供。

Climate Answers 为《华盛顿邮报》

未来希望的人工智能工具提供了蓝图。它试图从用户的问题中推断出用户的意图,然后在报纸的档案中搜索相关文章。它从这些文章中获取信息,并通过大型语言模型对其进行综合,以提供简短的摘要。然后,它提供摘要和信息来源文章的链接。如今,“气候答案”已推出几个月,《华盛顿邮报》正在收集用户的反馈,为下一个更大的项目提供信息。  “下一步该怎么做,部分取决于实时观察用户习惯,”康奈利说。“它是否能开辟报道渠道,或者让我们的内容以前所未有的方式呈现?”当然,将《气候答案》的经验应用到更广泛的新闻领域是一个完全不同的项目,尤其是对于如此有活力的工作主体来说。  “新闻在不断变化,不断发展,”计算机科学教授、桑加尼中心副主任、该项目联合首席研究员CT Lu表示。“今天,你们会问出《华盛顿邮报》从未见过的问题。”考虑到这一点,弗吉尼亚理工大学和华盛顿邮报的团队将继续在共同努力的基础上应对未来的挑战。康奈利说:“如果我们能够利用新技术发

现或解决某个问题,那么真正的奇迹就会发生。”

对于学生来说,在现实环境中工作的机会,尤其是在经历如此持续变革的行业中,提供了课堂之外的宝贵视角。这种实际工作经验推动了整个基于项目的学习使命,而创新园区计划正是围绕这一使命而构建的。“我认为这是一次很棒的学习经历,因为你开始优先考虑以前从未想过的事情,”Sarkar 说。“我们经常没有想到的是,我们有这个现实世界的应用程序或应用范围,我们如何才能综合它,或者从非常实际的角度重新思考这个问题?这最终是任何研究的目标——让它对现实世界的用例有用。”

滚动至顶部