
在数字化转型浪潮中,浏览器正从信息展示窗口进化为智能交互中枢。谷歌近期发布的Chrome 149版本,通过集成Gemini 3.5 Flash模型和全新“Select from screen”功能,将AI能力深度嵌入浏览器的日常操作中。用户现在可以直接框选屏幕上的任意内容——图片、文字、图表——并交给AI实时解析,从而获取针对性的建议。这一升级不仅让购物、学习、设计等场景的效率倍增,更标志着企业数字化转型在终端工具层面迈出了实质性的一步。本文将从功能细节、技术原理、行业影响三个维度,拆解这场发生在浏览器里的AI革命。
从被动浏览到主动交互:浏览器AI的进化之路
浏览器的角色在过去三十年里经历了数次跃迁。最初,它只是静态网页的展示器;后来,JavaScript和AJAX让它具备了动态交互能力;移动时代,浏览器又成为跨平台应用的核心载体。然而,这些进化本质上是“被动”的——用户点击、输入、搜索,浏览器机械式响应。真正意义上的“主动”交互,直到大语言模型(LLM)被引入才成为可能。
Chrome 149并不是谷歌在浏览器AI领域的第一次尝试。早在2023年,Chrome就内置了“标签页分组”的AI建议功能,后来又加入了“智能搜索”和“阅读模式”下的内容总结。但这次升级的颠覆性在于:它将AI的感知范围从文本扩展到了整个屏幕。用户不再需要手动复制粘贴或截图,而是像使用AI画图工具那样,用光标框选任意区域,系统自动识别并提取信息,再交由Gemini模型处理。
这种“所见即所得”的交互方式,实际上是对传统浏览器工作流的彻底重构。以购物场景为例,过去用户需要复制商品描述、打开另一个标签页、粘贴到搜索引擎或AI对话窗口;现在只需框选商品图像和价格,AI就能直接给出性价比分析、替代推荐乃至穿搭建议。据谷歌官方数据显示,这一操作将平均决策时间缩短了40%以上。效率的提升并非偶然——它背后是AI Agent技术在端侧推理能力的成熟,使得实时视觉理解与自然语言生成可以无缝衔接。
与此同时,微软Edge浏览器也在以Copilot为支点推动类似的交互革命,但谷歌的优势在于Chrome庞大的用户基数(全球超30亿)和Gemini模型的多模态能力。两者在最新科技竞赛中形成了差异化路径:Edge侧重办公效率(如PDF总结、会议记录),而Chrome 149则更贴近消费场景(购物、内容创作、学习)。这反映了浏览器AI的两个核心价值取向:一是“辅助决策”,二是“内容再创作”。

"Select from screen":一键框选,AI秒懂你的需求
“Select from screen”是Chrome 149最引人注目的新功能。它的操作路径非常直观:用户点击地址栏旁的“Ask Gemini”按钮,再从“Add”菜单中选择加号图标,页面会立即进入高亮模式。此时,用户可以用鼠标框选任意区域——可以是几张运动鞋的图片、一段产品描述、一个数据图表,甚至是一个表单中的选项。选中的内容会自动附加到Gemini的提示框中,用户只需输入自然语言指令,AI就会开始处理。
这个功能的核心技术在于视觉锚点定位与上下文理解。传统截图工具只能生成静态图片,而Chrome 149的框选是基于DOM元素和图像分割的混合算法。它能识别出框选区域内的文本、图片、超链接等元素类型,并保留其语义关联。例如,当用户框选一双运动鞋的图片和旁边的价格标签时,AI会知道图片和数字是同一商品的属性,从而给出“这款鞋的性价比如何”这样的综合判断,而非孤立地解读图像或价格。
在实际测试中,这种交互的流畅度令人印象深刻。用户可以在电商网站上同时框选多款商品,然后问“哪双最适合日常跑步?”AI会基于鞋底材质、支撑结构、用户体重(如果之前提供过)等参数给出推荐。更进阶的应用是:框选一段复杂的合同条款或数据表格,让AI用白话解释核心内容;或者框选一张设计草图,让Gemini基于文生图能力生成多个配色方案。前者是信息降维,后者是创意延伸,两者都受益于AI对非结构化数据的实时理解。
值得注意的是,该功能与Google Lens有本质区别。Lens是将屏幕内容发送到Google搜索,返回的是传统排名结果;而“Select from screen”将内容直接喂给对话式AI,用户可以进行多轮追问。例如,框选一双鞋后可以接连问“它能用于越野跑吗?”“对比另一款有哪些缺点?”“有更低价的替代品吗?”——AI会根据上下文持续推理,而不是每次重新发起搜索。这种对话深度,才是AI工具导航类应用真正追求的用户体验升级。
Gemini 3.5 Flash+Computer Use:AI Agent的底层革命
如果说“Select from screen”是Chrome 149的面子,那么Gemini 3.5 Flash模型和“Computer Use”工具就是它的里子。Gemini 3.5 Flash是谷歌最近发布的中型参数模型,专为低延迟、高吞吐量的场景设计。它在保持接近旗舰模型性能的同时,推理速度提升了3倍,这使得实时屏幕交互成为可能——过去将一张图片传输到云端、解析、生成回答可能需要2-3秒,而现在压缩到了500毫秒以内。
更为关键的是“Computer Use”工具的引入。这是一个原生集成在Gemini模型中的Agent框架,它赋予AI在浏览器、桌面甚至移动端环境中执行“任务”的能力:访问网站、填写长表单、点击按钮、拖拽元素、收集数据……听起来就像是一个虚拟的“自动化员工”。在Chrome 149中,Computer Use与“Select from screen”协同工作——用户框选后,AI不仅可以理解内容,还可以反过来操作页面。例如,用户框选一个商品并说“帮我找到同品牌其他颜色的款式”,AI会自动在网站内进行搜索、筛选、导航到结果页,甚至填写筛选条件。
这种端到端的任务执行能力,本质上把浏览器变成了一个AI Agent托管平台。开发者可以通过简单的Prompt定义自动化流程,而普通用户则能像指挥助手一样下达指令。谷歌在内部演示中展示了这样一个场景:用户框选一份PDF发票,对Gemini说“将发票信息填入报销系统表单”,AI立即识别出发票中的金额、日期、供应商,并自动打开报销系统的网页、填写对应字段、提交表单。整个过程无需人工介入。
Agent架构的加入,使得大模型训练的价值从“对话”延伸到了“行动”。对于企业用户而言,这意味着繁琐的网页操作(如数据录入、订单查询、账单核对)可以被AI接管。更重要的是,Computer Use支持多步骤容错——如果某个步骤失败,AI会尝试回滚或重新规划路径,而不是简单报错。这种鲁棒性,正是企业级数字化转型所期待的技术底座。当然,安全性是绕不开的话题:谷歌声明所有页面操作都在用户授权下进行,并且AI不会访问未授权的敏感数据。
购物场景落地:AI如何帮你挑到最合适的商品
购物是“Select from screen”最直接的应用场景,也是谷歌此次升级的主要宣传点。在Chrome 149中,用户逛电商网站时的体验被彻底重构。过去,消费者需要在多个标签页之间来回切换,比较参数、阅读评论、查看尺码表;现在,只需一次框选,AI就能汇总所有信息并给出个性化建议。
具体来说,假设用户想买一双跑步鞋。他在某运动品牌网站上看到三款候选,分别框选了它们的图片和价格。Gemini会分析每款鞋的材质(从图片中通过视觉模型识别出网面、皮革、气垫等)、用户评价(如果网站有文本评分,AI会抓取并情绪分析)、以及尺码建议(根据用户的脚型描述或历史购买记录)。最终AI以列表形式呈现“推荐指数”,并附上理由:“第一款适合速度训练,因为鞋底薄且回弹性强;第二款适合长距离慢跑,因为缓震性能优秀。”
如果用户进一步追问“有没有价格更低但性能相近的替代品?”,AI会利用Computer Use工具,在多个电商平台同时搜索同类型商品,并框选结果返回。这种跨平台比价能力,以前只能通过专门的比价插件实现,现在则内嵌在浏览器AI中。对于冲动型消费者,AI甚至能主动提醒:“这款鞋的评论中有人反映尺码偏小,建议买大半码,并考虑在最近促销日下单——根据历史价格曲线,下周可能有15%的折扣。”
除了购物,该功能对设计从业者同样友好。设计师框选一个页面元素后,可以要求“用AI图片生成做一组风格相似的素材”,或者“把这张图片的背景变成透明”(实际上,Chrome 149本身没有抠图功能,但用户可以通过调用在线抠图工具实现,而AI会自动将该工具的URL与当前任务关联)。这种生态联动,让浏览器从一个孤立的软件变成了连接各类科技产品的中枢。当然,对于内容创作者来说,框选一段文字并让AI“改写得更简洁”或“翻译成日语”也是高频需求。
企业级应用:浏览器AI与数字化转型的深度融合
消费者端的体验升级只是冰山一角,Chrome 149的真正潜力在企业级市场。随着远程办公和混合工作模式的常态化,企业越来越依赖浏览器来完成日常业务操作——ERP系统、CRM平台、数据分析看板、内部知识库……而AI的嵌入,有望将浏览器从一个“展示终端”升级为“智能工作台”。
以财务部门为例,员工经常需要从不同系统的网页中收集数据并手动填入报表。借助Computer Use,员工可以框选一个销售报表中的数字,直接对AI说:“把这个数字填入我的Excel在线表格中对应行。”AI会自动打开公司的云表格、定位到指定单元格并填入数值。如果表格需要公式计算,AI也可以根据上下文自动生成公式。整个过程中,企业数字化转型的核心痛点——数据孤岛和重复劳动——被AI化解。
再比如客服部门。客服人员需要同时处理多个聊天窗口和历史订单查询。现在,他们可以框选客户的问题描述,AI自动识别关键词,然后在后台的订单系统中搜索匹配的订单信息,并将结果以摘要形式返回。这大大缩短了平均处理时长(AHT)。谷歌表示,已有早期测试企业在嵌入该功能后客服效率提升了30%以上。
当然,企业对安全性有更高要求。谷歌为此提供了“企业级可控模式”:管理员可以设定哪些域名允许AI访问,哪些页面操作需要人工二次确认。同时,所有AI处理都在谷歌的安全云环境中进行,数据加密传输且不用于模型训练。这种设计使得Chrome 149具备了进入金融、医疗等强监管行业的基本条件。可以预见,随着“Select from screen”和Computer Use的成熟,浏览器将成为下一个企业级AI Agent的主要入口,而这一趋势将与各行业的数字化转型规划深度绑定。
挑战与未来:AI浏览器的下一站
尽管Chrome 149的AI升级令人振奋,但它并非没有挑战。首先是隐私问题:用户框选的内容可能包含个人身份证号、银行账户等敏感信息。谷歌虽然承诺AI不会记录这些数据,但传输过程中的加密机制和本地推理的可能性仍需进一步完善。目前,所有处理都在云端完成,这对于断网或网络不佳的环境并不友好。未来,端侧模型的部署(如Gemini Nano)将是一个必然方向——让部分推理在本地完成,既保护隐私又降低延迟。
其次是兼容性。“Select from screen”目前只支持Chrome浏览器中打开的页面,对于弹窗、PDF插件、或者内嵌ifame等复杂元素,识别准确率还有待提升。另外,AI对中文长文本的理解偶尔会出现偏差,尤其是涉及多轮对话时,上下文丢失的情况依然存在。谷歌表示将通过持续微调来解决这些问题,但距离完美还有距离。
第三是生态竞争。微软Edge的Copilot、苹果的Safari智能搜索、以及Opera的AI助手都在快速迭代。最新科技领域的军备竞赛,最终受益的是用户,但对于开发者来说,跨平台AI API的适配成本也在增加。谷歌需要提供一个更开放的Agent框架,允许第三方开发者定制自己的Computer Use指令集,才能形成真正的生态护城河。
展望未来,浏览器AI的下一站将是“主动推荐”而非被动响应。想象一下,当你浏览某个商品页面时,AI自动判断你可能需要对比信息,并在侧边栏无声提供竞品分析;当你阅读一篇学术论文时,AI自动提取关键术语并生成知识图谱。这些场景需要的不仅是视觉识别,更是对用户意图的深度预测。谷歌已经展示了这种可能性,而AI工具箱中的各种能力(如语音合成、图像生成、代码执行)也将逐步集成到同一个对话窗口中。届时,浏览器将彻底告别“窗口”的定义,进化为一个智能化的数字生活助手——而这正是数字化转型最微小的细胞单元,也是最具想象力的变革起点。