近日,一家领先的人工智能研究机构宣布推出了一款全新的评估工具,名为Browser Comp。该工具旨在评测智能系统在浏览器环境中的操作能力。
尽管该机构自家开发的模型如GPT-4.o在面对这一挑战时表现平平,准确率达到仅为0.6%,而优化后的版本也仅有微弱提升至0.9%。即使结合了浏览器功能的改进版也未能显著提高成绩,准确率维持在1.9%。
然而,值得关注的是,该机构最新推出的基于代理技术的Deep Research系统在测试中表现出色,准确率达到51.5%。其在自主导航、数据处理以及结果精确性等方面的综合能力令人瞩目。
市场观察所刊载信息,来源于网络,并不代表本媒体观点。本文所涉及的信息.数据和分析均来自公开渠道,如有任何不实之处、涉及版权问题,请联系我们及时处理。本文仅供读者参考,任何人不得将本文用于非法用途,由此产生的法律后果由使用者自负。投诉举报请联系邮箱:News_Jubao@163.com
聚焦商业经济报告和前瞻商业趋势分析,市场观察非新闻媒体不提供互联网新闻服务;