• 媒体品牌
    爱范儿
    关注明日产品的数字潮牌
    APPSO
    先进工具,先知先行,AIGC 的灵感指南
    董车会
    造车新时代,明日出行家
    玩物志
    探索城市新生活方式,做你的明日生活指南
  • 知晓云
  • 制糖工厂
    扫描小程序码,了解更多
产品 | 王萌 05-17 17:00

体验完 Apple Pencil Pro,我发现它才是新 iPad 的灵魂

董车会 | 李华 05-17 22:45

16.68 万起!刚刚上市的领克 07 EM-P,要做 20 万内最强

爱范儿视频 | 爱范儿视频 05-08 11:36

拍了三千多张照片,我们找到了 Pura 70 Ultra 的影像「华点」

拍了三千多张照片,我们找到了 Pura 70 Ultra 的影像「华点」

09:05

为了拍中国空间站,我们造了一个追星星的厨房

09:53

我们用 AI 办了一场活动,还原了 AI 想象中的春天

10:55

5 米 3 的小鹏 X9,遇上了最堵春运……

07:21

小米 14 Ultra 对比实测!影像旗舰争霸来了

07:28

我们花半个月时间,用手机长焦拍出了穿越感!

02:41

为了拿到这个健康大礼,我们完成了三个挑战

08:17

老手机升级鸿蒙 4,还能多战两年?功臣是这四个字

08:16

第一台能用卫星发消息的大众平板!华为 MatePad Pro 11 英寸 2024 款评测体验

09:36

复活 1000 年前的创意,我们把粤港澳大湾区,装进了手机镜头

10:39

小米 14/14 Pro 首发评测:全面对标 iPhone 15 Pro,成了吗?

12:01

智慧 PC,笔记本电脑的终局之战?

08:46

12:32

华为智慧屏 V5 Pro 评测:几个遥遥领先,把电视变成了手机

09:28

无边大屏超轻薄,屏占比 94%:MatePad Pro 13.2 英寸评测

10:03

全新 AirPods Pro 2 首发实测:C 口之外,大有乾坤?

06:13

iPhone 15 Pro 系列全面测评:苹果没告诉你的细节,竟然这么多?

15:29

升级鸿蒙 4 之后,戴了三个月的华为 WATCH 4 竟能焕然一新?

5:03

高端餐具想机洗?得配个高端洗碗机

10:44

坐奥迪 S4 劈弯,我吐了……

08:57

加载更多

快讯

  • 5月21日,三防手机AGM X系列的最新型号AGM X6正式亮相。在正式发布之前,AGM手机已经提前透露,X6将是一款轻薄的5G三防手机。那么,它究竟有多轻薄?在减轻了重量的同时,其三防功能是否有所下降?除此之外,它还有哪些其他亮点?带着这些疑问,让我们一起来探索AGM X6这款三防手机的独特之处。   4种纹理雕饰的机身   AGM X6的设计风格以简洁为主,其机身采用了平面化的造型,表面覆盖了四种不同的纹理装饰,包括凯夫拉纹理、金属拉丝效果、菱形格纹以及金属靛蓝色调。手机的四个角落采用了大半径的圆角设计,使得整体造型无需额外装饰,便展现出卓越的外观魅力。     超越极限的三防“玄铁架构”   AGM品牌在国内三防智能手机领域具有开创性的地位。关于最新型号AGM X6的三防性能,我们进行了一番探究。   AGM X6继承了品牌的传统,取得了IP68、IP69K及MIL-STD-810H等级的认证,这些认证意味着该设备能够抵抗摔落、冲击等各类物理损伤。     为展现其卓越性能,以下举例说明:   根据MIL-STD-810H标准,设备应能承受1.5米高度的跌落冲击。然而,AGM X6在实验中经历了更为严苛的测试,即从60米高空的自由落体,最终坠入碎石地面,但依然保持了正常功能。   对于IP68和IP69K等级,设备可在1.5米深的水下持续30分钟不渗水,并可抵挡100bar压力的80°C水流冲洗。AGM X6则在一项极端测试中被水泥封存一个月,这不仅检验了其防水防尘能力,也考验了其耐久性。   尽管IP68、IP69K和MIL-STD-810H代表了认证的极限,但AGM X6的实际三防能力似乎远超这些标准,显示出更加强悍的性能。     三防很强,手机却轻薄   对于户外手机有一定了解的人士会注意到,传统户外手机的重量通常超过300克,厚度大约为20毫米。在普遍认知中,三防手机的防护性能越强,其体积和重量往往越大。   然而,AGM X6在三防手机中显得与众不同。根据AGM手机发布的数据,AGM X6是少数既轻便又具备三防功能的户外手机。   AGM X6的机身厚度仅为9毫米,与普通手机的厚度相差无几。该手机的总重量为258克,接近于普通手机的便携性。此外,其边框设计精巧,厚度适中,不仅具备专业的三防功能,也满足了用户的日常使用需求。   为何AGM X6在保持了强大的防护能力的同时,其厚度和重量却能接近普通手机呢?原因在于AGM在内部结构上下足了功夫。它采用了名为“玄铁”的专业三防架构,这种结构具有缓冲和支撑的作用,因此在保持轻薄机身的同时,依然具备出色的防摔和防水能力。   火烧、速冻依然正常使用   在AGM手机的发布会上,官方宣布了AGM X6型手机的工作温度范围,该范围为-20摄氏度至+60摄氏度。   为了验证AGM X6在极端温度环境下的性能,AGM公司采取了一些直接且极端的测试方法。   在高温环境测试中,AGM公司将AGM X6直接置于燃烧的火焰中持续一分钟,随后将其取出。尽管手机外壳受到了一定的损伤,但AGM X6仍然能够正常启动。     在低温环境测试中,AGM公司并未采用传统的冰箱冷冻方式,而是选择了干冰作为制冷媒介。通过利用干冰汽化吸热的特性,并结合水的使用,对AGM X6进行了速冻处理。令人惊讶的是,AGM X6在未受到水分侵被的情况下,从冰块中取出后仍能立即开机。   以上所述,充分展示了AGM X6在极温环境下的卓越性能。   额外的两道保险——碎屏险与进水保修保   虽然AGM X6拥有卓越的三防性能,但是,在极限情况下,即便是三防手机也难以完全避免意外。因此,为了提供更全面的保障,AGM手机公司为每一位购买AGM X6的消费者,提供了为期一年的水损险和碎屏保险服务。     而且AGM手机也声明,无论用户面临的是偶然事件还是故意行为,只要在AGM X6的一年质保期内,用户都将享受一次免费的水损维修和碎屏维修服务。   搭载国产5G芯片紫光展锐T750     AGM在确保了卓越的防护性能之后,也未忽视手机的关键组成部分——处理器。AGM X6采用了紫光展锐的高性能虎贲T750 5G芯片,该芯片运用了6纳米制程技术,并且支持NA/NSA双模5G网络。因此,AGM X6能够兼容多个5G频段,使得用户在全球范围内都能体验到极快的下载速度和极低的网络延迟。无论是进行高清视频通话还是云端游戏,用户都能享受到流畅无阻的优质体验。   挖孔屏设计   AGM X6搭载了一块尺寸为6.78英寸的液晶显示屏(LCD),其具备的分辨率为1080*2460,以及60Hz的刷新率,为用户呈现出更为流畅和细腻的视觉体验。     在X6屏幕的设计上,我们见证了一次重大的革新。对于熟悉AGM手机历史型号的用户而言,他们会发现,AGM过去的三防手机几乎一致地采用了水滴屏设计。然而,在这一次,AGM X6大胆创新,改为采用挖孔屏设计,这一改变不仅使得屏幕的视觉效果更加舒适,也对众多追求完美主义的用户,提供了一种满足感。   总的来说,AGM X6在屏幕设计上的这处改变,无疑是对用户体验的一次重要优化,它不仅满足了用户对视觉美感的追求,也在一定程度上,满足了用户对完美主义的追求。   电池低调但续航高调   AGM X6配备了5000mAh容量的锂离子电池。为了减轻机身重量,其电池容量并未达到AGM G系列的较高标准。     然而,尽管电池配置相对保守,其续航能力却不容小觑。根据AGM官方公布的数据,在轻微使用条件下,该手机能够持续使用高达数小时,而在一般使用情况下,其续航时间同样可观,即便在重度使用下,亦能维持一定的使用时长。   手机也能用上测温枪     令人惊讶的是,作为一款三防手机,AGM X6竟然具备测温功能。AGM X6的其中一款配备有测温传感器,能够进行物体温度、额头温度和腕部温度的测量,并进行标记,无论是家庭环境还是户外活动,都能便捷的测温。   侧键指纹、自定义键、安卓13系统   AGM X6所采用的操作系统并非原生安卓系统,而是经过优化调整,更符合国人使用习惯的X OS系统。   除了基本功能外,AGM在X6上还特别设计了机身侧键指纹解锁功能,并设有可自定义按键,用户可根据个人需求一键打开音乐、手电筒、相机等应用。   两种功能,2个版本   除了之前提过的AGM X6测温版,AGM X6还有另一个版本,那就是夜视版,这两个版本分别具备测温枪功能和夜视功能。     如果你考虑入手,无需过度纠结。除了夜视与测温枪功能不共存外,两个版本的AGM X6在其他硬件和软件方面都保持一致,因此根据自身需求考虑测温还是夜视即可。 目前,AGM X6 已在京东、天猫、AGM官方开启预售,AGM X6 测温版的售价为2799,AGM X6 夜视版的售价为2799。 5月27日正式开售的日期,活动价截止至6月27日。   最后一个彩蛋   在21日举行的发布会上,AGM手机还揭晓了一项出人意料的彩蛋。AGM特别推出了一款限量纪念版手机——AGM X6 Zero。     这款手机采用了磨砂透明材料作为机身,尽管材质为透明,但仍然展现了精细的纹理设计。不仅外壳,就连主板的护板也采用了半透明材质,使得内部结构如电池层次、主板与副板的连接线路等一目了然,展现出粗犷且真实的内部构造,以及如何借助强大的铝合金骨架固定机身,再配以银色和黑色的金属元素,彰显了电子设备的原始之美。     根据AGM官方的介绍,AGM X6 Zero与AGM X6夜视版在功能上是完全相同的,其区别仅在于外观。此外,由于AGM X6 Zero并非量产型号,因此数量极为有限,AGM首批仅计划发售10台,纪念意义非凡。

    分享至微信

    使用微信扫码将网页分享到微信

  • 国内 AI 初创公司面壁智能推出旗下端侧模型 MiniCPM 系列的新产品「MiniCPM-Llama3-V 2.5」,号称「最强端侧多模态模型」,支持 30+ 种语言。 面壁智能介绍,MiniCPM-Llama3-V 2.5 已可高效部署手机,并在难图、长图、长文本的精准识别上表现优秀。 ​……

    分享至微信

    使用微信扫码将网页分享到微信

  • 昨天,vivo 发布了全新 Y200 系列手机,包括 vivo Y200 、Y200 GT、Y200t 三款机型。vivo Y200 三款手机均搭载 6000mAh 超薄蓝海电池,DOU 续航 2 天,vivo Y200 和 Y200 GT 支持 80W 充电,Y200t 支持 44W 充电。 vivo Y200t 搭载高通骁龙 6 Gen 1 处理器,搭载一块 6.72 ​……

    分享至微信

    使用微信扫码将网页分享到微信

  • 近日,很多用户反映,AI 初创公司月之暗面旗下聊天机器人 Kimi 推出了多个不同价格的「打赏方案」:最低价为 5.2 元/ 4 天,最高价为 399 元/365 天。 月之暗面回应称,有用户想了解一些付费方案,能够在服务高峰期也能稳定使用产品,因此开始小范围灰度测试打赏 ​……

    分享至微信

    使用微信扫码将网页分享到微信

  • 有媒体报道,在百度原副总裁、公关负责人璩静因为风波离职后,百度资深副总裁梁志祥已经暂时接管公关业务,目前尚不清楚是暂时接管寻找下一位公关负责人还是正式接管。 新浪科技向百度方面求证,百度回应,梁志祥之前便一直主管百度政府关系(GR)和公共关系(PR ​……

    分享至微信

    使用微信扫码将网页分享到微信

  • 今年是迈进 AI PC 大门的关键元年。 1 月初,微软往 Windows 键盘塞了一枚全新的 Copilot 键,迎来近三十年的首次改版,只需点击一下按钮,用户就可以和 Copilot 进行无缝亲密的互动。 在 AI PC 命题摆在明牌的情况下,我们更关心的是 ​……

    分享至微信

    使用微信扫码将网页分享到微信

  • 上周,一个名为“im-also-a-good-gpt2-chatbot”的神秘模型突然现身大模型竞技场Chatbot Arena,排名直接超过GPT-4-Turbo、Gemini 1 .5 Pro、Claude 3 0pus、Llama-3-70b等各家国际大厂的当家基座模型。随后OpenAI揭开“im-also-a-good-gpt2-chatbot”神秘面纱——正是GPT-4o的测试版本,OpenAI CEO Sam Altman也在Gpt-4o发布后亲自转帖引用 LMSYS arena 盲测擂台的测试结果。
    由开放研究组织 LMSYS Org (Large Model Systems Organization)发布的Chatbot Arena已经成为OpenAI、Anthropic、Google、Meta等国际大厂“龙争虎斗”的当红擂台,以最开放与科学的评测方法,在大模型进入第二年之际开放群众投票。 时隔一周,在最新更新的排名中,类“im-also-a-good-gpt2-chatbot”的黑马故事再次上演,这次排名飞速上涨的模型正是由中国大模型公司零一万物提交的“Yi-Large” 千亿参数闭源大模型。 在 LMSYS 盲测竞技场最新排名中,零一万物的最新千亿参数模型 Yi-Large 总榜排名世界模型第7,中国大模型中第一,已经超过Llama-3-70B、Claude 3 Sonnet;其中文分榜更是与GPT4o 并列世界第一。 零一万物也由此成为了总榜上唯一一个自家模型进入排名前十的中国大模型企业。在总榜上,GPT系列占了前10的4个,以机构排序,零一万物 01.AI 仅次于 OpenAI, Google, Anthropic之后,以开放金标准正式进击国际顶级大模型企业阵营。 美国时间2024年5月20日刚刷新的 LMSYS Chatboat Arena 盲测结果,来自至今积累超过 1170万的全球用户真实投票数:
    值得一提的是,为了提高 Chatbot Arena 查询的整体质量,LMSYS还实施了重复数据删除机制,并出具了去除冗余查询后的榜单。这个新机制旨在消除过度冗余的用户提示,如过度重复的“你好”。这类冗余提示可能会影响排行榜的准确性。LMSYS公开表示,去除冗余查询后的榜单将在后续成为默认榜单。 在去除冗余查询后的总榜中, Yi-Large的Elo得分更进一步,与Claude 3 Opus、GPT-4-0125-preview并列第四。
    LMSYS 中文榜:GPT-4o 和 Yi-Large 并列第一 值得国人关注的是,国内大模型厂商中,智谱GLM4、阿里Qwen Max、Qwen 1.5、零一万物Yi-Large、Yi-34B-chat 此次都有参与盲测,在总榜之外,LMSYS 的语言类别上新增了英语、中文、法文三种语言评测,开始注重全球大模型的多样性。Yi-Large的中文语言分榜上拔得头筹,与 OpenAI 官宣才一周的地表最强 GPT4o 并列第一,Qwen-Max 和 GLM-4 在中文榜上也都表现不凡。
    “最烧脑” 公开评测:Yi-Large 位居全球第二 在分类别的排行榜中,Yi-Large同样表现亮眼。编程能力、长提问及最新推出的 “艰难提示词” 的三个评测是LMSYS所给出的针对性榜单,以专业性与高难度著称,可称作大模型“最烧脑”的公开盲测。 在编程能力(Coding)排行榜上,Yi-Large 的Elo分数超过Anthropic 当家旗舰模型 Claude 3 Opus,仅低于GPT-4o,与GPT-4-Turbo、GPT-4并列第二。
    长提问(Longer Query)榜单上,Yi-Large同样位列全球第二,与GPT-4-Turbo、GPT-4、Claude 3 Opus并列。
    艰难提示词(Hard Prompts)则是LMSYS为了响应社区要求,于此次新增的排行榜类别。这一类别包含来自 Arena 的用户提交的提示,这些提示则经过专门设计,更加复杂、要求更高且更加严格。LMSYS认为,这类提示能够测试最新语言模型面临挑战性任务时的性能。在这一榜单上,Yi-Large 处理艰难提示的能力也得到印证,与GPT-4-Turbo、GPT-4、Claude 3 Opus并列第二。
    LMSYS Chatbot Arena:后benchmark时代的风向标 如何为大模型给出客观公正的评测一直是业内广泛关注的话题。为了在固定题库中取得一份亮眼的评测分数,业内出现了各式各样的“刷榜”方法:将各种各样的评测基准训练集直接混入模型训练集中、用未对齐的模型跟已经对齐的模型做对比等等,对尝试了解大模型真实能力的人,的确呈现“众说纷纭”的现场,更让大模型的投资人摸不着北。 在经过2023年一系列错综复杂、乱象丛生的大模型评测浪潮之后,业界对于评测集的专业性和客观性给予了更高的重视。而LMSYS Org 发布的Chatbot Arena凭借其新颖的“竞技场”形式、测试团队的严谨性,成为目前全球业界公认的基准标杆,连 OpenAI 在 GPT-4o 正式发布前,都在 LMSYS 上匿名预发布和预测试。 在海外大厂高管中,不只Sam Altman,Google DeepMind首席科学家Jeff Dean也曾引用LMSYS Chatbot Arena的排名数据,来佐证Bard产品的性能。
    OpenAI创始团队成员 Andrej Karpathy甚至公开表示,Chatbot Arena is “awesome”。
    自身的旗舰模型发布后第一时间提交给LMSYS,这一行为本身就展现了海外头部大厂对于Chatbot Arena的极大尊重。这份尊重既来自于LMSYS作为研究组织的权威背书,也来自于其新颖的排名机制。 公开资料显示,LMSYS Org 是一个开放的研究组织,由加州大学伯克利分校的学生和教师、加州大学圣地亚哥分校、卡耐基梅隆大学合作创立。虽然主要人员出自高校,但LMSYS的研究项目却十分贴近产业,他们不仅自己开发大语言模型,还向业内输出多种数据集(其推出的MT-Bench已是指令遵循方向的权威评测集)、评估工具,此外还开发分布式系统以加速大模型训练和推理,提供线上 live 大模型打擂台测试所需的算力。 在形式上,Chatbot Arena借鉴了搜索引擎时代的横向对比评测思路。它首先将所有上传评测的“参赛”模型随机两两配对,以匿名模型的形式呈现在用户面前。随后号召真实用户输入自己的提示词,在不知道模型型号名称的前提下,由真实用户对两个模型产品的作答给出评价,在盲测平台 https://arena.lmsys.org/ 上,大模型们两两相比,用户自主输入对大模型的提问,模型A、模型B 两侧分别生成两PK模型的真实结果,用户在结果下方做出投票四选一:A模型较佳、B模型较佳,两者平手,或是两者都不好。提交后,可进行下一轮PK。
    通过众筹真实用户来进行线上实时盲测和匿名投票,Chatbot Arena一方面减少偏见的影响,另一方面也最大概率避免基于测试集进行刷榜的可能性,以此增加最终成绩的客观性。在经过清洗和匿名化处理后,Chatbot Arena还会公开所有用户投票数据。得益于“真实用户盲测投票”这一机制,Chatbot Arena被称为大模型业内最有用户体感的奥林匹克。 在收集真实用户投票数据之后,LMSYS Chatbot Arena还使用Elo评分系统来量化模型的表现,进一步优化评分机制,力求公平反应参与者的实力。 Elo评分系统,是一项基于统计学原理的权威性评价体系,由匈牙利裔美国物理学家Arpad Elo博士创立,旨在量化和评估各类对弈活动的竞技水平。作为当前国际公认的竞技水平评估标准,Elo等级分制度在国际象棋、围棋、足球、篮球、电子竞技等运动中都发挥着至关重要的作用。 更通俗地来讲,在Elo评分系统中,每个参与者都会获得基准评分。每场比赛结束后,参与者的评分会基于比赛结果进行调整。系统会根据参与者评分来计算其赢得比赛的概率,一旦低分选手击败高分选手,那么低分选手就会获得较多的分数,反之则较少。通过引入Elo评分系统,LMSYS Chatbot Arena在最大程度上保证了排名的客观公正。
    Chatbot Arena的评测过程涵盖了从用户直接参与投票到盲测,再到大规模的投票和动态更新的评分机制等多个方面,这些因素共同作用,确保了评测的客观性、权威性和专业性。毫无疑问,这样的评测方式能够更准确地反映出大模型在实际应用中的表现,为行业提供了一个可靠的参考标准。 Yi-Large 以小搏大紧追国际第一阵营,登顶国内大模型盲测 此次Chatbot Arena共有44款模型参赛,既包含了顶尖开源模型Llama3-70B,也包含了各家大厂的闭源模型。
    以最新公布的Elo评分来看,GPT-4o以1287分高居榜首,GPT-4-Turbo、Gemini 1 5 Pro、Claude 3 0pus、Yi-Large等模型则以1240左右的评分位居第二梯队;其后的Bard (Gemini Pro)、Llama-3-70b-Instruct、Claude 3 sonnet的成绩则断崖式下滑至1200分左右。 值得一提的是,排名前6的模型分别归属于海外巨头 OpenAI、Google、Anthropic,零一万物位列全球第四机构,且GPT-4、Gemini 1.5 Pro等模型均为万亿级别超大参数规模的旗舰模型,其他模型也都在大几千亿参数级别。Yi-Large “以小搏大” 以仅仅千亿参数量级紧追其后, 5月13日一经发布便冲上世界排名第七大模型,与海外大厂的旗舰模型处于同一梯队。在 LMSYS Chatbot Arena 截至5月21日的总榜上,阿里巴巴的 Qwen-Max 大模型 Elo分数为1186,排名第12;智谱AI 的GLM-4 大模型 Elo分数为 1175,排名第15。 在当前大模型步入商业应用的浪潮中,模型的实际性能亟需通过具体应用场景的严格考验,以证明其真正的价值和潜力。过去那种仅要求表面光鲜的“作秀式”评测方式已不再具有实际意义。为了促进整个大模型行业的健康发展,整个行业必须追求一种更为客观、公正且权威的评估体系。 在这样的背景下,一个如Chatbot Arena这样能够提供真实用户反馈、采用盲测机制以避免操纵结果、并且能够持续更新评分体系的评测平台,显得尤为重要。它不仅能够为模型提供公正的评估,还能够通过大规模的用户参与,确保评测结果的真实性和权威性。 无论是出于自身模型能力迭代的考虑,还是立足于长期口碑的视角,大模型厂商应当积极参与到像Chatbot Arena这样的权威评测平台中,通过实际的用户反馈和专业的评测机制来证明其产品的竞争力。 这不仅有助于提升厂商自身的品牌形象和市场地位,也有助于推动整个行业的健康发展,促进技术创新和产品优化。相反,那些选择作秀式的评测方式,忽视真实应用效果的厂商,模型能力与市场需求之间的鸿沟会越发明显,最终将难以在激烈的市场竞争中立足。 LMSYS Chatbot Arena 盲测竞技场公开投票地址:https://arena.lmsys.org/ LMSYS Chatbot Leaderboard 评测排行(滚动更新):https://chat.lmsys.org/?leaderboard

    分享至微信

    使用微信扫码将网页分享到微信

  • 昨晚,小鹏汽车举办 AI Day 发布会,分享了几个智驾新功能,并向小鹏所有在售车型推送了 AI 天玑系统。AI 天玑系统接入 AI 大模型,通过 AI 助手小 P、AI 司机和 AI 保镖三大核心功能,为用户提供更智能的专属车载 AI 助理服务。 其中 AI 司机拥有 ​……

    分享至微信

    使用微信扫码将网页分享到微信