潮新闻 记者 杨一凡 金春华 谢丹颖 科幻电影《她》中,男主人公和一个人工智能女人“她”陷入爱河。除了处理日常的工作和需求,人工智能顺畅地跟男主角对话谈恋爱,满足人的情感需要。如今,“她”真的来了。 GPT-4o 发布 北京时间5月14日凌晨,OpenAI发布了最新的GPT-4o(o代表Omnimodel全能模型),可以处理文本、音频和图像任意组合作的输入,并生成对应的任意组合输出。特别是音频,它可以在短至232毫秒的时间内响应用户的语音输入,平均320毫秒的用时已经接近人类在日常对话中的反应时间。 从20多分钟的演示直播看,GPT-4o能看、能听、能说会唱,还能带着情绪和人聊天、随时引吭高歌,和人类的对话丝滑得像个真人,惊掉在场所有观众的下巴。让人惊呼:GPT-4o已经超越当下所有的语音助手,科幻电影中的“她”真的来了!OpenAI的CTO米拉·穆拉蒂现场宣布,GPT-4o免费向所有人开放,让其使用没有门槛。 GPT-4o为何能引起如此轰动?新成果为何免费使用?未来又能打开哪些新可能? “更像人” 尽管此次发布的不是搜索引擎,也不是GPT-4.5或GPT-5,但效果依旧“炸裂”。GPT-4o中的o代表Omnimodel(全能模型,可以处理文本、音频和图像任意组合作的输入,并生成对应的任意组合输出),足见其山登绝顶我为峰的“霸气”。 “这次发布的GPT-4o,并没有在模型能力上有巨大突破,但是其展现的融合连贯的交互方式,非常值得关注。”人工智能研究者、培训师王柳鸿表示,从交互效果来看,GPT-4o不再是僵硬的语音聊天工具,更像一个越来越接近人类的新“物种”。 发布会上展示GPT-4o能听懂人急促的呼吸声,并引导如何放松 OpenAI的CEO山姆·奥特曼将之称为“人类级别的响应”。更灵活的“嘴巴”:对话实时回复,人类可以随时打断。声音可以带着感情,还能唱歌;会观察的“眼睛”,通过摄像头看到人穿了什么,通过周围环境布置判断人正在做什么;更聪明的“大脑”,可以解不等式、做同声翻译;还有更灵敏的“耳朵”,能听懂过于急促的呼吸声,并引导如何放松。 相较于上一代GPT-Turbo的“冷冰冰”,GPT-4o如何打通任督二脉,把各项技能融会贯通,看起来更像人? 推理能力方面,GPT-4o超越多个前沿模型取得最高分。来源:OpenAI官网 在业内技术专家看来,这背后是另择新技术路径的结果。GPT-4o可以在232毫秒内对音频输入做出反应,之前大模型之所以会出现对话延迟,是要先将音频转为文本,接受后再输出文本,然后将文本转成音频。一轮程序走下来,不免有延迟,也很难附着人的情绪。而借助GPT-4o,OpenAI跨文本、视觉和音频,端到端地训练了一个新模型,所有输入和输出都在该模型中,交由同一神经网络进行处理。 定量免费 OpenAI不设使用门槛的做法,也引起了热议。 根据官网给出的资料,目前GPT-4o已经支持包括中文在内的20种语言,进行音频等多模态交互。OpenAI表示,这次更新“是朝着实用性的方向发展”,主要聚焦于免费用户,新功能将在未来几周内逐步推送给所有用户。不过,目前官方给出的免费限制在一定的消息数量,超过这个量后,免费用户的模型将被切换回ChatGPT,也就是GPT3.5,而付费用户则将拥有五倍的GPT-4o消息量上限。 图片来源:OpenAI官网 在多位业内人士看来,苦心研发的成果免费开放,看似不符合商业逻辑,但背后是OpenAI对C端用户的争取与重视,在与众多同业巨头的竞争中,加速用户群积累。 从这次发布会内容来看,和之前发布新模型,必强调训练数据量、各项测试成绩等不同,GPT-4o的重点放在使用体验上。发布会后,OpenAI官网还发布了GPT-4o的一系列应用案例探索。包括:照片转漫画风格;会议记录;图片合成;基于图片的3D内容生成;手写体、草稿生成;艺术字体生成等,为C端用户提供了满满当当的“个人助理工具箱”。 穆拉蒂表示,OpenAI使命的一个非常重要的部分,是让其高级人工智能工具能够向所有人免费提供,让人们对技术的能力有“直观的感受”。 结合近期媒体透露出的OpenAI与苹果合作的消息,将对苹果的个人语音助理 Siri 带来颠覆性影响。GPT-4o或要对AIPC、AI手机的厂商“抛橄榄枝”或是“掀桌子”,从终端设备方面进入更多普通人的工作生活。 “她”来了 自2022年11月推出后,ChatGPT成为历史上增长最快的消费类应用,已拥有约1亿周活跃用户。OpenAI表示,超过92%的财富500强公司正在使用该平台。电影中的《她》向着现实徐徐走来,甚至还有人将电影海报中的男主换成了奥特曼的形象。 GPT-4o可以根据文字生成图片并且将文字置于图片中,图片来源:OpenAI官网 GPT-4o的交互体验,触动了全球网友对应用场景的畅想。面向个体用户,可以提供的主情绪价值,充当AI面试官,助力盲人进行环境观察。依托多模态的交互,大模型或将进化为一个“超级语音助理”,成为又一个标志性时刻。市场应用的打开,也将对算力、算法、数据相关行业产生积极影响。也有业内人士表示,尽管目前国内模型能力上赶超OpenAI尚需时日,但其探索的技术方向和未来如何落地应用,也同样需要时间观察。 在乌镇数字文明研究院副院长司新颖认为,GPT4o的推出,令人欣喜地看到人工智能进入了转识成智的阶段。从去年开始,国内大模型集中发布,造就了当下百模千态,行业发展压力也变得越来越大。但同时,“产品迭代和变现途径越来越大,应用层会在2025年迎来更大爆发。” 于浙江而言,又能在哪些领域打开新可能? 在他看来,浙江的优势产业,应该重视GPT4o带来的可能变化。智能产业特别是先进制造,GPT-4o的赋能蕴藏着倍速增长的可能。因此,在新质生产力的构建体系中,应该尽快探索、尽早融入。但他也提醒:技术是一把双刃剑,风险防范意识同样不可或缺。对于大模型调用视听功能等情况,他认为,应该国内尽早出台相应的风险防范机制,避免未来出现信息安全等纰漏。 |
4月7日,京东3C数码“益企焕新季”正式开启。活动期间,京
4月1日,记者从四川省商务厅获悉,截至3月30日,四川省家