百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术分析 > 正文

o1已不是聊天模型了!SpaceX前工程师公开全新使用秘籍

liebian365 2025-03-18 23:47 3 浏览 0 评论

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

苹果&SpaceX前工程师分享o1使用心得,奥特曼、Brockman都转发了。

划重点:

o1已经不是聊天模型了,需要全新的使用方法。

奥特曼还跑去挖坟作者Ben Hylak数天前的“自我打脸”评论,称“观察o1的口碑变化、以及人们学习如何使用它很有趣”。

Ben Hylak曾任SpaceX软件工程师、苹果VisionOS人机交互设计师,目前在创业为AI产品提供分析服务。

具体来说,Ben在o1 pro推出满血$200/月版本的第一天就交钱了,整整测试了一天后得出结论:它真的很糟糕!

  • 每次提问都要等待5分钟
  • 会输出自相矛盾的建议
  • 没有要求但总是会回复架构图+优势/劣势列表

Ben把糟糕的体验发在网上后,很多人表示同感。但有趣的是,也有人强烈反对。

他开始与持不同观点的讨论,然后意识到原来是自己的方法完全错了。

我还在把o1当聊天模型来用,但o1已经不是聊天模型了。

现在,Ben已经从讨厌o1,转变成了每天都在用它解决最重要的问题。

像对待新员工一样对待o1

如果说o1不是聊天模型了,那它现在是什么?

Ben认为它就像一个“报告生成器”。如果你给它足够的上下文,并告诉它你想要输出什么,它通常会一次性找到解决方案。

OpenAI官方其实给了一个简单的o1使用建议,但并不完善。

Ben的建议包括:

提供海量背景信息

不管你现在是怎么理解“海量”的,再乘以10倍。

当使用GPT-4o或Claude 3.5等聊天模型时,通常会从一个简单的问题和一些背景信息开始。如果模型需要更多背景信息,它通常会要求你继续提供。

这就是聊天模型的本质,从一来一回的交互中不断完善输出。

但o1只会从表面上回答你提出的问题,不会试图从你那里获取背景信息。所以需要反过来将尽可能多的上下文主动发给它。

即使只是问一个简单的代码工程问题,应该提供:

  • 解释所有你尝试过但不起作用的方案
  • 一份完整的数据库schemas
  • 解释一下你的公司是做什么的,规模多大,定义内部术语

总而言之,就像对待新员工一样对待o1。

描述你想要什么,而不是指导它如何做

对于大多数聊天模型,我们都会告诉模型希望他如何回复模式,比如“扮演一位软件工程专家,请仔细思考”。

但在o1上有效的方法正相反,告诉它你需要什么,而不是指导它如何去做。

Ben把o1的提示词模板分成4部分:

  • 目标放在最前面
  • 详细指定输出格式
  • 可以附加需要检查的注意事项
  • 海量相关的背景信息

最后,o1的输出有一种学术/商业报告的风格。Ben认为太多的推理token让它很难摆脱这种风格

他曾试图让o1来完成这篇文章,但经过多次尝试,只能得到非常平淡的学生作业。

One More Thing

在奥特曼的转发推文中,有人套出了最新消息:

o3暂时还不会向用户开放,o3-mini会先推出,而且时间不远了。

o3-mini会先提供给Plus订阅用户使用,API的定价OpenAI内部还没确定,但不会很贵。

参考链接:
[1]https://www.latent.space/p/o1-skill-issue

[2]https://x.com/sama/status/1877814065088663763
[3]https://x.com/gdb/status/1878489681702310392

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

相关推荐

几句代码实现搜索内存、解密数据库

本文只分享编程技术,不涉及具体软件。涉及具体软件的文章或工具出现很多年了,到处都是。头条上也有很多,这里我们不讨论。有用户问我:登录后才能解密,输入密码后才能备份出数据库,这些本来就是我自己可以查看的...

JDK 11 新特性总结(jdk最新特性)

一、语言特性增强局部变量类型推断升级支持在Lambda表达式参数中使用var关键字,编译器自动推断类型,简化代码编写并保持类型安全。...

和爷爷一起学Arduino:四位七段数码显示(学习面向对象编程)

2018年,我们买了个七段四位数码显示LED组件,如下图。经试验,它是与TM1637兼容的。右侧的引脚从上到下依次是,G(GND)、D(Data,数据)、C(Clock,时钟)、V(Vcc)。有两种,...

Linux 技巧:重定向 stderr 和 stdout 输出到 gdb 窗口

简介本文介绍了一个实用gdb调试技巧。它结合实际例子,一步一步示意如何重定向stderr和stdout到gdb窗口,使得查看应用程序的输出信息更为方便,从而提高调试者的工作效率。问题为...

CLion 1.0发布,C/C++跨平台集成开发环境

日前,知名开发者工具厂商JetBrains(捷克的一家软件开发公司)正式发布了一款跨平台的C/C++集成开发环境CLion1.0。这款强大的IDE旨在让你基于Linux、OSX、Windows系...

「运维经」第25章——gdb最实用的那几条命令

实用调试操作1setscheduler-lockingoff|on...

XV6操作系统入门系列-02-详解启动过程

第零步-心理上的准备工作任何事物都有其关键的窍门,当我们抓住了关键,事情会变得简单起来;当我们没有抓住要领,事情就会变得异常困难。...

GDB德国格德宝|OEM|奔驰车厂认证(德宝格机械)

MBMercedes油规格MB规范的名称源自奔驰蓝皮书计划,除以编号的段落和页面。经销商使用它来识别制造商认证的产品及其在发动机上的正确应用。...

o1已不是聊天模型了!SpaceX前工程师公开全新使用秘籍

梦晨发自凹非寺量子位|公众号QbitAI苹果&SpaceX前工程师分享o1使用心得,奥特曼、Brockman都转发了。...

ARM平台如何玩转GDB远程调试?(arm gdbserver)

前言关于GDB工具GDB工具是GNU项目调试器,基于命令行使用。和其他的调试器一样,可使用GDB工具单步运行程序、单步执行、跳入/跳出函数、设置断点、查看变量等等,它是UNIX/LINUX操作系统下...

ChatGPT击败50名人类医生!疾病诊断准确率达90%,OpenAI总裁:人机合作还得加强

...

GDB高级技巧:边Debug边修复BUG,无需修改代码,无需重新编译

友情提醒:本文介绍的调试技巧非常实用,但为了讲解清楚,篇幅较长,请耐心看完,我保证你定会有收获!引言程序调试时,你是否遇到过下面几种情况:1、经过定位,终于找到了程序中的一个BUG,满心欢喜地以为找到...

实现多态必须满足什么条件(实现多态的两种方式)

虚函数机制virtualmechanism先看代码:classA{public:virtualvoidprint(){cout<<"A.."<<endl;}...

gdb查看寄存器及内存数据与函数调用栈分析

在分析kdump生成的vmcore文件时,有时会需要分析函数调用栈及函数参数与局部变量的情况,这里以使用gdb为例调试分析一下函数调用的栈帧创建与销毁。操作系统:centos73.10.0-862...

C++语言求数组元素最大值及其下标例程(指针学习与运用)

C++语言编写求数组元素最大值及其下标例程(指针学习与运用)文章logo#include"stdafx.h"...

取消回复欢迎 发表评论: