-
OpenAI, 새로운 추론 모델 o3 및 o3-mini 발표: o1 및 o1-mini 후속 모델로, 복잡한 추론 작업 수행 가능.
- 12 Days of OpenAI 라이브 스트림 마지막 날 공개.
- 초기에는 제한된 외부 연구자들에게 안전 테스트 목적으로 배포.
- o3-mini는 2025년 1월 말, o3는 그 직후 공개 예정.
- Google의 Gemini 2.0 Flash Thinking 모델과 경쟁 구도 형성.
- 과학, 수학, 기술, 물리학 등 어려운 문제 해결에 적용 가능성.
-
o3 모델 성능: 기존 모델들을 능가하는 뛰어난 성능.
- 코딩 능력 탁월: SWE-Bench Verified에서 o1보다 22.8% 향상, Codeforces 평점 2727 달성 (OpenAI 수석 과학자보다 높음).
- 수학 및 과학 실력 뛰어남: AIME 2024 시험에서 96.7% 득점 (1문제 오답), GPQA Diamond에서 87.7% 득점 (인간 전문가 수준 초과).
- 벤치마크 신기록 달성: EpochAI의 Frontier Math에서 25.2% 문제 해결 (다른 모델 2% 미만), ARC-AGI 테스트에서 o1의 3배 성능 달성 (85% 초과).
-
OpenAI의 새로운 안전 정렬 방식: Deliberative alignment.
- o1 모델에 적용되어 안전성 및 정렬 향상에 기여.
- 인간이 작성한 안전 지침을 모델에 직접 통합.
- 응답 생성 전에 모델이 안전 정책을 명시적으로 고려.
- RLHF 및 Constitutional AI보다 향상된 방법.
- 새로운 논문 (비동료 검토)에서 안전 벤치마크 성능 향상, 유해 출력 감소, 콘텐츠 및 스타일 가이드 준수 개선 결과 발표.
- o3 및 o3-mini에도 적용될 예정.
-
o3 및 o3-mini 접근 신청:
- OpenAI 웹사이트에서 2025년 1월 10일까지 신청 가능.
- 연구 분야, 경험, 과거 연구 논문 및 코드 저장소 링크 제출 필요.
- 모델 선택 및 사용 목적 명시.
- 선정된 연구자는 안전 평가에 참여.
- o3는 몇 주 후에 사용 가능.
-
결론: o3 및 o3-mini는 AI 성능의 획기적인 발전을 보여주는 모델이며, OpenAI는 안전한 배포를 위해 외부 연구자들과 협력.
-
OpenAI, AGI에 근접한 추론 모델 ‘o3’ 공개: o1의 후속작으로, 영국 통신사와의 이름 중복으로 o2는 건너뛰었다. CEO 샘 알트먼은 “다음 단계 AI의 시작”이라 칭하며 복잡한 작업 수행 가능성을 언급.
-
ARC-AGI 벤치마크에서 인간 수준 초월: o1의 32점 대비 o3는 75.7점(추론 시간 증가 시 87.5점) 기록. 이는 인간 최고점(85점)을 넘어선 AGI급 성능. GPT-3(0점), GPT-4o(5점)와 비교 시 압도적 성능 향상.
-
다양한 벤치마크에서 괄목할 만한 성과: SWE Bench Verify에서 71.7% 정확도(o1 대비 20% 상승), Codeforces에서 2727점(o1 대비 상승, 연구 담당 수석 부사장 최고 점수 2500점 상회). AIME 96.7점(o1 대비 10점 이상 상승), GPQ 다이아몬드 87.7점(박사 수준 성적 압도).
-
추론 시간 조정 기능 및 o3-미니 출시: 모델 컴퓨팅 설정(낮음, 중간, 높음) 가능. 고성능(87.5점) 달성에는 작업당 수천 달러 비용 소요. 저렴한 대안으로 o3-미니 출시, 1월 10일까지 레드팀 테스트 참가자 모집. o3-미니 테스트는 1월 말, o3 테스트는 그 이후 진행 예정.
-
구글 ‘제미나이 2.0’ 발표 직후 공개: 구글의 새로운 추론 모델 발표 다음 날 공개, AGI 근접 주장으로 한 발 앞서나가는 모습.
-
OpenAI o3 개요: OpenAI 개발 추론 특화 멀티모달 모델. o3와 경량화 버전 o3-mini 존재. 2025년 정식 출시 예정. O2 상표권 분쟁 회피 위해 o3 명명.
-
o3 성능:
- SWE-bench: 71.7점 (최고 기록).
- Codeforces: 2727점 (상위 0.2%).
- Competition Math: 96.7점 (만점 수준).
- 박사급 과학 문제: 87.7점 (고득점).
- ARC-AGI: 87.5점 (AGI 타이틀 획득, 문제당 3,440달러 소요, 논란 발생). 문제당 20달러 사용시 75.7점.
- Frontier Math: 25.2점 (박사급 문제, 향후 90점 목표).
-
o3-mini 성능:
- o3 경량화 버전.
- o1-mini 이상 성능, 비용은 o1, o3보다 저렴.
- Codeforces: o1 압도적 성능.
- 기타 벤치마크: o1 수준 성능, o1 대체재 가능성.
-
타임라인: 2024년 12월 21일 연구자 대상 얼리 엑세스 제공 시작.
-
여담: o1 대비 o3 성능 향상, 지속적 발전 예측. 비용 고려 시 일반인 접근성은 향후 개선 필요. 라이선스는 Proprietary Software. 나무위키 정보임을 명시.
-
OpenAI 개발자 데이 9일차 요약: 2백만 명 이상의 개발자를 위한 새로운 모델 및 기능 발표.
-
주요 발표:
- API 상의 O1 정식 출시: 9월 프리뷰 이후 개발자 피드백 반영. 함수 호출, 구조화된 출력, 개발자 메시지 기능 추가. 개발자 메시지는 모델의 지시 사항 순서 제어. 추론 노력 매개변수 추가(시간 및 비용 절약). 비전 입력 기능 추가(제조, 과학 분야 활용).
- O1 성능 평가: 함수 호출, 구조화된 출력, 코딩, Amy 평가에서 GPT-4보다 성능 향상. 지연 시간 60% 단축. O1 Pro API 출시 예정.
- 실시간 API 업데이트: WebSocket 지원에 더해 WebRTC 지원 추가. 간편한 통합 및 인터넷 환경 변화에 대한 적응력 향상. GPT-4 오디오 토큰 가격 60% 인하, GPT-4 mini 지원 추가(10배 저렴). Python SDK 제공. 함수 호출 및 가드레일 API 변경.
- 선호도 미세 조정(Preference Fine-tuning): 사용자 선호도에 맞춰 모델 성능 향상. 기존의 감독 학습 미세 조정과 달리 선호하는 응답과 비선호하는 응답 쌍을 제공. 고객 지원, 콘텐츠 작성, 콘텐츠 조정 등에 활용 가능. GPT-4, GPT-4 mini 지원.
- 기타 업데이트: Go 및 Java SDK 공식 지원. 간소화된 API 키 로그인/등록 절차. 전 세계 개발자 데이 발표 영상 YouTube 공개. 개발자 포럼 AMA 진행.
-
데모: O1을 이용한 서식 오류 감지 및 수정 데모 시연. 함수 호출 및 구조화된 출력 기능 활용. 실시간 API를 이용한 간단한 HTML 코드 데모(12줄). 소형 마이크로컨트롤러를 이용한 실시간 API 활용 예시.
-
전반적인 분위기: 개발자 친화적인 기능 개선 및 새로운 기능 추가를 통해 개발자 생태계 확장에 집중. 다양한 성능 평가 결과를 통해 기능 개선 효과 제시. 활용 사례를 중심으로 설명.
https://www.youtube.com/live/SKBG1sqdyIU?si=Cn58sZalwXRyt91O
00:00:01 [Music] good morning we have an exciting one for you today we started this 12-day event 12 days ago with the launch of 01 our first reasoning model it’s been amazing to see what people are doing with that and very gratifying to hear how much people like it we view this as sort of the beginning of the next phase of AI where you can use these models to do increasingly complex tasks that require a lot of reasoning and so for the last day of this event um we thought it would be fun to go from one Frontier Model to
00:00:31 our next Frontier Model today we’re going to talk about that next Frontier Model um which you would think logically maybe should be called O2 um but out of respect to our friends at telica and in the grand tradition of open AI being really truly bad at names it’s going to be called 03 actually we’re going to launch uh not launch we’re going to announce two models today 03 and O3 mini 03 is a very very smart model uh 03 mini is an incredibly smart model but still uh but a really good performance and
00:01:01 cost so to get the bad news out of the way first we’re not going to publicly launch these today um the good news is we’re going to make them available for Public Safety testing starting today you can apply and we’ll talk about that later we’ve taken safety Tes testing seriously as our models get uh more and more capable and at this new level of capability we want to try adding a new part of our safety testing procedure which is to allow uh Public Access for researchers that want to help us test
00:01:27 we’ll talk more at the end about when these models uh when we expect to make these models models generally available but we’re so excited uh to show you what they can do to talk about their performance got a little surprise we’ll show you some demos uh and without further Ado I’ll hand it over to Mark to talk about it cool thank you so much Sam so my name is Mark I lead research at openai and I want to talk a little bit about O’s capabilities now O is a really strong model at very hard technical
00:01:50 benchmarks and I want to start with coding benchmarks if you can bring those up so on software style benchmarks we have sweet bench verified which is a benchmark consisting of real world software tasks we’re seeing that 03 performs at about 71.7% accuracy which is over 20% better than our 01 models now this really signifies that we’re really climbing the frontier of utility as well on competition code we see that 01 achieves an ELO on this contest coding site called code forces about 1891 at our
00:02:24 most aggressive High test time compute settings we’re able to achieve almost like a 2727 ELO here ju so Mark was a competitive programmer actually still coaches competitive programming very very good what what is your I think my best at a comparable site was about 2500 that’s tough well I I will say you know our chief scientist um this is also better than our chief scientist yakov’s score I think there’s one guy at opening eye who’s still like a 3,000 something yeah a few more months to yeah enoy
00:02:51 hopefully we have a couple months to enjoy there great that’s I mean this is it’s in this model is incredible at programming yeah and not just programing but also mathematics so we see that on competition math benchmarks just like competitive programming we achieve very very strong scores so 03 gets about 96.7% accuracy versus an 01 performance of 83.3% on the Amy what’s your best Amy score I did get a perfect score once so I’m safe but yeah um really what this signifies is that 03 um often just misses one
00:03:24 question whenever we tested on this very hard feeder exam for the USA mathematical Olympian there’s another very tough Benchmark which is called gpq Diamond and this measures the model’s performance on PhD level science questions here we get another state-of-the-art number 87.7% which is about 10% better than our 01 performance which was at 78% just to put this in perspective if you take an expert PhD they typically get about 70% in kind of their field of strength here so one thing that you might notice yeah
00:03:58 from from some of these benchmarks is that we’re reaching saturation for a lot of them or nearing saturation so the last year has really highlighted the need for really harder benchmarks to accurately assess where our Frontier models lie and I think a couple have emerged as fairly promising over the last months one in particular I want to call out is epic ai’s Frontier math benchmark now you can see the scores look a lot lower than they did for the the previous benchmarks we showed and this is because this is considered today
00:04:28 the toughest mathematical Benchmark out there this is a data set that consists of Novel unpublished and also very hard to extremely hard yeah very very hard problems even turns houses you know it would take professional mathematicians hours or even days to solve one of these problems and today all offerings out there um have less than 2% accuracy um on on this Benchmark and we’re seeing with 03 in aggressive test time settings we’re able to get over 25% yeah um that’s awesome in addition to Epic ai’s Frontier math benchmark we
00:05:03 have one more surprise for you guys so I want to talk about the arc Benchmark at this point but I would love to invite one of our friends Greg who is the president of the Ark foundation on to talk about this Benchmark wonderful Sam and mark thank you very much for having us today of course hello everybody my name is Greg camad and I the president of the arc prise Foundation now Arc prise is a nonprofit with the mission of being a North star towards AGI through and during benchmarks so so our first
00:05:30 Benchmark Arc AGI was developed in 2019 by Francois cholle in his paper on the measure of intelligence however it has been unbeaten for 5 years now in AI world that’s like it feels like centuries is where it is so the system that beats Ark AGI is going to be an important Milestone towards general intelligence but I’m excited to say today that we have a new state-of-the-art score to announce before I get into that though I want to talk about what Arc AGI is so I would love to show you an example here Arc AGI
00:06:05 is all about having input examples and output examples well they’re good they’re good okay input examples and output examples now the goal is you want to understand the rule of the transformation and guess it on the output so Sam what do you think is happening in here probably putting a dark blue square in the empty space see yes that is exactly it now that is really um it’s easy for humans to uh intu guess what that is it’s actually surprisingly hard for AI to know to understand what’s going on so I want to
00:06:36 show one more hard example here now Mark I’m going to put you on the spot what do you think is going on in this uh task okay so you take each of these yellow squares you count the number of colored kind of squares there and you create a border of that with that that is exactly and that’s much quicker than most people so congratulations on that um what’s interesting though is AI has not been able to get this problem thus far and even though that we verified that a panel of humans could actually do it now
00:07:05 the unique part about AR AGI is every task requires distinct skills and what I mean by that is we won’t ask there won’t be another task that you need to fill in the corners with blue squares and but we do that on purpose and the reason why we do that is because we want to test the model’s ability to learn new skills on the Fly we don’t just want it to uh repeat what it’s already memorized that that’s the whole Point here now Arc AGI version 1 took 5 years to go from 0% to 5% with leading Frontier models however
00:07:39 today I’m very excited to say that 03 has scored a new state-of-the-art score that we have verified on low compute for uh 03 it has scored 75.7 on Arc ai’s semi private holdout set now this is extremely impressive because this is within the uh compute requirement that we have for our public leader board and this is the new number one entry on rkg Pub so congratulations to that thank so much yeah now uh as a capabilities demonstration when we ask o03 to think longer and we actually ramp up to high compute 03 was able to score
00:08:17 85.7% on the same hidden holdout set this is especially important .5 sorry 87.5 yes this is especially important because um Human Performance is is comparable at 85% threshold so being Above This is a major Milestone and we have never tested A system that has done this or any model that has done this beforehand so this is new territory in the rcgi world congratulations with that congratulations for making such a great Benchmark yeah um when I look at these scores I realize um I need to switch my
00:08:50 worldview a little bit I need to fix my AI intuitions about what AI can actually do and what it’s capable of uh especially in this 03 world but the work also is not over yet and these are still the early days of AI so um we need more enduring benchmarks like Arc AGI to help measure and guide progress and I am excited to accelerate that progress and I’m excited to partner with open AI next year to develop our next Frontier Benchmark amazing you know it’s also a benchmark that we’ve been targeting and
00:09:22 been on our mind for a very long time so excited to work with you in the future worth mentioning that we didn’t we Target and we think it’s an awesome Ben we didn’t go do specif you the general but yeah really appreciate the partnership this was a fun one to do absolutely and even though this has done so well AR priz will continue in 2025 and anybody can find out more at ARC pri.org great thank you so much absolutely okay so next up we’re going to talk about o03 mini um O3 mini is a thing that we’re really really excited
00:09:51 about and hongu who trained the model will come out and join us hey hey you hey um hi everyone um I’m H uran I’m open air researcher uh working on reasoning so this September we released 01 mini uh which is a efficient reasoning model that you the 01 family that’s really capable of uh math and coding probably among the best in the world given the low cost so now together with 03 I’m very happy to uh tell you more about uh 03 mini which is a brand new model in the 03 family that truly defines a new
00:10:27 cost efficient reasoning Frontier it’s incredible um yeah though it’s not available to our users today we are opening access to the model to uh our safety and the security researchers to test the model out um with the release of adaptive thinking time in the API a couple days ago for all three mini will support three different options low median and high reasoning effort so the users can freely adjust the uh thinking time based on their different use cases so for example for some we may want the
00:11:00 model to think longer for more complicated problems and think shorter uh with like simpler ones um with that I’m happy to show the first set of evals of all three mini um so on the left hand side we show the coding evals so it’s like code forces ELO which measures how good a programmer is uh and the higher is better so as we can see on the plot with more thinking time all3 mini is able to have like increasing Yow all all performing all1 mini and with like median thinking time is able to measure
00:11:39 even better than all1 yeah so it’s like for an order of magnitude more speed and cost we can deliver the same code performance on this for even better insurance right so although it’s like the ultra Min high is still like a couple hundred points away from Mark it’s not far that’s better than me probably um but just an incredible sort of cost to Performance gain over been able to offer with o1 and we think people will really love this yeah I hope so so on the right hand plot we show the estimated cost versus Cod forces yellow
00:12:09 tradeoff uh so it’s pretty clear that all3 un defines like a new uh cost efficient reasoning Frontier on coding uh so it’s achieve like better performance compar better performance than all1 is a fractional cost amazing um with that being said um I would like to do a live demo on ult Mini uh so um and hopefully you can test out all the three different like low medium high uh thinking time of the model so let me P the problem um so I’m testing out all three mini High first and the task is that um
00:12:57 asking the model to uh use Python to implement a code generator and executor so if I launch this uh run this like python script it will launch a server um and um locally with a with a with a UI that contains a text box and then we can uh make coding requests in a text box it will send the request to call ult Mini API and Al mini API will solve the task and return a piece of code and it will then uh save the code locally on my desktop and then open a terminal to execute the code automatically so it’s a
00:13:38 very complicated pretty complicated house right um and it out puts like a big triangle code so if we copy the code and paste it to our server and then we like to run launch This Server so we should get a text box when you’re launching it yeah okay great oh yeah I see hope so to be launching something um okay oh great we have a we have a UI where we can enter some coding prps let’s try out a simple one like PR open the eye and a random number submit so it’s sending the request to all3 mini medium so you
00:14:22 should be pretty fast right so on this 4 terminal yeah 41 that’s the magic number right so you say the generated code to this like local script um on a desktop and print out open 41 um is there any other task you guys want toy test it out I wonder if you could get it to get its own GP QA numbers that is that’s a great ask just as what I expected we practice a lot yesterday um okay so now let me copy the code and send it in the code UI so in this task we asked the model to evaluate all three mini with the low
00:15:08 reasoning effort on this hard gpq data set and the model needs to First download the the the raw file from this URL and then you need to figure out which part is a question which part is a um which part is the answer and or which part is the options right and then formulate all the questions and to and then ask the model to answer it and then par the result and then to grade it that’s actually blazingly fast yeah and it’s actually really fast because it’s calling the all3 mini with low reasoning
00:15:42 effort um yeah let’s see how it goes I guess two tasks are really hard here yeah the long tail open the problem go go yeah g is a hard data set yes yeah it contain is like maybe 196 easy problems and two really hard problems um while we’re waiting for this do you want to show the what the request was again mhm oh it’s actually Returns the results it’s uh 61.6% 6 6% right this a low reasoning effort model it’s actually pretty fast then full evaluation in the uh in the A minut and somehow very cool to like just
00:16:26 ask a model to evaluate itself like this yeah exactly right and if you just summarize what we just did we asked the model to write a script to evaluate itself um through on this like hard GQ Set uh from a UI right from this code generator and executor created by the model itself in the first place next year we’re going to bring you on and you’re going to have to improve ask the model to improve itself yeah let’s definely ask the model to improve it next time maybe not um um so um besides code forces and gpq the
00:17:01 model is also a pretty good um um math model so we we show on this plot uh with like on this am 2024 data set also3 Min low achieves um comparable performance with all1 mini and 03 mini medium achieves like comparable better performance than 01 we check the solid bar which are passle ones and we can further push the performance with all3 mini high right and on the right hand side plot when we measure the latency on this like anonymized o preview traffic we show that all3 mini low drastically reduce the latency of 01 mini right
00:17:40 almost like achieving comparable latency with uh gbt 40 where under a second so probably is like instant response and also Mei medium is like half the latency of o1 um and here’s another set of eval I’m even more excited to to show you guys is um uh API features right we get a lot of requests from our developer communities to support like function calling structured outputs developer messages on all mini series models and here um all3 mini will support all these features same as o1 um and notably it achieves
00:18:17 like comparable better performance than for all on most of the evil providing a more cost effective solution to our developers cool um and if you actually enil the True gbq damond Performance that I run a couple days ago uh it actually also mean l is actually 62% right we basically ask model to eval itself yeah right next time we should totally just ask model to automatically do the evaluation instead of ask um yeah so with that um that’s it for alter Mei and I hope our user can have a much better user experience in
00:18:53 already next year fantastic work yeah thank great thank you cool so I know you’re excited to get this in your own hands um and we’re very working very hard to postra this model to do some uh safety interventions on top of the model and we’re doing a lot of internal safety testing right now but something new we’re doing this time is we’re also opening up this model to external safety testing starting today with O3 mini and also eventually with 03 so how do you get Early Access as a safety researcher
00:19:22 or a security researcher you can go to our website and you can see a form like this one that you see on the screen and and applications for this form are rolling they’ll close on January 10th and we really invite you to apply uh we’re excited to see what kind of things that you can explore with this and what kind of um jailbreaks and other things you discover cool great so one other thing that I’m excited to talk about is a a new report that we published I think yesterday or today um that advances our
00:19:51 safety program and this is a new technique called deliberative alignment typically when we do safety training on top of our model we’re trying to learn this decision boundary of what’s safe and what’s unsafe right and usually it’s uh just through showing examples pure examples of this is a safe prompt this is an unsafe prompt but we can now leverage the reasoning capabilities that we have from our models to find a more accurate safety boundary here and this technique called deliberative alignment
00:20:21 allows us to take a safety spec allows the model to reason over a prompt and also just tell you know is this a safe prompt or not often times within the reasoning it would just uncover that hey you know this user is trying to trick me or they’re expressing this kind of intent that’s hidden so even if you kind of try to Cipher your your prompts often times the reasoning will break that and the primary result you see is in this figure that’s shown over here we have um our performance on a rejection Benchmark
00:20:49 on the x-axis and on over refusals on the y- AIS and here uh to the right is better so this is our ability to accurately tell when we should reject something also our ability to tell when we should review something and typically you think of these two metrics as having some sort of tradeoff it’s really hard to do well I’m it is really hard to yeah um but it seems with deliberative alignment that we can get these two green points on the top right whereas the previous models the red and blue points um signify the performance of our
00:21:17 previous models so we’re really starting to leverage safety to get sorry leverage reasoning to get better safety yeah I think this is a really great result of safety yeah fantastic Okay so to sum this up 03 mini and 03 apply please if you’d like for safety testing to help us uh test these models as an additional step we plan to launch 03 mini around the end of January and full 03 shortly after that but uh that will you know the more people can help us safety test the more we can uh make sure we hit that so
00:21:47 please check it out uh and thanks for following along with us with this it’s been a lot of fun for us we hope you’ve enjoyed it too Merry Christmas Merry Christmas Merry Christmas [Music]
한글로 전문 빠짐없이 번역해.
[음악] 좋은 아침입니다. 오늘 여러분께 흥미로운 소식을 전해드립니다. 12일 전, 저희의 첫 번째 추론 모델인 O1을 출시하며 12일간의 이벤트를 시작했습니다. 사람들이 O1을 활용하는 모습과 얼마나 만족하는지 듣는 것은 정말 놀랍고 기쁜 일이었습니다. 저희는 이것을 점점 더 복잡한 추론 작업을 수행하기 위해 이러한 모델을 사용할 수 있는 AI의 다음 단계의 시작으로 보고 있습니다. 그래서 이 이벤트의 마지막 날, 하나의 Frontier Model에서 다음 Frontier Model로 넘어가는 것이 재미있을 것이라고 생각했습니다.
오늘 저희는 다음 Frontier Model에 대해 이야기할 것입니다. 논리적으로 O2라고 불러야 한다고 생각할 수도 있지만, Telica의 친구들을 존중하고 OpenAI의 정말 형편없는 작명 전통에 따라 O3라고 부르겠습니다. 사실 오늘 두 가지 모델, O3와 O3 mini를 발표할 예정입니다. O3는 매우 똑똑한 모델이고, O3 mini는 놀라울 정도로 똑똑하지만 성능과 비용 면에서 정말 훌륭합니다.
먼저 안 좋은 소식부터 전하자면, 오늘 이 모델들을 공개 출시하지는 않습니다. 좋은 소식은 오늘부터 공공 안전 테스트를 위해 이 모델들을 제공할 예정이라는 것입니다. 신청서를 제출할 수 있으며, 나중에 자세히 설명드리겠습니다. 저희는 모델이 점점 더 강력해짐에 따라 안전 테스트를 중요하게 생각해 왔으며, 이 새로운 수준의 기능에서는 테스트 절차에 새로운 부분을 추가하고 싶습니다. 바로 테스트에 도움을 주고 싶은 연구자들에게 공개 접근을 허용하는 것입니다.
이 모델들을 언제 일반적으로 사용할 수 있게 될지에 대해서는 마지막에 자세히 설명드리겠지만, 이 모델들이 무엇을 할 수 있는지 보여드리고 성능에 대해 이야기하게 되어 매우 기쁩니다. 약간의 놀라움도 준비되어 있습니다. 데모도 보여드리겠습니다. 더 이상 고민하지 않고 Mark에게 넘기겠습니다.
멋지네요. Sam, 정말 고맙습니다. 제 이름은 Mark이고, OpenAI에서 연구를 이끌고 있습니다. O3의 기능에 대해 간략히 이야기하고 싶습니다. O3는 매우 어려운 기술적 벤치마크에서 정말 강력한 모델입니다. 코딩 벤치마크부터 시작하고 싶습니다. 화면에 띄워주시겠습니까?
소프트웨어 스타일 벤치마크에서 저희는 실제 소프트웨어 작업으로 구성된 벤치마크인 Sweet Bench Verified를 사용했습니다. O3는 약 71.7%의 정확도를 보였는데, 이는 O1 모델보다 20% 이상 향상된 수치입니다. 이는 저희가 실용성의 경계를 넘어서고 있다는 것을 의미합니다. 경쟁 코딩에서도 Codeforces라는 경쟁 코딩 사이트에서 O1은 약 1891의 ELO를 달성했습니다. 가장 공격적인 고테스트 시간 계산 설정에서 거의 2727 ELO를 달성할 수 있었습니다.
Mark는 경쟁 프로그래머였고, 실제로 여전히 경쟁 프로그래밍을 지도하고 있습니다. 매우 훌륭합니다. 당신의 최고 점수는 얼마였나요? 비슷한 사이트에서 제 최고 점수는 약 2500점이었습니다. 쉽지 않네요. 저희 수석 과학자의 점수보다도 높다는 것을 말씀드리고 싶습니다. 이것은 우리 수석 과학자인 Yakov의 점수보다도 높습니다. OpenAI에는 여전히 3000점대인 사람이 한 명 있습니다. 몇 달 더 즐길 수 있기를 바랍니다. 네, 몇 달 더 즐길 수 있기를 바랍니다.
훌륭합니다. 이 모델은 프로그래밍에 놀랍습니다. 네, 프로그래밍뿐만 아니라 수학에도 뛰어납니다. 경쟁 수학 벤치마크에서 경쟁 프로그래밍처럼 매우 높은 점수를 얻었습니다. O3는 Amy에서 O1의 83.3%에 비해 약 96.7%의 정확도를 달성했습니다. 당신의 최고 Amy 점수는 얼마였나요? 저는 한 번 만점을 받았습니다. 그래서 안전합니다. 이것은 O3가 미국 수학 올림피아드의 예선 시험인 이 매우 어려운 시험에서 종종 한 문제만 틀린다는 것을 의미합니다.
GPQ Diamond라는 또 다른 매우 어려운 벤치마크가 있습니다. 이것은 박사 수준의 과학 질문에 대한 모델의 성능을 측정합니다. 여기서 저희는 78%였던 O1 성능보다 약 10% 향상된 최첨단 수치인 87.7%를 얻었습니다. 참고로 전문 박사는 일반적으로 자신의 전문 분야에서 약 70%를 얻습니다.
이러한 벤치마크 중 일부에서 알 수 있듯이 저희는 많은 벤치마크에서 포화 상태에 도달했거나 포화 상태에 가까워지고 있습니다. 지난 한 해는 Frontier Model의 위치를 정확하게 평가하기 위해 더 어려운 벤치마크의 필요성을 분명히 보여주었습니다. 지난 몇 달 동안 몇 가지 벤치마크가 상당히 유망한 것으로 나타났습니다. 특히 Epic AI의 Frontier Math 벤치마크를 언급하고 싶습니다.
점수가 이전 벤치마크보다 훨씬 낮아 보이는데, 이는 현재 가장 어려운 수학 벤치마크로 간주되기 때문입니다. 이 데이터 세트는 새롭고 발표되지 않은 매우 어려운 문제들로 구성되어 있습니다. 네, 매우 어려운 문제입니다. 전문 수학자도 이러한 문제 중 하나를 푸는 데 몇 시간 또는 며칠이 걸릴 수 있습니다. 현재 모든 모델은 이 벤치마크에서 2% 미만의 정확도를 보이고 있습니다. 공격적인 테스트 시간 설정에서 O3는 25%를 넘었습니다. 네, 훌륭합니다.
Epic AI의 Frontier Math 벤치마크 외에도 또 다른 놀라움이 있습니다. 이 시점에서 Arc 벤치마크에 대해 이야기하고 싶지만, Arc 재단 회장인 Greg을 초대하고 싶습니다. 이 벤치마크에 대해 이야기해 주시겠습니까?
Sam과 Mark, 오늘 저희를 초대해 주셔서 정말 감사합니다. 물론입니다. 안녕하세요, 여러분. 저는 Greg Camad이고, Arc Prize 재단의 회장입니다. Arc Prize는 AGI를 향한 북극성이 되는 것을 사명으로 하는 비영리 단체입니다. 저희의 첫 번째 벤치마크인 Arc AGI는 2019년 Francois Chollet이 그의 논문 “지능의 척도에 대하여”에서 개발했습니다. 그러나 5년 동안 AI 세계에서 깨지지 않았습니다. 마치 몇 세기 전 같습니다. Arc AGI를 깨는 시스템은 일반 인공지능을 향한 중요한 이정표가 될 것입니다. 하지만 오늘 새로운 최첨단 점수를 발표하게 되어 기쁩니다.
그 전에 Arc AGI가 무엇인지 설명하고 싶습니다. 여기에 예시를 보여드리겠습니다. Arc AGI는 입력 예시와 출력 예시에 관한 것입니다. 좋습니다. 입력 예시와 출력 예시입니다. 목표는 변환 규칙을 이해하고 출력을 추측하는 것입니다. Sam, 여기서 무슨 일이 일어나고 있다고 생각하십니까? 아마 빈 공간에 진한 파란색 사각형을 넣는 것 같습니다. 네, 맞습니다. 바로 그것입니다. 사람에게는 직관적으로 추측하기 쉽지만, AI가 무슨 일이 일어나고 있는지 이해하는 것은 놀라울 정도로 어렵습니다.
더 어려운 예시를 하나 더 보여드리겠습니다. Mark, 당신을 시험해 보겠습니다. 이 작업에서 무슨 일이 일어나고 있다고 생각하십니까? 각 노란색 사각형을 가져와서 색칠된 사각형의 수를 세고 그 수만큼 테두리를 만듭니다. 바로 그것입니다. 대부분의 사람들보다 훨씬 빠릅니다. 축하합니다. 흥미로운 점은 AI가 지금까지 이 문제를 풀지 못했다는 것입니다. 인간 패널이 실제로 풀 수 있다는 것을 확인했음에도 불구하고 말입니다.
Arc AGI의 특별한 점은 모든 작업에 고유한 기술이 필요하다는 것입니다. 즉, 파란색 사각형으로 모서리를 채워야 하는 작업은 다시 나오지 않습니다. 저희는 의도적으로 그렇게 합니다. 그 이유는 모델이 즉석에서 새로운 기술을 배우는 능력을 테스트하고 싶기 때문입니다. 이미 기억한 것을 반복하기만 하는 것을 원하지 않습니다. 그것이 핵심입니다.
Arc AGI 버전 1은 주요 Frontier Model을 사용하여 0%에서 5%까지 도달하는 데 5년이 걸렸습니다. 하지만 오늘 O3가 새로운 최첨단 점수를 기록했다는 것을 발표하게 되어 매우 기쁩니다. 저희는 O3의 낮은 계산량에서 75.7점을 기록한 것을 확인했습니다. 이는 저희 공개 리더보드의 계산 요구 사항 내에 있기 때문에 매우 인상적입니다. 그리고 이것은 rkg Pub의 새로운 1위 기록입니다. 축하합니다. 정말 감사합니다.
기능 데모로 O3에게 더 오래 생각하도록 요청하고 실제로 높은 계산량으로 증가시켰을 때, O3는 동일한 숨겨진 홀드아웃 세트에서 85.7%를 기록할 수 있었습니다. 죄송합니다. 87.5%입니다. 이는 특히 중요합니다. 인간의 성능은 85% 임계값과 비슷하기 때문입니다. 이보다 높은 점수는 중요한 이정표이며, 이전에 이렇게 한 시스템이나 모델을 테스트한 적이 없습니다. 따라서 이것은 rcgi 세계에서 새로운 영역입니다. 축하합니다. 훌륭한 벤치마크를 만들어 주셔서 감사합니다.
이 점수들을 보면서 저는 AI가 실제로 무엇을 할 수 있는지, 특히 이 O3 세계에서 무엇을 할 수 있는지에 대한 저의 AI 직관을 바꿔야 한다는 것을 깨달았습니다. 하지만 작업은 아직 끝나지 않았고, 이것은 여전히 AI의 초기 단계입니다. 따라서 진행 상황을 측정하고 안내하는 데 도움이 되는 Arc AGI와 같은 더 지속적인 벤치마크가 필요합니다. 저는 그 진행을 가속화하게 되어 기쁘고, 내년에 OpenAI와 협력하여 다음 Frontier 벤치마크를 개발하게 되어 기쁩니다. 놀랍습니다.
저희가 목표로 삼고 훌륭하다고 생각하는 벤치마크이기도 합니다. 특별히 그렇게 하려고 한 것은 아니지만, 일반적으로 그렇게 생각합니다. 파트너십에 정말 감사드립니다. 함께하게 되어 즐거웠습니다. 물론입니다. 이렇게 잘했지만, AR priz는 2025년에도 계속될 것이며, 누구든지 ARC pri.org에서 자세한 내용을 확인할 수 있습니다. 감사합니다.
다음으로 O3 mini에 대해 이야기하겠습니다. O3 mini는 저희가 정말 기대하고 있는 모델입니다. 모델을 훈련시킨 Hongu가 나와서 함께해 줄 것입니다. 안녕하세요. 안녕하세요, 여러분. 저는 Hongu입니다. 저는 추론 분야를 연구하는 OpenAI 연구원입니다. 지난 9월에 저희는 O1 제품군의 효율적인 추론 모델인 O1 mini를 출시했습니다. 이 모델은 낮은 비용으로 수학과 코딩에 매우 능숙하며 아마도 세계 최고 수준일 것입니다.
이제 O3와 함께 새로운 비용 효율적인 추론의 경계를 정의하는 O3 제품군의 새로운 모델인 O3 mini에 대해 자세히 설명하게 되어 매우 기쁩니다. 놀랍습니다. 네, 오늘 사용자에게 제공되지는 않지만, 저희는 안전 및 보안 연구원들이 모델을 테스트할 수 있도록 모델에 대한 접근 권한을 열어두고 있습니다.
며칠 전 API에 적응형 사고 시간이 출시되면서 O3 mini는 낮음, 중간, 높음의 세 가지 추론 노력 옵션을 지원합니다. 따라서 사용자는 다양한 사용 사례에 따라 사고 시간을 자유롭게 조정할 수 있습니다. 예를 들어 더 복잡한 문제의 경우 모델이 더 오래 생각하고 더 간단한 문제의 경우 더 짧게 생각하도록 할 수 있습니다.
이제 O3 mini의 첫 번째 평가 세트를 보여드리겠습니다. 왼쪽에는 코딩 평가를 보여줍니다. 프로그래머의 실력을 측정하는 Codeforces ELO입니다. 높을수록 좋습니다. 그래프에서 볼 수 있듯이 사고 시간이 길어질수록 O3 mini의 ELO가 높아지고 O1 mini보다 성능이 향상됩니다. 중간 사고 시간에서는 O1보다 훨씬 더 나은 성능을 보입니다. 네, 속도와 비용이 10배 이상 향상되었지만 동일한 코드 성능을 제공할 수 있습니다. 심지어 더 나은 경우도 있습니다.
매우 높음 설정이 여전히 Mark보다 수백 점 낮지만, O1에 비해 비용 대비 성능 향상이 놀랍습니다. 사람들이 정말 좋아할 것이라고 생각합니다. 네, 그러기를 바랍니다. 오른쪽 그래프에는 예상 비용 대비 Codeforces ELO의 상관관계를 보여줍니다. O3 mini가 코딩에서 새로운 비용 효율적인 추론의 경계를 정의한다는 것이 분명합니다. O1보다 훨씬 적은 비용으로 더 나은 성능을 달성합니다. 놀랍습니다.
이제 O3 mini에 대한 라이브 데모를 보여드리겠습니다. 세 가지 사고 시간 옵션(낮음, 중간, 높음)을 모두 테스트해 볼 수 있기를 바랍니다. 문제를 입력하겠습니다. 먼저 O3 mini 높음을 테스트하고 있습니다. 작업은 모델에게 Python을 사용하여 코드 생성기와 실행기를 구현하도록 요청하는 것입니다. 이 Python 스크립트를 실행하면 텍스트 상자가 있는 UI가 있는 서버가 로컬에서 실행됩니다.
텍스트 상자에 코딩 요청을 할 수 있습니다. 요청이 O3 mini API로 전송되고 O3 mini API가 작업을 해결하여 코드를 반환합니다. 그런 다음 코드가 내 데스크톱에 로컬로 저장되고 터미널이 열려 코드가 자동으로 실행됩니다. 매우 복잡한 작업입니다. 네, 매우 복잡합니다. 큰 삼각형 코드를 출력합니다. 코드를 복사하여 서버에 붙여넣고 서버를 실행하면 텍스트 상자가 표시되어야 합니다. 네, 실행 중입니다. 네, 뭔가 실행 중이기를 바랍니다.
좋습니다. 코딩 프롬프트를 입력할 수 있는 UI가 있습니다. “print openai”와 난수를 출력하는 간단한 프롬프트를 시도해 보겠습니다. 요청이 O3 mini 중간으로 전송되고 있으므로 매우 빨라야 합니다. 네, 이 터미널에서 41이라는 숫자가 출력되었습니다. 마법의 숫자입니다. 생성된 코드가 데스크톱의 로컬 스크립트에 저장되고 “openai 41″이 출력되었습니다. 다른 테스트해 보고 싶은 작업이 있습니까? 자체 GPQA 점수를 얻도록 할 수 있는지 궁금합니다. 좋은 질문입니다. 제가 예상했던 바로 그 질문입니다. 어제 많이 연습했습니다.
이제 코드를 복사하여 코드 UI에 보내겠습니다. 이 작업에서는 모델에게 낮은 추론 노력으로 어려운 GPQ 데이터 세트에서 O3 mini를 평가하도록 요청합니다. 모델은 먼저 이 URL에서 원시 파일을 다운로드한 다음 어떤 부분이 질문이고 어떤 부분이 답변인지, 어떤 부분이 선택지인지 파악해야 합니다. 그런 다음 모든 질문을 공식화하고 모델에게 답변하도록 요청한 다음 결과를 분석하고 점수를 매겨야 합니다. 매우 빠릅니다. 네, 낮은 추론 노력으로 O3 mini를 호출하기 때문에 정말 빠릅니다. 어떻게 될지 지켜보겠습니다. 두 가지 작업이 정말 어렵습니다. 네, 어려운 문제를 푸는 데 시간이 오래 걸립니다. GPQ는 어려운 데이터 세트입니다. 네, 약 196개의 쉬운 문제와 2개의 매우 어려운 문제가 포함되어 있습니다.
기다리는 동안 요청을 다시 보여주시겠습니까? 결과가 반환되었습니다. 61.6%입니다. 낮은 추론 노력 모델이지만 매우 빠릅니다. 1분 만에 전체 평가가 완료되었습니다. 모델에게 이렇게 자체 평가를 요청하는 것이 매우 멋지네요. 네, 맞습니다. 방금 한 일을 요약하자면, 모델에게 처음에 모델 자체가 만든 UI에서 스크립트를 작성하여 어려운 GPQ 세트에서 자체 평가를 수행하도록 요청했습니다. 내년에는 당신을 데려와서 모델에게 자체 개선을 요청해야 할 것입니다. 네, 다음에는 모델에게 자체 개선을 요청하도록 하겠습니다. 아마도 그렇게 하지 않을 수도 있지만요.
Codeforces와 GPQ 외에도 이 모델은 매우 훌륭한 수학 모델입니다. 이 그래프에서 AM 2024 데이터 세트에서 O3 mini 낮음은 O1 mini와 비슷한 성능을 보이고 O3 mini 중간은 O1보다 더 나은 성능을 보입니다. 채워진 막대(파란색 막대)를 확인하면 O3 mini 높음으로 성능을 더욱 향상시킬 수 있습니다. 오른쪽 그래프에서 익명화된 O 미리보기 트래픽의 지연 시간을 측정했을 때 O3 mini 낮음이 O1 mini의 지연 시간을 크게 줄였습니다. 거의 GPT 40와 비슷한 1초 미만의 지연 시간을 달성했습니다. 즉각적인 응답입니다. O3 mini 중간은 O1의 절반 정도의 지연 시간을 보입니다.
여러분께 보여드리고 싶은 또 다른 평가 세트는 API 기능입니다. 개발자 커뮤니티에서 O mini 시리즈 모델에 함수 호출, 구조화된 출력, 개발자 메시지를 지원해 달라는 요청을 많이 받았습니다. O3 mini는 O1과 마찬가지로 이러한 모든 기능을 지원합니다. 특히 대부분의 평가에서 O1보다 더 나은 성능을 보여 개발자에게 더 비용 효율적인 솔루션을 제공합니다. 훌륭합니다.
며칠 전에 실행한 실제 GPQ Diamond 성능을 보면 O3 mini 낮음은 실제로 62%입니다. 기본적으로 모델에게 자체 평가를 요청했습니다. 네, 맞습니다. 다음에는 모델에게 자동으로 평가를 수행하도록 요청해야 할 것입니다. 네, 그렇게 하면 됩니다.
결론적으로 O3 mini와 O3에 대한 안전 테스트를 위해 신청해 주시기 바랍니다. 추가 단계로 1월 말경에 O3 mini를 출시하고 그 직후에 전체 O3를 출시할 계획입니다. 하지만 안전 테스트에 참여하는 사람이 많을수록 출시 목표를 달성할 수 있습니다. 확인해 보시기 바랍니다. 함께해 주셔서 감사합니다. 저희에게는 매우 즐거운 시간이었습니다. 여러분도 즐거우셨기를 바랍니다. 메리 크리스마스! 메리 크리스마스! 메리 크리스마스! [음악]
#chats