[음악] 좋은 아침입니다. 오늘 여러분께 흥미로운 소식을 전해드립니다. 12일 전, 저희의 첫 번째 추론 모델인 O1을 출시하며 12일간의 이벤트를 시작했습니다. 사람들이 O1을 활용하는 모습과 얼마나 만족하는지 듣는 것은 정말 놀랍고 기쁜 일이었습니다. 저희는 이것을 점점 더 복잡한 추론 작업을 수행하기 위해 이러한 모델을 사용할 수 있는 AI의 다음 단계의 시작으로 보고 있습니다. 그래서 이 이벤트의 마지막 날, 하나의 Frontier Model에서 다음 Frontier Model로 넘어가는 것이 재미있을 것이라고 생각했습니다.
오늘 저희는 다음 Frontier Model에 대해 이야기할 것입니다. 논리적으로 O2라고 불러야 한다고 생각할 수도 있지만, Telica의 친구들을 존중하고 OpenAI의 정말 형편없는 작명 전통에 따라 O3라고 부르겠습니다. 사실 오늘 두 가지 모델, O3와 O3 mini를 발표할 예정입니다. O3는 매우 똑똑한 모델이고, O3 mini는 놀라울 정도로 똑똑하지만 성능과 비용 면에서 정말 훌륭합니다.
먼저 안 좋은 소식부터 전하자면, 오늘 이 모델들을 공개 출시하지는 않습니다. 좋은 소식은 오늘부터 공공 안전 테스트를 위해 이 모델들을 제공할 예정이라는 것입니다. 신청서를 제출할 수 있으며, 나중에 자세히 설명드리겠습니다. 저희는 모델이 점점 더 강력해짐에 따라 안전 테스트를 중요하게 생각해 왔으며, 이 새로운 수준의 기능에서는 테스트 절차에 새로운 부분을 추가하고 싶습니다. 바로 테스트에 도움을 주고 싶은 연구자들에게 공개 접근을 허용하는 것입니다.
이 모델들을 언제 일반적으로 사용할 수 있게 될지에 대해서는 마지막에 자세히 설명드리겠지만, 이 모델들이 무엇을 할 수 있는지 보여드리고 성능에 대해 이야기하게 되어 매우 기쁩니다. 약간의 놀라움도 준비되어 있습니다. 데모도 보여드리겠습니다. 더 이상 고민하지 않고 Mark에게 넘기겠습니다.
멋지네요. Sam, 정말 고맙습니다. 제 이름은 Mark이고, OpenAI에서 연구를 이끌고 있습니다. O3의 기능에 대해 간략히 이야기하고 싶습니다. O3는 매우 어려운 기술적 벤치마크에서 정말 강력한 모델입니다. 코딩 벤치마크부터 시작하고 싶습니다. 화면에 띄워주시겠습니까?
소프트웨어 스타일 벤치마크에서 저희는 실제 소프트웨어 작업으로 구성된 벤치마크인 Sweet Bench Verified를 사용했습니다. O3는 약 71.7%의 정확도를 보였는데, 이는 O1 모델보다 20% 이상 향상된 수치입니다. 이는 저희가 실용성의 경계를 넘어서고 있다는 것을 의미합니다. 경쟁 코딩에서도 Codeforces라는 경쟁 코딩 사이트에서 O1은 약 1891의 ELO를 달성했습니다. 가장 공격적인 고테스트 시간 계산 설정에서 거의 2727 ELO를 달성할 수 있었습니다.
Mark는 경쟁 프로그래머였고, 실제로 여전히 경쟁 프로그래밍을 지도하고 있습니다. 매우 훌륭합니다. 당신의 최고 점수는 얼마였나요? 비슷한 사이트에서 제 최고 점수는 약 2500점이었습니다. 쉽지 않네요. 저희 수석 과학자의 점수보다도 높다는 것을 말씀드리고 싶습니다. 이것은 우리 수석 과학자인 Yakov의 점수보다도 높습니다. OpenAI에는 여전히 3000점대인 사람이 한 명 있습니다. 몇 달 더 즐길 수 있기를 바랍니다. 네, 몇 달 더 즐길 수 있기를 바랍니다.
훌륭합니다. 이 모델은 프로그래밍에 놀랍습니다. 네, 프로그래밍뿐만 아니라 수학에도 뛰어납니다. 경쟁 수학 벤치마크에서 경쟁 프로그래밍처럼 매우 높은 점수를 얻었습니다. O3는 Amy에서 O1의 83.3%에 비해 약 96.7%의 정확도를 달성했습니다. 당신의 최고 Amy 점수는 얼마였나요? 저는 한 번 만점을 받았습니다. 그래서 안전합니다. 이것은 O3가 미국 수학 올림피아드의 예선 시험인 이 매우 어려운 시험에서 종종 한 문제만 틀린다는 것을 의미합니다.
GPQ Diamond라는 또 다른 매우 어려운 벤치마크가 있습니다. 이것은 박사 수준의 과학 질문에 대한 모델의 성능을 측정합니다. 여기서 저희는 78%였던 O1 성능보다 약 10% 향상된 최첨단 수치인 87.7%를 얻었습니다. 참고로 전문 박사는 일반적으로 자신의 전문 분야에서 약 70%를 얻습니다.
이러한 벤치마크 중 일부에서 알 수 있듯이 저희는 많은 벤치마크에서 포화 상태에 도달했거나 포화 상태에 가까워지고 있습니다. 지난 한 해는 Frontier Model의 위치를 정확하게 평가하기 위해 더 어려운 벤치마크의 필요성을 분명히 보여주었습니다. 지난 몇 달 동안 몇 가지 벤치마크가 상당히 유망한 것으로 나타났습니다. 특히 Epic AI의 Frontier Math 벤치마크를 언급하고 싶습니다.
점수가 이전 벤치마크보다 훨씬 낮아 보이는데, 이는 현재 가장 어려운 수학 벤치마크로 간주되기 때문입니다. 이 데이터 세트는 새롭고 발표되지 않은 매우 어려운 문제들로 구성되어 있습니다. 네, 매우 어려운 문제입니다. 전문 수학자도 이러한 문제 중 하나를 푸는 데 몇 시간 또는 며칠이 걸릴 수 있습니다. 현재 모든 모델은 이 벤치마크에서 2% 미만의 정확도를 보이고 있습니다. 공격적인 테스트 시간 설정에서 O3는 25%를 넘었습니다. 네, 훌륭합니다.
Epic AI의 Frontier Math 벤치마크 외에도 또 다른 놀라움이 있습니다. 이 시점에서 Arc 벤치마크에 대해 이야기하고 싶지만, Arc 재단 회장인 Greg을 초대하고 싶습니다. 이 벤치마크에 대해 이야기해 주시겠습니까?
Sam과 Mark, 오늘 저희를 초대해 주셔서 정말 감사합니다. 물론입니다. 안녕하세요, 여러분. 저는 Greg Camad이고, Arc Prize 재단의 회장입니다. Arc Prize는 AGI를 향한 북극성이 되는 것을 사명으로 하는 비영리 단체입니다. 저희의 첫 번째 벤치마크인 Arc AGI는 2019년 Francois Chollet이 그의 논문 “지능의 척도에 대하여”에서 개발했습니다. 그러나 5년 동안 AI 세계에서 깨지지 않았습니다. 마치 몇 세기 전 같습니다. Arc AGI를 깨는 시스템은 일반 인공지능을 향한 중요한 이정표가 될 것입니다. 하지만 오늘 새로운 최첨단 점수를 발표하게 되어 기쁩니다.
그 전에 Arc AGI가 무엇인지 설명하고 싶습니다. 여기에 예시를 보여드리겠습니다. Arc AGI는 입력 예시와 출력 예시에 관한 것입니다. 좋습니다. 입력 예시와 출력 예시입니다. 목표는 변환 규칙을 이해하고 출력을 추측하는 것입니다. Sam, 여기서 무슨 일이 일어나고 있다고 생각하십니까? 아마 빈 공간에 진한 파란색 사각형을 넣는 것 같습니다. 네, 맞습니다. 바로 그것입니다. 사람에게는 직관적으로 추측하기 쉽지만, AI가 무슨 일이 일어나고 있는지 이해하는 것은 놀라울 정도로 어렵습니다.
더 어려운 예시를 하나 더 보여드리겠습니다. Mark, 당신을 시험해 보겠습니다. 이 작업에서 무슨 일이 일어나고 있다고 생각하십니까? 각 노란색 사각형을 가져와서 색칠된 사각형의 수를 세고 그 수만큼 테두리를 만듭니다. 바로 그것입니다. 대부분의 사람들보다 훨씬 빠릅니다. 축하합니다. 흥미로운 점은 AI가 지금까지 이 문제를 풀지 못했다는 것입니다. 인간 패널이 실제로 풀 수 있다는 것을 확인했음에도 불구하고 말입니다.
Arc AGI의 특별한 점은 모든 작업에 고유한 기술이 필요하다는 것입니다. 즉, 파란색 사각형으로 모서리를 채워야 하는 작업은 다시 나오지 않습니다. 저희는 의도적으로 그렇게 합니다. 그 이유는 모델이 즉석에서 새로운 기술을 배우는 능력을 테스트하고 싶기 때문입니다. 이미 기억한 것을 반복하기만 하는 것을 원하지 않습니다. 그것이 핵심입니다.
Arc AGI 버전 1은 주요 Frontier Model을 사용하여 0%에서 5%까지 도달하는 데 5년이 걸렸습니다. 하지만 오늘 O3가 새로운 최첨단 점수를 기록했다는 것을 발표하게 되어 매우 기쁩니다. 저희는 O3의 낮은 계산량에서 75.7점을 기록한 것을 확인했습니다. 이는 저희 공개 리더보드의 계산 요구 사항 내에 있기 때문에 매우 인상적입니다. 그리고 이것은 rkg Pub의 새로운 1위 기록입니다. 축하합니다. 정말 감사합니다.
기능 데모로 O3에게 더 오래 생각하도록 요청하고 실제로 높은 계산량으로 증가시켰을 때, O3는 동일한 숨겨진 홀드아웃 세트에서 85.7%를 기록할 수 있었습니다. 죄송합니다. 87.5%입니다. 이는 특히 중요합니다. 인간의 성능은 85% 임계값과 비슷하기 때문입니다. 이보다 높은 점수는 중요한 이정표이며, 이전에 이렇게 한 시스템이나 모델을 테스트한 적이 없습니다. 따라서 이것은 rcgi 세계에서 새로운 영역입니다. 축하합니다. 훌륭한 벤치마크를 만들어 주셔서 감사합니다.
이 점수들을 보면서 저는 AI가 실제로 무엇을 할 수 있는지, 특히 이 O3 세계에서 무엇을 할 수 있는지에 대한 저의 AI 직관을 바꿔야 한다는 것을 깨달았습니다. 하지만 작업은 아직 끝나지 않았고, 이것은 여전히 AI의 초기 단계입니다. 따라서 진행 상황을 측정하고 안내하는 데 도움이 되는 Arc AGI와 같은 더 지속적인 벤치마크가 필요합니다. 저는 그 진행을 가속화하게 되어 기쁘고, 내년에 OpenAI와 협력하여 다음 Frontier 벤치마크를 개발하게 되어 기쁩니다. 놀랍습니다.
저희가 목표로 삼고 훌륭하다고 생각하는 벤치마크이기도 합니다. 특별히 그렇게 하려고 한 것은 아니지만, 일반적으로 그렇게 생각합니다. 파트너십에 정말 감사드립니다. 함께하게 되어 즐거웠습니다. 물론입니다. 이렇게 잘했지만, AR priz는 2025년에도 계속될 것이며, 누구든지 ARC pri.org에서 자세한 내용을 확인할 수 있습니다. 감사합니다.
다음으로 O3 mini에 대해 이야기하겠습니다. O3 mini는 저희가 정말 기대하고 있는 모델입니다. 모델을 훈련시킨 Hongu가 나와서 함께해 줄 것입니다. 안녕하세요. 안녕하세요, 여러분. 저는 Hongu입니다. 저는 추론 분야를 연구하는 OpenAI 연구원입니다. 지난 9월에 저희는 O1 제품군의 효율적인 추론 모델인 O1 mini를 출시했습니다. 이 모델은 낮은 비용으로 수학과 코딩에 매우 능숙하며 아마도 세계 최고 수준일 것입니다.
이제 O3와 함께 새로운 비용 효율적인 추론의 경계를 정의하는 O3 제품군의 새로운 모델인 O3 mini에 대해 자세히 설명하게 되어 매우 기쁩니다. 놀랍습니다. 네, 오늘 사용자에게 제공되지는 않지만, 저희는 안전 및 보안 연구원들이 모델을 테스트할 수 있도록 모델에 대한 접근 권한을 열어두고 있습니다.
며칠 전 API에 적응형 사고 시간이 출시되면서 O3 mini는 낮음, 중간, 높음의 세 가지 추론 노력 옵션을 지원합니다. 따라서 사용자는 다양한 사용 사례에 따라 사고 시간을 자유롭게 조정할 수 있습니다. 예를 들어 더 복잡한 문제의 경우 모델이 더 오래 생각하고 더 간단한 문제의 경우 더 짧게 생각하도록 할 수 있습니다.
이제 O3 mini의 첫 번째 평가 세트를 보여드리겠습니다. 왼쪽에는 코딩 평가를 보여줍니다. 프로그래머의 실력을 측정하는 Codeforces ELO입니다. 높을수록 좋습니다. 그래프에서 볼 수 있듯이 사고 시간이 길어질수록 O3 mini의 ELO가 높아지고 O1 mini보다 성능이 향상됩니다. 중간 사고 시간에서는 O1보다 훨씬 더 나은 성능을 보입니다. 네, 속도와 비용이 10배 이상 향상되었지만 동일한 코드 성능을 제공할 수 있습니다. 심지어 더 나은 경우도 있습니다.
매우 높음 설정이 여전히 Mark보다 수백 점 낮지만, O1에 비해 비용 대비 성능 향상이 놀랍습니다. 사람들이 정말 좋아할 것이라고 생각합니다. 네, 그러기를 바랍니다. 오른쪽 그래프에는 예상 비용 대비 Codeforces ELO의 상관관계를 보여줍니다. O3 mini가 코딩에서 새로운 비용 효율적인 추론의 경계를 정의한다는 것이 분명합니다. O1보다 훨씬 적은 비용으로 더 나은 성능을 달성합니다. 놀랍습니다.
이제 O3 mini에 대한 라이브 데모를 보여드리겠습니다. 세 가지 사고 시간 옵션(낮음, 중간, 높음)을 모두 테스트해 볼 수 있기를 바랍니다. 문제를 입력하겠습니다. 먼저 O3 mini 높음을 테스트하고 있습니다. 작업은 모델에게 Python을 사용하여 코드 생성기와 실행기를 구현하도록 요청하는 것입니다. 이 Python 스크립트를 실행하면 텍스트 상자가 있는 UI가 있는 서버가 로컬에서 실행됩니다.
텍스트 상자에 코딩 요청을 할 수 있습니다. 요청이 O3 mini API로 전송되고 O3 mini API가 작업을 해결하여 코드를 반환합니다. 그런 다음 코드가 내 데스크톱에 로컬로 저장되고 터미널이 열려 코드가 자동으로 실행됩니다. 매우 복잡한 작업입니다. 네, 매우 복잡합니다. 큰 삼각형 코드를 출력합니다. 코드를 복사하여 서버에 붙여넣고 서버를 실행하면 텍스트 상자가 표시되어야 합니다. 네, 실행 중입니다. 네, 뭔가 실행 중이기를 바랍니다.
좋습니다. 코딩 프롬프트를 입력할 수 있는 UI가 있습니다. “print openai”와 난수를 출력하는 간단한 프롬프트를 시도해 보겠습니다. 요청이 O3 mini 중간으로 전송되고 있으므로 매우 빨라야 합니다. 네, 이 터미널에서 41이라는 숫자가 출력되었습니다. 마법의 숫자입니다. 생성된 코드가 데스크톱의 로컬 스크립트에 저장되고 “openai 41″이 출력되었습니다. 다른 테스트해 보고 싶은 작업이 있습니까? 자체 GPQA 점수를 얻도록 할 수 있는지 궁금합니다. 좋은 질문입니다. 제가 예상했던 바로 그 질문입니다. 어제 많이 연습했습니다.
이제 코드를 복사하여 코드 UI에 보내겠습니다. 이 작업에서는 모델에게 낮은 추론 노력으로 어려운 GPQ 데이터 세트에서 O3 mini를 평가하도록 요청합니다. 모델은 먼저 이 URL에서 원시 파일을 다운로드한 다음 어떤 부분이 질문이고 어떤 부분이 답변인지, 어떤 부분이 선택지인지 파악해야 합니다. 그런 다음 모든 질문을 공식화하고 모델에게 답변하도록 요청한 다음 결과를 분석하고 점수를 매겨야 합니다. 매우 빠릅니다. 네, 낮은 추론 노력으로 O3 mini를 호출하기 때문에 정말 빠릅니다. 어떻게 될지 지켜보겠습니다. 두 가지 작업이 정말 어렵습니다. 네, 어려운 문제를 푸는 데 시간이 오래 걸립니다. GPQ는 어려운 데이터 세트입니다. 네, 약 196개의 쉬운 문제와 2개의 매우 어려운 문제가 포함되어 있습니다.
기다리는 동안 요청을 다시 보여주시겠습니까? 결과가 반환되었습니다. 61.6%입니다. 낮은 추론 노력 모델이지만 매우 빠릅니다. 1분 만에 전체 평가가 완료되었습니다. 모델에게 이렇게 자체 평가를 요청하는 것이 매우 멋지네요. 네, 맞습니다. 방금 한 일을 요약하자면, 모델에게 처음에 모델 자체가 만든 UI에서 스크립트를 작성하여 어려운 GPQ 세트에서 자체 평가를 수행하도록 요청했습니다. 내년에는 당신을 데려와서 모델에게 자체 개선을 요청해야 할 것입니다. 네, 다음에는 모델에게 자체 개선을 요청하도록 하겠습니다. 아마도 그렇게 하지 않을 수도 있지만요.
Codeforces와 GPQ 외에도 이 모델은 매우 훌륭한 수학 모델입니다. 이 그래프에서 AM 2024 데이터 세트에서 O3 mini 낮음은 O1 mini와 비슷한 성능을 보이고 O3 mini 중간은 O1보다 더 나은 성능을 보입니다. 채워진 막대(파란색 막대)를 확인하면 O3 mini 높음으로 성능을 더욱 향상시킬 수 있습니다. 오른쪽 그래프에서 익명화된 O 미리보기 트래픽의 지연 시간을 측정했을 때 O3 mini 낮음이 O1 mini의 지연 시간을 크게 줄였습니다. 거의 GPT 40와 비슷한 1초 미만의 지연 시간을 달성했습니다. 즉각적인 응답입니다. O3 mini 중간은 O1의 절반 정도의 지연 시간을 보입니다.
여러분께 보여드리고 싶은 또 다른 평가 세트는 API 기능입니다. 개발자 커뮤니티에서 O mini 시리즈 모델에 함수 호출, 구조화된 출력, 개발자 메시지를 지원해 달라는 요청을 많이 받았습니다. O3 mini는 O1과 마찬가지로 이러한 모든 기능을 지원합니다. 특히 대부분의 평가에서 O1보다 더 나은 성능을 보여 개발자에게 더 비용 효율적인 솔루션을 제공합니다. 훌륭합니다.
며칠 전에 실행한 실제 GPQ Diamond 성능을 보면 O3 mini 낮음은 실제로 62%입니다. 기본적으로 모델에게 자체 평가를 요청했습니다. 네, 맞습니다. 다음에는 모델에게 자동으로 평가를 수행하도록 요청해야 할 것입니다. 네, 그렇게 하면 됩니다.
결론적으로 O3 mini와 O3에 대한 안전 테스트를 위해 신청해 주시기 바랍니다. 추가 단계로 1월 말경에 O3 mini를 출시하고 그 직후에 전체 O3를 출시할 계획입니다. 하지만 안전 테스트에 참여하는 사람이 많을수록 출시 목표를 달성할 수 있습니다. 확인해 보시기 바랍니다. 함께해 주셔서 감사합니다. 저희에게는 매우 즐거운 시간이었습니다. 여러분도 즐거우셨기를 바랍니다. 메리 크리스마스! 메리 크리스마스! 메리 크리스마스! [음악]