Up North
Tillbaka till nyheter

Daglig sammanfattning: OpenAI lanserar GPT-5.3-Codex, den mest kapabla agentiska kodningsmodellen, när Codex App når 1M nedladdningar

OpenAI lanserar GPT-5.3-Codex, den mest kapabla agentiska kodningsmodellen, när Codex App når 1M nedladdningar. Perplexity uppgraderar Deep Research till Anthropics Claude Opus 4.6, påstår ledarskap i benchmarks. X rullar ut.

orchestrationsafetyagentsMCPA2A

OpenAI lanserar GPT-5.3-Codex, den mest kapabla agentiska kodningsmodellen, när Codex App når 1M nedladdningar

OpenAI släppte GPT-5.3-Codex den 5 februari, deras mest avancerade agentiska kodningsmodell hittills, byggd på GPT-5.2 med 25% snabbare inferens och toppresultat i benchmarks som 56,8% på SWE-Bench Pro och 77,3% på Terminal-Bench 2.0.[1] Den hanterar hela mjukvarulivscykeln, från autonom app- och spelbyggnad till cybersäkerhetshärdning – och får den första "High capability"-betygningen, komplett med 10 miljoner dollar i API-krediter för cyberförsvar.[1] Modellen hjälpte till och med till att skapa sig själv, enligt OpenAIs kaxiga citat.[1]

Den nya Codex App, lanserad den 2 februari, nådde över 1M nedladdningar under sin första vecka med 60% veckovis användartillväxt, nu tillgänglig i CLI, Cursor, GitHub och VS Code.[2][3] Den är tillfälligt gratis för ChatGPT Free/Go-användare, med Sam Altman som signalerar planer på att hålla den tillgänglig efter kampanjen.[3] X surrar av virala demoer av dess agentiska bedrifter, vilket eldar på entusiasmen för boostad utvecklarproduktivitet.

Perplexity uppgraderar Deep Research till Anthropics Claude Opus 4.6, påstår ledarskap i benchmarks

Anthropic avslöjade Claude Opus 4.6 den 5 februari, packad med uppgraderingar i kodning, agentisk planering och ett 1M-token kontextfönster i beta, som dominerar benchmarks som Terminal-Bench 2.0 SOTA, 90,2% på BigLaw Bench och ledande GDPval över GPT-5.2.[4] Perplexity tvekade inte, uppgraderade Deep Research för Max-användare (167 USD/mån) omedelbart och rullade ut till Pro kort därefter, skryter om SOTA på Googles DSQA och interna tester med adaptivt tänkande och fler utdatatokens.[5][6]

Perplexitys drag lovar djupare forskningskapacitet, då de påstår: "Perplexity Deep Research kör nu på Opus 4.6, vilket förbättrar våra befintliga state-of-the-art-resultat."[6] Max-användare på X hyllar redan omedelbar tillgång och förbättrade utdata, vilket väcker snack om att Perplexity drar ifrån i benchmark-krigen.

X rullar ut viral Grok-tema-animation för gillaknappen

X vände gillaknappen till en spektakel runt den 9 februari, som triggar en gigantisk Grok-logo-animation vid tryck – ett tillfälligt gimmick som fått användare att spamma gilla för att visa upp det.[7][8][9] Ekande av tidigare hits som SpaceX-raket-effekten driver det massiv engagemang på timmar, med videor som översvämmar flöden.

X-reaktioner är ren hype: folk skriker "Tryck på ❤️-knappen och se!" och tackar teamet innan det försvinner, och förvandlar vardagliga gillanden till ett viralt party.

Elon Musk varnar för 'woke-virus' i AI, prioriterar maximalt sanningssökande AI för säkerhet

Elon Musk dök upp igen i en viral klipp, slog ner på "woke-viruset" i AI som en misalignmentsrisk värre än HAL från 2001: Ett rymdäventyr, och pushar för "maximalt sanningssökande AI" som det ultimata säkerhetsdraget.[10][11] "Min högsta oro för AI-säkerhet är att vi behöver en maximalt sanningssökande AI... Det är mycket viktigt att ha sanning," sa han, och återupplivar sin TruthGPT-kampanj mot biasade modeller.

X lyser upp med delningar och debatter om sanning vs. politisk korrekthet i alignment, vilket understryker pågående spänningar i AI-etik.

Vad det här betyder för ditt företag

Agentiska modeller som GPT-5.3-Codex och Claude Opus 4.6 supercharger kodning och forskning, men rå kraft ensam räcker inte – dina arbetsflöden behöver smart orkestrering för att undvika kaos. På Up North AI förvandlar vår multi-agent-orkestrering (MCP/A2A) och agentarbetskraftdesign dessa verktyg till pålitliga team, som hanterar fulla livscykler från utveckling till cyberförsvar utan hyptrötthet.

Elons rop på sanningssökande och X:s Grok-lek belyser förtroendegap: biasad eller flashig AI urholkar resultat. Vi specialiserar oss på AI-kvalitet & förtroenderevision för att granska alignment, plus resultatdesign för att säkerställa affärs-ROI. Kod är gratis. Bedömning är det inte.

Viktig insikt: Prioritera orkestrerade agenter och rigorösa förtroenderevisioner nu för att utnyttja dessa språng utan fallgroparna – innan konkurrenterna gör det.

Källor

  1. https://openai.com/index/introducing-gpt-5-3-codex
  2. https://openai.com/index/introducing-the-codex-app
  3. https://venturebeat.com/technology/openais-new-codex-app-hits-1m-downloads-in-first-week-but-limits-may-be
  4. https://www.anthropic.com/news/claude-opus-4-6
  5. https://www.perplexity.ai/pro
  6. https://www.threads.com/@perplexity/post/DUWOU4dAT5E
  7. https://x.com/suresh_maurya_/status/2020712232712343724
  8. https://x.com/anandchokshi19/status/2020690240395256178
  9. https://x.com/RoRoFli/status/2020960792938451452
  10. https://x.com/XFreeze/status/2020738262432637398
  11. https://www.facebook.com/calfkickercom1/posts/elon-musk-discusses-the-potential-dangers-of-artificial-intelligence-development/1491016953027712

Håll dig uppdaterad om AI

Ingen spam. Avsluta prenumerationen när som helst.

Behöver du hjälp att förstå AI?

Att läsa nyheter är en sak. Att veta vad man ska göra åt det är en annan. Vi hjälper företag att omvandla AI-trender till handling.