Tilbage til nyhederUdgivet 2026-02-10

Daglig Opsummering: OpenAI lancerer GPT-5.3-Codex, den mest kapable agentiske kodningsmodel, mens Codex App når 1M downloads

OpenAI lancerer GPT-5.3-Codex, den mest kapable agentiske kodningsmodel, mens Codex App når 1M downloads. Perplexity opgraderer Deep Research til Anthropics Claude Opus 4.6, hævder lederskab i benchmarks. X ruller ud.

orchestration safety agents MCP A2A

OpenAI lancerer GPT-5.3-Codex, den mest kapable agentiske kodningsmodel, mens Codex App når 1M downloads

OpenAI udgav GPT-5.3-Codex den 5. februar, deres mest avancerede agentiske kodningsmodel hidtil, bygget på GPT-5.2 med 25% hurtigere inference og topbenchmarks som 56.8% på SWE-Bench Pro og 77.3% på Terminal-Bench 2.0.[1] Den håndterer hele softwareudviklingscyklussen, fra autonom app- og spiludvikling til styrkelse af cybersikkerhed—og tjener den første "High capability"-vurdering, komplet med $10M i API-kreditter til cyberforsvar.[1] Modellen hjalp endda med at skabe sig selv, ifølge OpenAIs frække citat.[1]

Den nye Codex App, lanceret 2. februar, nåede over 1M downloads i sin første uge med 60% ugentlig vækst i brugere, nu tilgængelig i CLI, Cursor, GitHub og VS Code.[2][3] Den er midlertidigt gratis for ChatGPT Free/Go-brugere, med Sam Altman der signalerer planer om at holde den tilgængelig efter promo-perioden.[3] X summer af virale demos af dens agentiske bedrifter, hvilket pumper spændingen for boost i udviklerproduktivitet.

Perplexity opgraderer Deep Research til Anthropics Claude Opus 4.6, hævder lederskab i benchmarks

Anthropic afslørede Claude Opus 4.6 den 5. februar, pakket med opgraderinger i kodning, agentisk planlægning og et 1M-token kontekstvindue i beta, der dominerer benchmarks som Terminal-Bench 2.0 SOTA, 90.2% på BigLaw Bench og lederskab i GDPval over GPT-5.2.[4] Perplexity spildte ingen tid og opgraderede Deep Research for Max-brugere ($167/mo) med det samme, rullede ud til Pro kort efter, og praler med SOTA på Googles DSQA og interne tests med adaptiv tænkning og højere output-tokens.[5][6]

Perplexitys træk lover dybere forskningskapaciteter, da de hævder: "Perplexity Deep Research kører nu på Opus 4.6, hvilket forbedrer vores eksisterende state-of-the-art resultater."[6] Max-brugere på X er allerede begejstrede over øjeblikkelig adgang og forbedrede outputs, hvilket udløser snak om, at Perplexity trækker forbi i benchmark-krigene.

X ruller viral Grok-tematiseret animation ud til like-knappen

X forvandlede like-knappen til et spektakel omkring 9. februar og udløser en kæmpe Grok-logo-animation ved tryk—en midlertidig gimmick, der har brugere spammende likes for at vise den frem.[7][8][9] Det minder om tidligere hits som SpaceX-raket-effekten og driver massiv engagement på timer, med videoer der oversvømmer feeds.

X-reaktioner er ren hype: folk råber "Tryk på ❤️-knappen og se!" og takker holdet, før det forsvinder, og forvandler hverdagslikes til en viral fest.

Elon Musk advarer om 'woke virus' i AI, prioriterer maksimalt sandhedssøgende AI for sikkerhed

Elon Musk dukkede op igen i en viral klip, hvor han slog ned på "woke virus" i AI som en misalignment-risiko værre end HAL fra 2001: A Space Odyssey og presser på for "maksimalt sandhedssøgende AI" som det ultimative sikkerhedstræk.[10][11] "Min største bekymring for AI-sikkerhed er, at vi har brug for en maksimalt sandhedssøgende AI... Det er meget vigtigt at have sandhed," sagde han og genopliver sin TruthGPT-kampagne mod biasede modeller.

X brænder op med delinger og debatter om sandhed vs. politisk korrekthed i alignment, hvilket understreger pågående spændinger i AI-etik.

Hvad det betyder for din virksomhed

Agentiske modeller som GPT-5.3-Codex og Claude Opus 4.6 supercharger kodning og forskning, men rå kraft alene leverer ikke—dine workflows har brug for smart orkestrering for at undgå kaos. Hos Up North AI forvandler vores multi-agent orkestrering (MCP/A2A) og agent-arbejdsstyrke-design disse værktøjer til pålidelige teams, der håndterer fulde livscyklusser fra udvikling til cyberforsvar uden hype-udmattelse.

Elons opfordring til sandhedssøgning og X's Grok-moro fremhæver tillidsgab: biased eller flashy AI underminerer resultater. Vi specialiserer os i AI-kvalitet & tillidsgennemgang for at auditerer for alignment, plus outcome engineering for at sikre forretnings-ROI. Kode er gratis. Dom er det ikke.

Nøgleindsigt: Prioritér orkestrerede agenter og streng tillidsgennemgang nu for at udnytte disse sprang uden faldgruberne—før konkurrenterne gør.

Kilder

https://openai.com/index/introducing-gpt-5-3-codex
https://openai.com/index/introducing-the-codex-app
https://venturebeat.com/technology/openais-new-codex-app-hits-1m-downloads-in-first-week-but-limits-may-be
https://www.anthropic.com/news/claude-opus-4-6
https://www.perplexity.ai/pro
https://www.threads.com/@perplexity/post/DUWOU4dAT5E
https://x.com/suresh_maurya_/status/2020712232712343724
https://x.com/anandchokshi19/status/2020690240395256178
https://x.com/RoRoFli/status/2020960792938451452
https://x.com/XFreeze/status/2020738262432637398
https://www.facebook.com/calfkickercom1/posts/elon-musk-discusses-the-potential-dangers-of-artificial-intelligence-development/1491016953027712

Forrige dag Næste dag

Seneste artikler

2026-07-06

Vil du gå dybere?

At læse nyheder er én ting. At udforske fronten er noget andet. Se hvad vi bygger.

Se vores projekter