BALMIX - Deepseek - A csendes óriás vezeti Kína mesterséges intelligencia versenyét

A Deepseek egy kínai AI – Mesterséges Intelligencia - startup, amelynek legújabb R1 modellje több érvelési benchmarkon is legyőzte az OpenAI o1 modelljét. Alacsony ismertsége ellenére a Deepseek egy kínai AI-laboratórium, amelyre érdemes odafigyelni.

A Deepseek előtt Liang Wenfeng vezérigazgató fő vállalkozása a High-Flyer (幻方) volt, egy top 4-es kínai kvantitatív fedezeti alap, amelyet legutóbb 8 milliárd dollárra értékeltek. A Deepseek teljes mértékben a High-Flyer által finanszírozott, és nem tervez tőkebevonást. Inkább az alaptechnológia, mint a kereskedelmi alkalmazások kiépítésére összpontosít, és elkötelezte magát amellett, hogy minden modelljét nyílt forráskódúvá teszi. Azzal, hogy nagyon kedvező API-díjakat számít fel, egyszemélyes árháborút indított el Kínában. Ennek ellenére a Deepseek megengedheti magának, hogy a skálázási játékban maradjon: a High-Flyer számítási klasztereihez való hozzáféréssel Dylan Patel legjobb becslése szerint több mint „50 000 Hopper GPU-val” rendelkeznek, ami nagyságrendekkel nagyobb számítási teljesítmény, mint a 10 000 A100-as, amit nyilvánosan lemásolnak.

A Deepseek stratégiája az AGI megalkotására irányuló törekvésükön alapul. (A mesterséges általános intelligencia (AGI), egy hipotetikus számítógépes program intelligenciája, amely képes megérteni vagy megtanulni bármilyen szellemi feladatot, amelyet egy ember el tud végezni. Egy alternatív definíció szerint az AGI egy magasan autonóm mesterséges intelligencia rendszer, amely a legtöbb gazdaságilag jelentős szellemi feladat megoldásában meghaladja az emberi képességeket.) A Deepseek küldetésnyilatkozatában a téma korábbi leírásaival ellentétben nem említi a biztonságot, a versenyt vagy az emberiség tétjét, hanem csak „az AGI rejtélyének kíváncsisággal való megfejtését”. Ennek megfelelően a laboratórium a potenciálisan játékokat megváltoztató építészeti és algoritmikus innovációk kutatására összpontosít.

A Deepseek egy sor lenyűgöző technikai áttörést ért el. Az R1-Lite-Preview előtt már hosszabb győzelmek voltak tapasztalhatók: az olyan architekturális fejlesztések, mint a többfejű látens figyelem (MLA) és a ritka szakértői keverék (DeepseekMoE) olyan mértékben csökkentették a költségeket, hogy az árháborút váltott ki a kínai fejlesztők között. Eközben a Deepseek ezen architektúrákon képzett kódolási modellje felülmúlta a nyílt súlyú riválisokat, például a júliusi GPT4-Turbót.

Első lépésként, hogy megértsük, mi van a Deepseek-nél a vízben, lefordítottunk egy ritka, mélyreható interjút LiangWenfeng vezérigazgatóval, amely eredetileg tavaly júliusban jelent meg a 36Kr almárkáján. Tartalmaz néhány mély betekintést a következőkbe:

Hogyan áramlanak a DeepSeek AGI ambíciói a kutatási stratégiájukon keresztül.
Miért tekinti a nyílt forráskódot domináns stratégiának, és miért robbantott ki árháborút.
Hogyan veszi fel és szervezi meg a kutatókat, hogy a fiatal hazai tehetségeket sokkal jobban kihasználja, mint más laborok, amelyek a visszatérőkre pazaroltak.
Miért elégednek meg a kínai cégek a másolással és a kereskedelmi forgalomba hozással a „hardcore innováció” helyett, és hogyan reméli Liang, hogy a Deepseek több „hardcore innovációt” fog elindítani a kínai gazdaságban.

A DeepSeek feltárása: A kínai technológiai idealizmus végső története

Wechat, Archívum link. Szöveg | Lily Yu于丽丽. Szerkesztő | LiuJing刘旌.

A hét kínai nagymodelles startup közül a DeepSeek volt a legdiszkrétebb - mégis mindig sikerül váratlan módon emlékezetesnek lennie.

Egy évvel ezelőtt ez a váratlanság abból adódott, hogy a High-Flyer幻方, egy kvantitatív fedezeti alap erőműve támogatta, így ez volt az egyetlen nem nagy technológiai óriás, amely 10 000 A100-as zsetonból álló tartalékkal rendelkezett. Egy évvel később a kínai AI-modell árháború katalizátoraként vált ismertté. Egy évvel később a kínai mesterséges intelligenciamodell-árháború katalizátoraként vált ismertté.

Májusban, a folyamatos AI-fejlesztések közepette a DeepSeek hirtelen a figyelem középpontjába került. Ennek oka az volt, hogy kiadták a DeepSeek V2 nevű nyílt forráskódú modellt, amely példátlan ár/teljesítmény arányt kínált: a következtetési költségeket mindössze 1 RMB per millió tokenre csökkentették, ami körülbelül a Llama3 70B költségének egyhetede, és a GPT-4 Turbo költségének egyhetvenede.

A DeepSeek-et hamarosan az „AI Pinduoduójának” nevezték el, és más nagy technológiai óriások, mint a ByteDance, a Tencent, a Baidu és az Alibaba sem tudták visszafogni magukat, egymás után csökkentették az áraikat. Kínában a nagy modellek árháborúja küszöbön állt.

Ez a diffúz háborús füst valójában egy tényt takart el: sok nagy céggel ellentétben, amelyek támogatásokra égetik a pénzt, a DeepSeek nyereséges.

Ez a siker a DeepSeek modellarchitektúra átfogó innovációjának köszönhető. Új MLA (multi-headlatentattention, A Modern Language Association (MLA) az USA legfontosabb szakmai szervezete nyelvészek, irodalomtudósok és irodalomkritikusok számára. Körülbelül 25 000 tagja van, akik főként professzorok, doktoranduszok és más akadémikusok, és akik tudományosan az angol és idegen nyelvű irodalommal foglalkoznak. Több mint 2000 tagjuk él Észak-Amerikán kívül - architektúrát javasolt, amely a memóriahasználatot az általánosan használt MHA (Master of Health Management and Administration) architektúrához képest 5-13%-ra csökkenti. Emellett az eredeti DeepSeekMoESparse struktúrájuk minimalizálta a számítási költségeket, ami végső soron az összköltségek csökkenéséhez vezetett.

A Szilícium-völgyben a DeepSeek-et „a keletről érkező titokzatos erő”-ként ismerik 来自东方的神秘力量. A SemiAnalysis vezető elemzője úgy véli, hogy a DeepSeek V2 papírja „talán az év legjobbja”. Andrew Carr, az OpenAI egykori alkalmazottja szerint a tanulmány „tele van elképesztő bölcsességgel” 充满惊人智慧, és saját modelljeihez alkalmazta a tréningfelállítást. Jack Clark, az OpenAI korábbi politikai vezetője és az Anthropic társalapítója pedig úgy véli, hogy a DeepSeek „kifürkészhetetlen zsenik egy csoportját vette fel” 雇佣了一批高深莫测的奇, hozzátéve, hogy a Kínában gyártott nagy modellek „ugyanolyan erő lesz, mint a drónok és az elektromos autók” 将和无人机、电动汽车一样成为不容忽视的力量.

Az AI-hullámban - ahol a történetet nagyrészt a Szilícium-völgy mozgatja - ez ritka esemény. Több iparági bennfentes elmondta nekünk, hogy ez az erős reakció az építészeti szintű innovációból ered, a hazai nagy modellcégek és még a globális nyílt forráskódú nagyméretű modellek ritka próbálkozása. Egy AI-kutató szerint az Attention architektúrát a javaslattétel óta eltelt években alig-alig sikerült módosítani, nemhogy nagy léptékben érvényesíteni. „Ez egy olyan ötlet, amelyet már a döntéshozatali szakaszban leállítanának, mert a legtöbb embernek hiányzik hozzá a bizalma” 这甚至是一个做决策时就会被掐断的念头，因为大部分人都缺乏信心.

Másrészt a nagy hazai modellek korábban ritkán próbálkoztak az építészeti szintű innovációval, részben az uralkodó meggyőződés miatt, hogy az amerikaiak a 0:1 műszaki innovációban jeleskednek, míg a kínaiak az 1:10 alkalmazási innovációban. Ráadásul ez a fajta viselkedés nagyon veszteséges - elvégre néhány hónap múlva elkerülhetetlenül megjelenik egy új modellgeneráció, így a kínai vállalatoknak csak követniük kell, és a downstream alkalmazásokra kell összpontosítaniuk. A modellarchitektúra innovációja azt jelenti, hogy nincs követendő út, ami többszörös kudarcot és jelentős idő- és gazdasági költségeket jelent.

A DeepSeek egyértelműen az árral szemben halad. Az olyan hangoskodások közepette, hogy a nagymodellek technológiája szükségszerűen konvergál, és a követés okosabb, a DeepSeek értékeli a „kitérőkön” 弯路 keresztül felhalmozott tanulást, és úgy véli, hogy a kínai nagymodellek vállalkozói az alkalmazás-innováción túl a globális technológiai innovációs áramlathoz is csatlakozhatnak.

A DeepSeek számos választása eltér a megszokottól. Mostanáig a hét nagy kínai nagymodelles startup közül ez az egyetlen, amely feladta a „mindent akarok” 既要又要 megközelítést, és eddig csak a kutatásra és a technológiára összpontosított, a toC alkalmazások nélkül. Emellett ez az egyetlen, amelyik nem gondolt teljes mértékben a kereskedelmi hasznosításra, és határozottan a nyílt forráskódú utat választotta, tőkebevonás nélkül. Miközben ezek a döntések gyakran hagyják a feledés homályában, a DeepSeek gyakran nyer szerves felhasználói népszerűsítést a közösségen belül.

Hogyan érte el mindezt a DeepSeek? Interjút készítettünk a DeepSeek ritkán látott alapítójával, LiangWenfeng梁文锋-vel, hogy megtudjuk.

A 80-as évek utáni alapító, aki a High-Flyer-korszak óta a színfalak mögött dolgozik a technológián, a DeepSeek-korszakban is folytatja visszafogott stílusát - „tanulmányokat olvas, kódokat ír, és részt vesz a csoportos megbeszéléseken” 看论文，写代码，参与小组讨论 minden nap, mint minden más kutató.

És ellentétben sok kvantumalap-alapítóval - akiknek tengerentúli hedge-fund tapasztalata és fizika vagy matematika diplomájuk van - LiangWenfengmindig is megőrizte helyi hátterét: korai éveiben mesterséges intelligenciát tanult a Zhejiang Egyetem villamosmérnöki tanszékén.

Több iparági bennfentes és a DeepSeek kutatói elmondták, hogy LiangWenfeng nagyon ritka személy a kínai AI-iparban - valaki, aki „mind az erős infra mérnöki és modellezési képességekkel, mind az erőforrások mozgósításának képességével” rendelkezik, „pontos, magas szintű ítéleteket tud hozni, miközben a részletekben is erősebb, mint az első vonalbeli kutatók”. „Félelmetes tanulási képességgel” rendelkezik, ugyanakkor »egyáltalán nem olyan, mint egy főnök, sokkal inkább olyan, mint egy kocka«.

Ez egy különösen ritka interjú. Itt ez a technológiai idealista olyan hangot használ, amely különösen ritka a kínai technológiai világban: Ő azon kevesek egyike, aki a „jót és rosszat” a „nyereség és veszteség” elé helyezi把 „是非观 »置于 «利害观 ”之前, aki emlékeztet bennünket, hogy lássuk az idők tehetetlenségét, és aki az „eredeti innovációt ” 原创式创新helyezia napirend élére.

Egy évvel ezelőtt, amikor a DeepSeek először jelent meg a piacon, interjút készítettünk LiangWenfenggel: „Őrült magasröptű:A Stealth AI Giant'sRoadtoLargeModels” 疯狂的幻方：一家隐形AI巨头的大模型之路. Ha a „légy őrülten ambiciózus és őrülten őszinte” 务必要疯狂地怀抱雄心，且还要疯狂地真诚 mondat akkoriban csak egy szép szlogen volt, egy évvel később már tettekké vált.

Jobbról a képen: Liang Wenfeng

1. rész: Hogyan dördült el az árháború első lövése?

Waves: A DeepSeek V2 megjelenése után gyorsan heves árháborút indított el a nagy modellek piacán. Egyesek szerint ön lett az iparág harcsája.

Liang Wenfeng: Nem akartunk harcsává válni - csak véletlenül lettünk harcsa. [A fordító megjegyzése: Ez valószínűleg Wong Kar-wai王家卫„Blossoms Shanghai” 繁花című új tévésorozatára utal, ahol a harcsák kannibalista természetük miatt a piaci bomlasztókat szimbolizálják].

Waves: Meglepetés volt számodra ez az eredmény?

Liang Wenfeng: Nagyon meglepő. Nem számítottunk arra, hogy az árképzés ennyire érzékenyen érint mindenkit. Mi csak a saját tempónkban csináltuk a dolgokat, majd elszámoltunk és meghatároztuk az árat. Az az elvünk, hogy nem támogatunk, és nem termelünk túlzott nyereséget. Ez az ár csak egy kis haszonkulcsot biztosít számunkra a költségek felett.

Waves: A Zhipu AI 智谱AI öt nappal később követte a példát, majd a ByteDance, az Alibaba, a Baidu, a Tencent és más nagy szereplők.

Liang Wenfeng: A Zhipu AI csökkentette egy belépő szintű termék árát, míg a miénkhez hasonló modelljeik továbbra is drágák maradtak. A ByteDance valóban elsőként követte, és a mi árunkhoz hasonlóan csökkentette a zászlóshajó modelljét, ami aztán más technológiai óriásokat is árcsökkentésre késztetett. Mivel a nagyvállalatok modellköltségei jóval magasabbak, mint a miénk, nem számítottunk arra, hogy ezt bárki is veszteséggel teszi, de végül az internetkorszakban megszokott támogatáségető logikába torkollott a dolog.

Waves: Kívülről nézve az árcsökkentések nagyon úgy néznek ki, mint a felhasználókért tett ajánlatok, ami az internetkorszak árháborúiban általában így szokott lenni.

Liang Wenfeng: Nem a felhasználók elhalászása a fő célunk. Azért csökkentettük az árakat, mert egyrészt a következő generációs modellarchitektúrák feltárása során csökkentek a költségeink, másrészt pedig úgy érezzük, hogy mind az API-knak, mind az AI-nak mindenki számára elérhetőnek és megfizethetőnek kell lennie.

Waves: Ezt megelőzően a legtöbb kínai vállalat közvetlenül a jelenlegi generációs Llama architektúrát másolta volna az alkalmazásokhoz. Miért indultak el a modellszerkezetből?

Liang Wenfeng: Ha a cél az alkalmazások készítése, akkor a Llama struktúra használata a gyors termékbevezetés érdekében ésszerű. De a mi célunk az AGI, ami azt jelenti, hogy új modellstruktúrákat kell tanulmányoznunk, hogy erősebb modellképességet valósítsunk meg korlátozott erőforrásokkal. Ez az egyik alapvető kutatási terület, amelyre szükség van a nagyobb modellek skálázásához. És a modellszerkezeten túlmenően kiterjedt kutatásokat végeztünk más területeken is, beleértve az adatszerkesztést és a modellek emberközelibbé tételét - ezek mind-mind tükröződnek az általunk kiadott modellekben. Ezenkívül a Llama struktúrája a becslések szerint a képzési hatékonyság és a következtetési költségek tekintetében két generációs lemaradással rendelkezik a nemzetközi határszintekhez képest a képzési hatékonyság és a következtetési költségek tekintetében.

Waves: Honnan származik főként ez a generációs szakadék?

Liang Wenfeng: Először is, a képzési hatékonyságban van szakadék. Becsléseink szerint a legjobb nemzetközi szintekhez képest Kína legjobb képességei kétszeres lemaradást mutathatnak a modellszerkezet és a képzési dinamika terén - ami azt jelenti, hogy kétszer annyi számítási teljesítményt kell felhasználnunk ugyanazon eredmények eléréséhez. Emellett az adathatékonyságban is kétszeres lehet a szakadék, vagyis kétszer annyi képzési adatot és számítási teljesítményt kell felhasználnunk ahhoz, hogy ugyanazokat az eredményeket érjük el. Ez együttesen négyszer több számítási teljesítményt jelent. Mi arra törekszünk, hogy folyamatosan csökkentsük ezeket a különbségeket.

Waves: A legtöbb kínai vállalat a modellek és az alkalmazások mellett dönt. Miért döntött úgy a DeepSeek, hogy csak a kutatásra és a feltárásra koncentrál?

Liang Wenfeng: Mert úgy gondoljuk, hogy most az a legfontosabb, hogy részt vegyünk a globális innovációs hullámban. Sok éven át a kínai vállalatok ahhoz voltak szokva, hogy mások technológiai innovációt végeznek, míg mi az alkalmazások monetizálására koncentráltunk - de ez nem elkerülhetetlen. Ebben a hullámban a mi kiindulópontunk nem az, hogy kihasználjuk a gyors profitszerzés lehetőségét, hanem az, hogy elérjük a technikai határokat és a teljes ökoszisztéma fejlődését előmozdítsuk.

Waves: Az internet és a mobilinternet korszaka a legtöbb emberben azt a meggyőződést hagyta, hogy az Egyesült Államok a technológiai innovációban, míg Kína az alkalmazások készítésében jeleskedik.

Liang Wenfeng: Úgy véljük, hogy a gazdaság fejlődésével Kína fokozatosan hozzájárulókká kell váljon ahelyett, hogy szabadúszóvá válna. Az elmúlt több mint 30 év informatikai hullámában alapvetően nem vettünk részt a valódi technológiai innovációban. Megszoktuk, hogy a Moore-törvény az égből pottyan, és otthon fekve 18 hónapig várunk a jobb hardverek és szoftverek megjelenésére.Így kezelik a Scaling Law-tis .

Valójában azonban ez olyasmi, amit a nyugati vezetésű technológiai közösségek generációinak fáradhatatlan erőfeszítései hoztak létre.Csak azért nem vettünk tudomást a létezéséről, mert korábban nem vettünk részt ebben a folyamatban.

2. rész: A valódi szakadék nem egy vagy két év. Hanem az eredeti innováció és az utánzás között.

Waves: Miért lepett meg a DeepSeek V2 olyan sok embert a Szilícium-völgyben?

Liang Wenfeng: Az Egyesült Államokban naponta zajló számos innováció között ez egészen hétköznapi. Azért lepődtek meg, mert egy kínai vállalat csatlakozott a játékukhoz, mint innovációs közreműködő. Végül is a legtöbb kínai vállalat a követéshez szokott, nem pedig az innovációhoz.

Waves: De a kínai környezetben az innováció mellett dönteni nagyon extravagáns döntés. A nagy modellek nagy befektetésekkel járnak, és nem minden vállalatnak van tőkéje kizárólag a kutatásra és az innovációra, ahelyett, hogy először a kereskedelmi hasznosításban gondolkodna.

Liang Wenfeng: Az innováció költségei határozottan nem alacsonyak, és a válogatás nélküli hitelfelvételre való korábbi tendenciák Kína korábbi körülményeihez is kapcsolódtak. De most már látja, akár Kína gazdasági léptéke, akár az olyan óriások, mint a ByteDance és a Tencent profitja - egyik sem alacsony globális összehasonlításban. Ami az innovációban hiányzik, az határozottan nem a tőke, hanem a bizalom és a tudás hiánya, hogy hogyan lehet a nagy sűrűségű tehetségeket megszervezni a hatékony innováció érdekében.

Waves: Miért a kínai vállalatok - beleértve a hatalmas technológiai óriásokat is - a gyors kereskedelmi forgalomba hozatal az első számú prioritásuk?

Liang Wenfeng: Az elmúlt 30 évben csak a pénzszerzésre helyeztük a hangsúlyt, miközben elhanyagoltuk az innovációt. Az innováció nem kizárólag üzleti alapú; kíváncsiságot és alkotási vágyat is igényel. Csak a régi szokások korlátoznak bennünket, de ez egy adott gazdasági szakaszhoz kötődik.

Waves: De önök végső soron egy üzleti szervezet, nem pedig egy közérdekű kutatóintézet - tehát hová építik a várárkot, amikor az innováció mellett döntenek, majd az innovációikat nyílt forráskódúvá teszik? Nem fogják-e a májusban kiadott MLA architektúrát gyorsan lemásolni mások?

Liang Wenfeng:A bomlasztó technológiákkal szemben a zárt forráskód által létrehozott árkok ideiglenesek. Még az OpenAI zárt forráskódú megközelítése sem tudja megakadályozni, hogy mások utolérjék őket. Ezért az értékünket csapatunkban helyezzük el – kollégáink ebben a folyamatban nőnek, tudásuk gyarapodik, és egy innovációra képes szervezetet és kultúrát hoznak létre. Ez a mi vizesárkunk.

A nyílt forráskód, a publikációk közzététele valójában semmibe sem kerül nekünk. A műszaki tehetségeknek nagyszerű érzést ad, ha mások is követik az innovációjukat. Valójában a nyílt forráskód inkább kulturális magatartás, mint kereskedelmi, és az ehhez való hozzájárulás tiszteletet érdemel. Egy vállalat számára kulturális vonzereje is van ennek.

Waves: Mit gondol azokról, akik a piacban hisznek, mint például [GSR Ventures'[ ZhuXiaohu朱啸虎?

Liang Wenfeng: ZhuXiaohu logikailag következetes, de a játékstílusa inkább a gyorsan pénzt termelő vállalatoknak való. És ha megnézzük Amerika legnyereségesebb vállalatait, ezek mind high-tech cégek, amelyek mély technikai alapokat halmoztak fel, mielőtt nagy áttöréseket értek el.

Waves: De amikor nagy modellekről van szó, a puszta technikai vezetés ritkán képez abszolút előnyt. Milyen nagyobb dologra fogadsz?

Liang Wenfeng: Azt látjuk, hogy a kínai mesterséges intelligencia nem lehet örökké követő pozícióban.Gyakran mondjuk, hogy a kínai mesterséges intelligencia és az Egyesült Államok között egy-két év különbség van, de a valódi különbség az eredetiség és az utánzás közötti különbség.Ha ez nem változik, Kína mindig csak követő lesz - így elkerülhetetlen némi felfedezés.

Az Nvidia vezető szerepe nem csupán egy vállalat erőfeszítése, hanem az egész nyugati műszaki közösség és ipar közös munkájának eredménye. Látják a technológiai trendek következő generációját, és kezükben van az útiterv. A kínai AI-fejlesztésnek ilyen ökoszisztémára van szüksége. Sok hazai chipfejlesztés azért küzd, mert nincs támogató műszaki közösségük, és csak másodkézből származó információkkal rendelkeznek. Kínának elkerülhetetlenül szüksége van olyan emberekre, akik a technikai határon állnak.

3. rész: A több beruházás nem egyenlő a több innovációval

Waves: A DeepSeek jelenleg egyfajta idealista aurával rendelkezik, amely az OpenAI korai napjaira emlékeztet, és nyílt forráskódú. Később zárt forráskódúra változik? Mind az OpenAI, mind a Mistral nyílt forráskódúból zárt forráskódúvá vált.

Liang Wenfeng: Nem fogunk zárt forráskódra váltani. Úgy gondoljuk, hogy fontosabb, hogy először egy erős technikai ökoszisztémát hozzunk létre.

Waves: Van finanszírozási tervük? Láttam olyan médiajelentéseket, amelyek szerint a High-Flyer azt tervezi, hogy a DeepSeek-et kivonja a tőzsdére. A Szilícium-völgyi AI startupok elkerülhetetlenül kötődnek a nagy cégekhez.

Liang Wenfeng: Rövid távon nincsenek finanszírozási terveink. Soha nem a pénz volt a probléma számunkra; a fejlett chipek szállításának tilalma a probléma.

Waves: Sokan úgy vélik, hogy az AGI fejlesztése és a kvantitatív pénzügyek teljesen különböző törekvések. A kvantitatív pénzügyek csendben is folytathatók, az AGI azonban nagy feltűnést keltő és merész megközelítést igényelhet, szövetségeket kell kötni a befektetések felerősítése érdekében.

Liang Wenfeng: A több befektetés nem egyenlő a több innovációval. Máskülönben a nagy cégek már minden innovációt monopolizáltak volna.

Waves: Jelenleg azért nem az alkalmazásokra összpontosítanak, mert nincs meg a megfelelő operatív szakértelem?

Liang Wenfeng: Úgy gondoljuk, hogy a jelenlegi szakasz a technológiai innováció robbanásszerű növekedésének időszaka, nem pedig az alkalmazásoké. Hosszú távon azt reméljük, hogy olyan ökoszisztémát hozunk létre, ahol az ipar közvetlenül használja a technológiánkat és az eredményeinket. Mi továbbra is az alapmodellekre és az élvonalbeli innovációra összpontosítunk, míg más vállalatok a DeepSeek alapjaira építve B2B és B2C– Business-to-Business és Business-to-customer - üzletágakat építhetnek. Ha létrejön egy teljes ipari értéklánc, akkor nincs szükség arra, hogy mi magunk fejlesszünk alkalmazásokat. Természetesen, ha szükséges, semmi sem akadályoz meg minket abban, hogy alkalmazásokkal foglalkozzunk, de a kutatás és a technológiai innováció mindig is a legfőbb prioritásunk lesz.

Waves: De amikor az ügyfelek API-kat (alkalmazásprogramozási felület) választanak, miért a DeepSeek-et válasszák a nagyobb cégek ajánlataival szemben?

Liang Wenfeng: A jövő világa valószínűleg a specializált munkamegosztás világa lesz. Az alapvető nagy modellek folyamatos innovációt igényelnek, a nagyvállalatok pedig korlátok közé szorítják képességeiket, ami nem feltétlenül teszi őket a legjobb választássá.

Waves: De vajon maga a technológia valóban jelentős szakadékot hozhat-e létre? Ön is említette, hogy nincsenek abszolút technológiai titkok.

Liang Wenfeng: A technológiában nincsenek titkok, de a replikáció (másolás) idő- és költségigényes. Az Nvidia grafikus kártyáinak elméletileg nincsenek technológiai titkai, és könnyen lemásolhatóak. Azonban egy csapat nulláról való felépítése és a technológia következő generációjának felzárkóztatása időbe telik, így a tényleges árok elég széles marad.

Waves: Miután a DeepSeek csökkentette árait, a ByteDance követte a példáját, ami azt mutatja, hogy bizonyos fokú fenyegetettséget éreznek. Hogyan látja a startupok és a nagy cégek közötti verseny új megközelítéseit?

Liang Wenfeng: Őszintén szólva nem igazán érdekel minket, mert ez csak valami, amit útközben csináltunk.A felhőszolgáltatások nyújtása nem a fő célunk.A végső célunk még mindig az AGI -általános mesterséges intelligencia - elérése.

Jelenleg nem látok új megközelítéseket, de a nagy cégek nincsenek egyértelmű fölényben. A nagy cégeknek vannak meglévő ügyfeleik, de a pénzforgalmat bonyolító üzletágak is terhet jelentenek számukra, és ez bármikor sebezhetővé teszi őket a zavarokkal szemben.

Waves: Miben látja a hat másik nagymodelles startup végjátékát?

Liang Wenfeng: Kettő vagy három maradhat életben. Jelenleg mindegyikük az „égő pénz” fázisában van, így azoknak van nagyobb esélyük a túlélésre, akiknek világos az önpozíciójuk és jobban kifinomult a működésük. Más vállalatok jelentős átalakuláson mehetnek keresztül. Az értéket képviselő dolgok nem egyszerűen eltűnnek, hanem más formát öltenek.

Waves: A High-Flyer versenyhez való hozzáállását „áthatolhatatlan” -ként jellemezték, mivel kevés figyelmet fordít a horizontális versenyre. Mi a kiindulópontja, amikor a versenyről gondolkodik?

Liang Wenfeng: Gyakran gondolkodom azon, hogy valami javíthatja-e a társadalom működésének hatékonyságát, és hogy lehet-e erősséget találni az ipari láncolaton belül. Amíg a végső cél a társadalom hatékonyabbá tétele, addig ez érvényes. Sok minden a kettő között csak átmeneti fázis és a túlzott összpontosítás rájuk zavarhoz vezethet.

4. rész: Fiatalok egy csoportja „kifürkészhetetlen” munkát végez

Waves: Jack Clark, az OpenAI korábbi politikai igazgatója és az Anthropic társalapítója szerint a DeepSeek„kifürkészhetetlen varázslókat” alkalmazott. Milyen emberek állnak a DeepSeek V2 mögött?

Liang Wenfeng: Nincsenek varázslók.Többnyire friss diplomások vagyunk a legjobb egyetemekről, negyed- vagy ötödéves PhD-jelöltek, és néhány fiatal, aki csak néhány éve végzett.

Waves: Sok LLM-vállalat (nagy nyelvi modell) megszállottan toboroz tehetségeket a tengerentúlról, és gyakran mondják, hogy az 50 legjobb tehetség ezen a területen nem is biztos, hogy kínai vállalatoknál dolgozik. Honnan származnak az önök csapattagjai?

Liang Wenfeng: A V2 modell mögött álló csapatban nincs olyan, aki a tengerentúlról térne vissza Kínába - mindannyian helyiek.Lehet, hogy a legjobb 50 szakértő nem Kínában van, de talán mi magunk is tudunk ilyen tehetségeket képezni.

Waves:Hogyan jött létre ez az MLA innováció?Úgy hallottam, hogy az ötlet egy fiatal kutató személyes érdeklődéséből született?

Liang Wenfeng: Miután összefoglaltuk a figyelemmechanizmus néhány főáramú evolúciós irányzatát, arra gondoltunk, hogy megtervezünk egy alternatívát.Az ötlet megvalósítása azonban hosszadalmas folyamat volt.Kifejezetten erre a célra alakítottunk egy csapatot és hónapokat töltöttünk azzal, hogy működésbe hozzuk.[Jordan: tényleg emlékeztet AlecRadford korai GPT-sorozathoz való hozzájárulására, és a ChinaTalkon korábban már kifejtett tézisünkhöz szól, miszerint az algoritmikus innováció alapvetően különbözik attól, hogy például a félvezetőgyártásban a technológiai határokat feszegetjük.Ahelyett, hogy PhD-re és több éves ipari tapasztalatra lenne szükséged ahhoz, hogy valóban hasznos legyél, a határokat egy igazán éles eszű és éhes 20-as éveiben járó ember is kitolhatja (amiből Kínában rengeteg van!).Dwarkesh interjúja az OpenA ISholto Douglass-szal és az AnthropicTrenton Brickennel jól illusztrálja ezt a dinamikát.Dwarkesh a következővel nyit: „Noam Brown, aki a Diplomacy-dolgozatot írta, ezt mondta Sholtó-ról: »még csak 1,5 éve van a pályán, de az emberek az AI-ben tudják, hogy ő volt az egyik legfontosabb ember a Gemini sikere mögött«].

Waves: Az ilyen eltérő gondolkodás megjelenése szorosan összefügg az önök innovációvezérelt szervezeti felépítésével. A High-Flyer-korszakban az ön csapata ritkán osztott ki felülről lefelé irányuló célokat vagy feladatokat. Az AGI azonban nagy bizonytalansággal járó határkutatást foglal magában - ez több vezetői beavatkozást eredményezett?

Liang Wenfeng: A DeepSeek még mindig teljesen alulról felfelé építkezik.Általában nem határozzuk meg előre a szerepeket; ehelyett a munkamegosztás természetes módon történik.Mindenkinek megvan a maga egyedi útja, és mindenki hozza magával az ötleteit, így nincs szükség arra, hogy bárkit is erőltessünk.Miközben felfedezzük, ha valaki problémát lát, természetesen megbeszéli azt valaki mással.Ha azonban egy ötlet potenciált mutat, akkor felülről lefelé osztjuk el az erőforrásokat.

Waves: Úgy hallottam, hogy a DeepSeek nagyon rugalmas az erőforrások, például a GPU-k - Graphicsprocessing unit- és az emberek mozgósításában.

Liang Wenfeng: A csapatban bárki bármikor hozzáférhet GPU-khoz vagy emberekhez.Ha valakinek van egy ötlete, bármikor hozzáférhet a képzési klaszterkártyákhoz jóváhagyás nélkül.Hasonlóképpen, mivel nincsenek hierarchiák vagy különálló részlegek, az emberek együttműködhetnek a csapatok között, amennyiben kölcsönös az érdeklődés.

Waves: Az ilyen laza vezetési stílus a rendkívül öntevékeny emberekre támaszkodik. Úgy hallottam, hogy önök kiválóan felismerik a kivételes tehetségeket a nem hagyományos értékelési kritériumok segítségével.

Liang Wenfeng: A felvételi standardunk mindig is a szenvedély és a kíváncsiság volt.Sok csapattagunk szokatlan tapasztalatokkal rendelkezik, és ez nagyon érdekes.A kutatás iránti vágyuk gyakran előbbre való, mint a pénzkeresés.

Waves: A Transformers a Google AI Lab-ban, a ChatGPT pedig az OpenAI-ban született. Hogyan hasonlítjátok össze a nagyvállalatok AI-laborjaiban végzett innovációk értékét a startupokéval?

Liang Wenfeng: A Google AI Lab, az OpenAI és még a kínai technológiai cégek AI-laborjai is rendkívül értékesek. Az, hogy az OpenAI sikeres volt, részben néhány történelmi véletlennek köszönhető.

Waves: Az innováció tehát nagyrészt szerencse kérdése? Észrevettem, hogy az ön irodájában a tárgyalótermek középső sorának mindkét oldalán olyan ajtók vannak, amelyeket bárki kinyithat. A kollégái azt mondták, hogy ez a kialakítás teret enged a szerencsének. A Trafók megalkotásakor valaki meghallott egy beszélgetést, majd csatlakozott hozzá, és végül általános keretté alakította azt.

Liang Wenfeng: Hiszem, hogy az innováció a hittel kezdődik. Miért olyan innovatív a Szilícium-völgy?Mert mernek dolgokat csinálni.Amikor a ChatGPT megjelent, a kínai technológiai közösség nem bízott a határ menti innovációban.A befektetőktől a nagyvállalatokig mindannyian úgy gondolták, hogy a szakadék túl nagy, és inkább az alkalmazásokra koncentráltak.Az innováció azonban az önbizalommal kezdődik, amit gyakran inkább a fiataloktól látunk.

Waves: De önök nem végeznek adománygyűjtést, és nem is beszélnek a nyilvánosság előtt, így az önök láthatósága alacsonyabb, mint az aktívan adománygyűjtő vállalatoké. Hogyan biztosítjátok, hogy a DeepSeek továbbra is a legjobb választás maradjon az LLM-en dolgozók számára?

Liang Wenfeng: Mert a legnehezebb problémákkal foglalkozunk. A csúcstehetségeket leginkább a világ legnehezebb kihívásainak megoldása vonzza. Valójában a kínai csúcstehetségeket alábecsülik, mivel a társadalmi szinten olyan kevés hardcore innováció történik, ami miatt nem ismerik fel őket.Mi a legnehezebb problémákkal foglalkozunk, ami eleve vonzóvá tesz minket számukra.

Waves: Amikor az OpenAI legutóbbi kiadása nem hozta el nekünk a GPT5-öt, sokan úgy érzik, hogy ez a technológiai fejlődés lassulását jelzi, és kezdik megkérdőjelezni a skálázási törvényt. Ön mit gondol erről?

Liang Wenfeng: Mi viszonylag optimisták vagyunk. Úgy tűnik, hogy az iparágunk egésze megfelel az elvárásoknak. Az OpenAI nem isten (OpenAI不是神), nem feltétlenül lesz mindig az élen.

Waves: Mennyi idő múlva valósul meg az AGI? A DeepSeek V2 kiadása előtt voltak matematikai és kódgenerálási modelljeid, és a sűrű modellekről is áttértél a Mixture of Experts-re. Melyek az AGI-útitervetek legfontosabb pontjai?

AGI - Artifical General Intelligence modell 4 jellemzője:

Észlelés, Problémafelismerés, megoldás kifejlesztése, tanulás

Liang Wenfeng: Ez lehet két, öt vagy tíz év - mindenesetre még a mi életünkben meg fog történni. Még a vállalaton belül sincs egységes vélemény az útitervről. Ennek ellenére három irányba tettünk igazi tétet. Az első a matematika és a kód, a második a multimodalitás, a harmadik pedig maga a természetes nyelv.

A matematika és a kód természetes AGI-tesztelési terep, hasonlóan a Go-hoz. Ezek zárt, ellenőrizhető rendszerek, ahol az intelligencia magas szintjét önképzéssel lehet elsajátítani. A multimodalitás és a valós emberi világgal való kapcsolat viszont szintén követelmény lehet az AGI számára. Nyitottak maradunk a különböző lehetőségekre.

Waves: Ön szerint mi a nagy modellek végcélja?

Liang Wenfeng: Lesznek specializált vállalatok, amelyek alapmodelleket és szolgáltatásokat nyújtanak, és az ellátási lánc minden csomópontjában kiterjedt specializációt érnek el. Mindezek tetejére többen fognak építeni, hogy kielégítsék a társadalom sokféle igényét.

5. rész: Minden módszer egy előző generáció terméke.

Waves: Az elmúlt évben sok változás történt a kínai nagy modellalapítású startupokban. Például WangHuiwen [a RenRen, egy facebook-klón és a Meituan, egy ételkiszállító cég társalapítója], aki a tavalyi év elején nagyon aktív volt, félúton kivonult, és a később csatlakozott cégek differenciálódni kezdtek.

Liang Wenfeng: WangHuiwen minden veszteséget maga viselt, így a többiek sértetlenül vonulhattak ki. Olyan döntést hozott, ami a saját maga számára a legrosszabb, de mindenki másnak jó volt, tehát nagyon tisztességes a viselkedése - ezt nagyon csodálom. [WangHuiyuan megalapította a 光年之外Lightyear alapítványt, hogy aztán gyorsan visszahajtsa a Meituan-ba.A Meituan-ról és a mesterséges intelligenciáról bővebben lásd ezt a 36Kr nemrég megjelent cikkét].

Waves: Hová összpontosítod most a legtöbb energiádat?

Liang Wenfeng: A fő energiám a nagy modellek következő generációjának kutatására összpontosul. Még mindig sok a megoldatlan probléma.

Waves: A többi nagy modellekkel foglalkozó startup ragaszkodik ahhoz, hogy mindkettőt [a technológiát és a kereskedelmi hasznosítást] folytassa, elvégre a technológia nem hoz állandó vezető szerepet, mivel fontos kihasználni a lehetőséget, hogy a technológiai előnyöket termékekké alakítsuk át. A DeepSeek azért mer a modellkutatásra összpontosítani, mert a modellképességei még nem elegendőek?

Liang Wenfeng: Mindezek az üzleti minták az előző generáció termékei, és nem biztos, hogy a jövőben is érvényesek lesznek. Az internetes üzleti logikát használni a jövőbeli AI profitmodellek megvitatására olyan, mintha a General Electric és a Coca-Cola vitatkozna, amikor Pony Ma elindította a vállalkozását. Ez egy értelmetlen gyakorlat (刻舟求剑).

Waves: A múltban az Ön High-Flyerkvant alapjának erős technológiai és innovációs alapjai voltak, és a növekedése viszonylag zökkenőmentes volt. Ez az oka az optimizmusának?

Liang Wenfeng: Bizonyos szempontból a High-Flyer megerősítette a technológiavezérelt innovációba vetett bizalmunkat, de nem volt minden zökkenőmentes. Hosszú felhalmozási folyamaton mentünk keresztül. Amit a kívülállók látnak, az a High-Flyer 2015 utáni része, de valójában már 16 éve csináljuk.

Waves: Visszatérve az innováció témájára. Most, hogy a gazdaság kezd hanyatlani, és a tőke már nem olyan laza, mint korábban, ez visszaszorítja az alapkutatást?

Liang Wenfeng: Nem feltétlenül gondolom így. Kína ipari szerkezetének kiigazítása szükségszerűen jobban fog támaszkodni a kemény technológiai innovációra. Amikor az emberek rájönnek, hogy a múltban a gyors pénzszerzés valószínűleg a szerencsés ablakoknak volt köszönhető, hajlandóbbak lesznek alázatoskodni és valódi innovációban részt venni.

An Yong: Tehát Ön is optimista ezzel kapcsolatban?

Liang Wenfeng: Az 1980-as években nőttem fel Guangdong egyik ötödrangú városában. Apám általános iskolai tanár volt. Az 1990-es években Guangdong-ban sok lehetőség volt a pénzkeresésre. Abban az időben sok szülő eljött hozzám; alapvetően úgy gondolták, hogy a tanulás haszontalan. De most visszatekintve, mindannyian megváltoztatták a véleményüket. Mert a pénzkeresés már nem könnyű - még a taxizás lehetősége is hamarosan megszűnhet. Csak egy generáció kellett hozzá.

A jövőben a hardcore innováció egyre gyakoribbá válik. Ezt most még nem könnyű megérteni, mert a társadalom egészét fel kell világosítani ezen a ponton. Amint a társadalom lehetővé teszi, hogy a hardcore innováció iránt elkötelezett emberek hírnévre és vagyonra tegyenek szert, akkor a kollektív gondolkodásmódunk alkalmazkodni fog. Csak néhány példára és egy folyamatra van szükségünk.

Forrás: ChinaTalk, https://www.chinatalk.media/p/deepseek-ceo-interview-with-chinas 2024. 11.27.

Szerző: //substack.com/@chinatalk">Jordan Schneider, //substack.com/@angelacs">Angela Shen, //substack.com/@irenezhang">Irene Zhang és 3 másik szerző

Angolból fordította: Naetar-Bakcsi Ildikó

Jordan Schneider, Angela Shen, Irene Zhang és 3 másik szerző 2025-01-26 chinatalk.media