AI衝擊效應: 全球競逐下的技術革命
作者 | 徐挺耀 |
---|---|
出版社 | 大和書報圖書股份有限公司 |
商品描述 | AI衝擊效應: 全球競逐下的技術革命:AI的歷史全景與未來競局!本書帶你回顧AI技術的發展歷程,解析各大陣營的策略布局與競爭優勢,揭示這場技術革命如何重塑全球格局。是深 |
作者 | 徐挺耀 |
---|---|
出版社 | 大和書報圖書股份有限公司 |
商品描述 | AI衝擊效應: 全球競逐下的技術革命:AI的歷史全景與未來競局!本書帶你回顧AI技術的發展歷程,解析各大陣營的策略布局與競爭優勢,揭示這場技術革命如何重塑全球格局。是深 |
內容簡介 AI 衝擊效應:全球競逐下的技術革命這本書,讓你站上 AI 革命的浪潮!想像一下,一台機器能夠與你流暢對話,替你撰寫報告、生成精美圖片,甚至自動剪輯影片。想像再進一步,當 AI 開始自主學習、預測市場趨勢、創作藝術、甚至參與決策,這將如何顛覆我們的世界?人工智慧(AI)已不再是遙遠的科技幻夢,而是正在席捲全球的現實。本書《AI 的衝擊效應:全球競逐下的技術革命》,不只是一本 AI 技術導論,而是一部帶領你理解、應對並掌握 AI 變革的 終極指南。如果你關心科技、產業、創作,甚至只是想知道未來世界會變成什麼樣子,那麼這本書,就是你通往新時代的必讀之作。Part 1 風起雲湧的新 AI 時代人工智慧的崛起:為何 AI 突然變得無所不在?AI 的發展歷程長達數十年,但真正讓它變得「不可忽視」的,是這場由 OpenAI GPT-4、Google Gemini 2.0、Anthropic Claude 等大型語言模型(LLM)所引爆的智能革命。現在的 AI 已經不只是「能夠計算」,它能夠 理解、預測、創作,甚至與人類互動。從 1956 年達特茅斯會議奠定 AI 學科基礎,到 2022 年 ChatGPT 掀起 AI 風暴,短短幾年間,這項技術已經滲透我們的每一天。你可能無意識地在使用 AI,但它正在快速改變我們的工作、學習、娛樂方式。AI 應用的顛覆力量:這不是科幻,而是現在!人工智慧不只是學術名詞,而是已經改變你生活的實際技術。● 文字與對話:ChatGPT、Claude 幫助我們撰寫文案、編寫報告,甚至進行客戶服務。● 影像與影片:MidJourney、DALL·E、Sora 可以生成令人驚嘆的視覺作品,甚至製作短影片。● 自動駕駛與醫療革命:特斯拉的自動駕駛讓未來交通更安全,DeepMind 的 AlphaFold 幫助破解蛋白質結構,帶來醫學新突破。AI 的應用範圍正在無限擴展,這場變革正以前所未有的速度發生。Part 2 AI 產業頂尖對決誰能稱霸 AI?科技巨頭的殊死戰AI 產業的競爭激烈,OpenAI、Google DeepMind、Meta、Anthropic、Mistral AI 等科技巨頭正展開前所未有的 智能戰爭。● OpenAI:以 GPT 系列大模型打響 AI 革命的第一槍。● Google DeepMind:從 AlphaGo 到 Gemini,持續挑戰 AI 的極限。● Meta(Facebook):主攻開源 AI,推動 LLaMA 模型普及。● Anthropic:以 Claude AI 對抗 GPT,挑戰 OpenAI 霸主地位。這些 AI 陣營的較勁,決定著未來的科技趨勢,並影響我們的生活方式。AI 投資熱潮:哪些企業正在搶佔 AI 先機?不只是科技公司,全球投資市場也已經進入 AI 黃金時代。● 輝達(NVIDIA):AI 運算的王者,市值突破一兆美元,成為 AI 革命的最大受益者。● AI 新創企業:從 MidJourney 到 Mistral AI,無數新創公司湧入市場,爭奪這場技術新浪潮的紅利。● 企業 AI 化:微軟、亞馬遜、蘋果等公司,正在把 AI 深入植入企業級應用,改變市場生態。你可能還沒意識到,但 AI 已經主導未來的投資版圖。這場技術革命,無論你是否參與,都將影響你的工作與生活。Part 3 AI 領域展開AI 如何重塑創意、學習與行銷產業?媒體與創意產業的大變革泛傳媒共同創辦人 鄭國威 探討 AI 如何改變媒體與內容創作,讓 AI 成為 人類創意的夥伴,而不是競爭者。超維度創意總監 蔡宏賢 更進一步說明 AI 在藝術與數位設計上的應用,未來的創作將不再是 人 vs. 機器,而是人 + AI 的協作模式。商業行銷:數據驅動的新世代行銷策略潮網科技執行長 駱呈義 深入分析 AI 如何變革數據行銷,從 精準廣告投放 到 自動化內容生成,AI 正讓行銷人員的角色產生根本性的轉變。教育與學習的 AI 革命AI 讓學習變得更加個性化,國立中興大學資訊管理學系副教授 洪智傑 和台灣數位文化協會技術長 莊哲昀 共同探討 AI 在學習領域的突破,AI 不再只是輔助,而是 真正的個人智慧助教。AI 革命來襲,你準備好了嗎?這本書,不是一本單純介紹 AI 技術的書,而是一本讓你理解 AI 如何改變世界,並如何掌握這場革命的機會。● 如果你是 創業者或投資人,本書將告訴你 AI 如何重塑市場與商機。● 如果你是 創作者或行銷專家,本書將讓你掌握 AI 如何提升工作效率與創造力。● 如果你只是對未來充滿好奇,本書將帶你洞察 AI 如何影響每個人的生活。AI 革命正在發生,這不只是科技發展的下一步,而是決定我們未來生活方式的關鍵。你準備好迎接這場變革了嗎?📖 現在就翻開這本書,成為 AI 變革的一部分!
作者介紹 徐挺耀,潮網科技與泛傳媒董事長。潮網科技曾獲中華開發、和碩等機構投資,為台灣領先國際性廣告技術公司。泛傳媒為知名 YT 科技頻道『泛科學』母公司,為台灣主要 Youtube 科學頻道之一。2008 年,以「胖卡計畫」推動偏鄉數位教育,並在 2009 年八八風災中透過網路技術協助救災,獲得歐洲 Ars Electronica 電子藝術獎數位社區類獎項。2010 年創立潮網科技,專注於廣告技術,AI 驅動系統以及影音廣告技術,為企業提供高效的行銷解決方案,覆蓋亞洲、中東、歐洲與南美洲等市場。2011 年創立泛科學,成為台灣主要科學教育平台。在多個媒體撰寫科技產業相關評論,目前在財訊雜誌為固定專欄作者。
產品目錄 Part 1 風起雲湧新 AI 時代1.1 探索 AI 的奇幻旅程:AI 的奠基與發展AI 到底是什麼?定義與起源圖靈的模仿遊戲AI 學門的開端專家系統讓 AI 再現曙光AI 復興與機器學習的崛起神經網路/機器學習的進展1.2 AI 掀起全民運動:AI 的躍進與普及影響深遠的深度學習革命 AI 武林高手齊攻光明頂 AI 走進尋常百姓家GPT 風潮席捲全球大型語言模型開出新路思考鏈與現在的進展DeepSeek 橫空出世是震撼還是振奮?1.3 漫步在 AI 國度的經緯間:從 5 個領域的技術概念談起GPT 與 ChatGPT:大型語言模型的運作原理從「魔法咒語」到「擴散模型」的 AI 創作革命影片 AI 的里程碑::如何打造絲滑觀感從理解文字到讀懂影片從資料中「學到」世界運動規則邁向全自動駕駛的路上蛋白質結構解密:AI 大神如何成為科學家的利器DeepMind 團隊與 AlphaFold 模型AlphaFold 三代:走向蛋白質交互作用1.4 AI 相對論:AI 的優勢與挑戰AI 不講武德掀起革命原來 AI 離我們這麼近AI 會影響哪些工作?AI 處理大量數據的能力AI 將帶來失業潮?當 AI 會思考及寫程式AI 引發的數據隱私與偏見問題戈耳狄俄斯之結被解開之後AI 將成基本人權?AI 倫理與治理日受重視這次 AI 革命的不一樣與不擔心Part 2 AI 產業頂尖對決:誰是大廠博弈賽局中的最終贏家?2.1 OpenAI 崛起啟示錄OpenAI 領跑市場的關鍵阿特曼的獨到眼光持續擴張應用版圖開發者壓力山大OpenAI 上演驚世宮鬥劇AI 安全性與公司治理議題浮上檯面OpenAI 很快就會倒閉?2.2 追擊的巨人們:其他網路巨擘的 AI 策略,以及馬斯克的策略OpenAI 後有不少追兵Meta、谷歌各有盤算開源陣營另闢戰線小鯨魚超車大鯨魚馬斯克鋪天蓋地的夢想靠一條龍策略反敗為勝美國總統大選中的科技議題政治狂熱與事業進展馬斯克如何改造推特2.3 科技產業的蝴蝶效應蘋果 Vision Pro 重新定義空間運算混合實境設備要拿來做什麼?通用人形機器人距離現實有多遠?唐頓莊園的現代版將有一堆機器人幫傭舊金山的無人計程車體驗Reddit 上市帶來何種笨錢效應?鄉民論壇如何與社群網站競爭?社群網站仍是眼球焦點字節跳動的成功密碼抖音禁令下的受益者音樂串流平台是不是好生意?支付大戰背後的數據卡位戰小數據還是大數據?2.4 AI 產業的投資價值當黃仁勳成為科技一哥下一波 AI 的投資機會追逐 AI 股票是不是買櫝還珠?大廠玩得起膽小鬼遊戲科技大廠的裁員風暴軟體仍持續吞噬世界迷因股票的含金量鄉民也能打死老師傅AI 資本支出只增不減2.5 AI 時代的靈魂拷問:我們應有的關鍵思維與策略面對 AI 革命的自我修養AI 過渡時代的新機會吃了誠實豆沙包的施密特AI Token 價格大幅下滑AI 代理將成顯學Part 3 AI 領域展開3.1 內容創作領域:AI 時代下從工具到思維的蛻變/鄭國威3.2 廣告行銷領域:AI 技術落地仍須專家導航/駱呈義3.3 教學領域:邁向客製化教學的未來/洪智傑3.4 學習領域:生成式 AI 翻轉學習模式與工作流程/莊哲昀3.5 藝術創作領域:擺脫廉價生成,回歸藝術創作的核心價值/蔡宏賢附錄:AI 關鍵字索引AI 關鍵人物AI 關鍵概念AI 關鍵事件
書名 / | AI衝擊效應: 全球競逐下的技術革命 |
---|---|
作者 / | 徐挺耀 |
簡介 / | AI衝擊效應: 全球競逐下的技術革命:AI的歷史全景與未來競局!本書帶你回顧AI技術的發展歷程,解析各大陣營的策略布局與競爭優勢,揭示這場技術革命如何重塑全球格局。是深 |
出版社 / | 大和書報圖書股份有限公司 |
ISBN13 / | 9786269957804 |
ISBN10 / | |
EAN / | 9786269957804 |
誠品26碼 / | 2682865354009 |
頁數 / | 216 |
注音版 / | 否 |
裝訂 / | P:平裝 |
語言 / | 1:中文 繁體 |
尺寸 / | 14.8x21x1cm |
級別 / | N:無 |
提供維修 / | 無 |
內文 : AI 武林高手齊攻光明頂
2012 年,一個叫做亞歷克斯·克里澤夫斯基(Alex Krizhevsky) 的烏克蘭人贏了當年度的 ImageNet 圖像辨識比賽。每年都有贏家,但克里澤夫斯基做出了壯舉,他用 AlexNet 這個卷積神經網路論文,成功的做出比別人好很多的辨識——將錯誤率從 26% 降低至 15%,比第二名好了整整 10%。要知道這個辨識比賽勝負差異都很小,他等於 100 公尺跑進 5 秒,基本上已經跟其他人不是用同一種邏輯運作。這算是奠定了這次 AI 熱潮的基礎,學界跟產業界的人已經知道黃金組合,就是神經網路的算法加 GPU。這算是完全的藍海新領域,GPT 熱潮前的 AI 熱潮,就是從這邊開始的。
克里澤夫斯基當時在辛頓下面做研究,就在那個實驗室裡面。他那邊還有另一個人也是超級有影響力,叫做「伊爾亞·蘇茨克維」(Ilya Sutskever)。這個人是 AlexNet 的共同發明人之一,後來擔任了 OpenAI 的技術長,可以說是除了山姆·阿特曼(Samuel Harris Altman)之外最重要的人。在多倫多大學,這些 AlexNet 的技術開發者,他們就用了一種類似 Google Brain 的神經網路,而不是其他比較傳統的演算法。再來,他們用的 GPU 是 GTX580,跟現在的 5090 比起來,性能差非常非常多。
這時候李飛飛那邊已經用資料跟模型的做法把問題解決到一個程度了。因為你沒有好的數據,想訓練也沒辦法。另外,沒有比較跟研究基準的緣故,ImageNet 這個數據庫,花了 3 年、做了 320 萬張圖,分了 5,000 多個類。這整個資料庫才能用來訓練各種模型。然後舉辦比賽讓大家來比較算法,有種世界第一武道會的味道。
2012 的時候李飛飛的資料庫那時的數據量其實已經多到 1,000 多萬張圖片、2 萬個類別,比賽用的測試圖雖然沒那麼多,但也不少。比賽初期幾年各種算法、理論的推進並沒有大幅度突破,但結果在 2012 年 AlexNet 一舉把錯誤率降低了快 10%,威力真的很驚人,很有效地證明了神經網路是未來的人工智慧有效的算法邏輯,能夠解決這個問題。
而有個額外的事情,突破沒多久,辛頓、克里澤夫斯基還有蘇茨克維就決定把他們的演算法弄成公司,去找人投資。投資並購的對象其實就是辛頓本體,所以最後谷歌在打敗百度跟 DeepMind 的競標之後,把辛頓演算法的邏輯買下來,他們 3 個人賣了 4,400 萬美金。也就是公司請你去上班,還要競標叫你去上班的權利。真的是對人類智慧極大的肯定啊!
因此衍生的題外話是,後來大家就知道 NVIDIA 的 GPU 能給神經網路提供很好的計算效能,用神經網路的做法就能訓練出來很好的 AI。也因此,整個神經網路的崛起其實跟 NVIDIA 息息相關。
再來到 2020 年的時候,NVIDIA 有了 A100,威力就變得更強大,成了大家做人工智慧訓練的標準配置。OpenAI 也好,或是 Stable Diffusion,這些都是在 NVIDIA 的 GPU 上訓練出來的。總之,NVIDIA 跟這個整個業界是一起把這個生態系做起來,也因為有 AlexNet 的發明才會有這些發展,這就是最關鍵的因素。
AI 走進尋常百姓家
AI 真正成為家喻戶曉的話題,是其在遊戲領域再次創造了歷史。2016 年,由 DeepMind 開發的 AlphaGo 在首爾擊敗了世界級圍棋選手李世乭,這場比賽的影響遠超圍棋界。AlphaGo 採用的深度強化學習方法展示了 AI 系統驚人的戰略思維能力,而其後續版本 AlphaGo Zero 更是完全通過自我對弈來學習,無需人類棋譜的指導。
Alexnet 是業界內的震撼,但神經網路的地位確立後,對業外的衝擊,就是一般人可以感知的2016 年 AlphaGo 衝擊。AlphaGo 這個 AI,來自谷歌收購的英國公司 DeepMind,是針對圍棋的 AI。
圍棋一直被視為聖杯,因為一步棋後續可能的走法稱作「分支因子」(branching factor),西洋棋每一步平均有 35 種可能走法,分支因子是 35;但圍棋卻高達 250!也就是說,這個 250 步之下,還有 250 步的可能。這樣一直分岔下去。光想就讓人頭皮發麻,如果是以窮盡棋步的電腦運算力可能也不夠。
但最早的 AlphaGo 是分析人類下過的 10 萬盤棋,就這樣打敗李世乭了,但過五個月的版本 AlphaGo Zero 就是自己跟自己下幾百萬盤棋,這個版本跟打敗李世乭的版本比,從來沒有輸過。到了這個程度,可以說人類已經不可能贏過 AI 了。
2017 年,自然語言處理領域迎來了革命性的突破。谷歌研究團隊提出的 Transformer 架構,以其優異的並行處理能力和對長距離依賴的把握,徹底改變了機器翻譯和語言理解的技術路線。這項創新為後來的 BERT、GPT 等大型語言模型鋪平了道路。
過去幾年來,生成式 AI 技術取得爆炸性進展。OpenAI 的 GPT 系列模型展現了驚人的語言生成能力,從寫作到編程,從對話到創作,都展現出接近人類的水準。DALL-E、Stable Diffusion 等模型則將 AI 的創造力延伸到了視覺藝術領域,能夠根據文字描述生成令人驚歎的圖像作品。
在醫療領域,AI 技術也取得了重大突破。DeepMind 的 AlphaFold 在蛋白質結構預測問題上取得了革命性進展,這一成就被《科學》雜誌評為 2021 年度十大科學突破之一。其中,AI 輔助診斷系統在影像識別、病理分析等方面的表現已經達到或超過人類專家水準。
自動駕駛技術的發展更是將 AI 帶入了現實世界。特斯拉、Waymo 等公司推動的自動駕駛技術,正在逐步實現從輔助駕駛到完全自動駕駛的轉變。這些系統需要實時處理來自各種感測器的海量數據,並在複雜的真實環境中做出準確決策。
GPT 風潮席捲全球
AlphaGo 之後,對一般人的最大震撼就是 GPT 了。GPT 的核心 Transformer 登場時並不是很起眼,類似的研究一直都有,人們希望 AI 能記住並回應較長的文件是有困難的,遞迴神經網路(recurrent neural networks,RNN)就是在處理類似的工作,也一直有對應的技術更新,但理解跟對應較長的前後文一直是個問題,需要更多算力跟更好的算法。在翻譯或者理解文章這類工作上,一直有人在思考有沒有更好的方法可以解決,因為翻譯跟前後文的關聯性非常大!
谷歌剛好有解決這個問題的趨力,因為谷歌一直有很多用戶的翻譯系統。這個計畫研究人員最初只有 3 個,後來到了發《注意力是你所有需要的》這篇論文的時候已經有 8 個人,這麼大的技術革命只有 8 個人開始!
這篇論文石破天驚,它指出 Transformer 的基本工作原理,算法核心你可以看成這個「轉換器(Transformer)」模型是用所謂注意力機制,機器等於讀了一下,對於應該重視的地方注意,不重要的地方跳過。就有點類似人類讀書跟回話,Transformer 機制因為有「略讀」的概念,所以可以大幅減少工作時間,當然還有運算量。這論文是完全新的邏輯,這種模型工作方式可以更省工作,概念簡單,但可以做複雜的工作。
注意力機制和 Transformer 架構的創新應用,推動了 BERT、GPT 等標誌性模型的誕生。這些模型在閱讀理解、文本生成、情感分析等任務上展現出接近人類的表現,開創了 AI 領域應用的新紀元。很多人說 GPT 工作方式跟文字接龍大師一樣,概念是類似的,大概讀前面的字之後,後面再判斷後面要出什麼字。前面的字的長度是有限制的,這個窗口能容納的文字越長,大型模型越容易判讀內容。
幾乎所有算法都涉及一件事:某種程度的降低運算量。注意力機制真的做得到。Transformer 加上大型語言模型,非常簡潔有效的把「模擬人類的智慧」這件事做出來。
有趣的是,雖然是谷歌推出了這個劃時代的算法論文,但發揚光大的卻是打對台的 OpenAI。
思考鏈與現在的進展
通用 AI 一直是聖杯,但過去進展非常緩慢。但 2024 年以來比較大的進展是思考鏈(Chain of Thought,CoT) 在 AI 的應用,這讓我們比過去接近通用 AI 非常多。
舉例而言,GPT 的 o 系列模型,主要就是在應對思考。思考鏈加上強化學習 Reinforcement learning(RL),是目前比較新的技術突破點。你如果有使用 o 系列模型,你可以明顯地感知產出結果跟過去文字接龍的差別,另外所謂的 AI Agent,也就是 AI 代理的需求也會大幅下降。
思考鏈重要的訓練夥伴是強化學習。這個技術技術其實也出現一陣子了,你可以理解有賞有罰,對了就賞、錯了就罰,這樣非常像人類的學習。
最有名的案例就是 AlphaGo Zero,它跟 AlphaGo 不同的是他不用棋譜,從零開始學。世界上在 AlphaGo Zero 之前最強的模型是學了無數棋譜的 AlphaGo ,Zero 從無知到無敵基本上只花了 3 天,就打敗他的哥哥 AlphaGo。
有一個衡量通用 AI 能力的基準指數 ARC-AGI,它是由弗朗·索瓦喬萊(François Cholle)發明的。他寫了一篇論文《論智能的測量》,他認為 AGI (通用人工智慧)是一個可以在訓練資料之外有效獲得新技能的系統。比方說你作為一個智人,會知道很多事情,不會每件事情都能通過閱讀資料得來,一定有一些事情是推理結果。你不用閱讀資料,就知道被瓦斯爐燙到跟被營火燙到一樣都非常危險。這樣的知識可以遷移,你不用一直問「那被太空船引擎燙到呢?那被蠟燭燙到呢?」
但這樣的定義不夠精確,所以索瓦喬萊提出其中介紹了「通用人工智慧的抽象和推理語料庫」(ARC-AGI)基準,用於衡量人工智慧在未知任務上獲取技能的效率。講簡單點就是你可以用 ARC-AGI 來測定有多接近通用人工智慧。
之前的模型這個數字都很低,即使是非常好的模型比方說 GPT-4,已經很好用了,測量時還是很低。現在 ChatGPT-o3 的分數據說已經高達 75~87% 的位置。人類大概都可以達到 ARC-AGI 85%,所以 87% 甚至還好了一點點。要知道之前 GPT-3 跟 GPT-4 的 ARC-AGI 分數一直幾乎為 0,所以接龍跟思考並不是一樣的智慧層次。從幾乎是 0 達到 87%,這是非常驚人的突破,而這些就在 2024 年發生了。
所以我們可以說,新的一次 AI 成長期就是現在,主要是現在晶片計算能力日新月異,科學家發現神經網路過去不少的問題可以直接解決,我感覺我們只開發了其中不到 1% 的技術潛力,所以這一波的 AI 成長,在未來 2 年在思考鏈的推進之下將會到達何方,目前可說是完全看不到盡頭。
DeepSeek 橫空出世是震撼還是振奮?
2025 年 1 月,中國 AI 新創公司深度求索(DeepSeek)橫空出世,推出一款以 R1 大型語言模型為基礎的 AI 聊天機器人,宣稱其並未花大錢訓練,就能提供更低廉的成本,且功能有過之而無不及,擺明是劍指龍頭 OpenAI 而來;儘管不少科技大廠與國家都質疑其有竊取技術之嫌,但多數人對於此一消息可說是既震撼又振奮!
我雖然長期關注 AI 產業,但很晚才對 DeepSeek 有所評論。首先,我覺得關於 DeepSeek 的很多細節跟事實,要經過一段時間才被釋放出來。其次,AI 產業處於極為瘋狂的競爭環境,導致 DeepSeek 不可能在釋出後卻毫無對手的反饋,一定會有對手的反應,才會有對應的釋出。比方說非常值得討論的 GPT 深度研究這個王牌,一直到後來才被逼出來。
DeepSeek 主要的技術層面變化如下,首先它是在開源陣營,也有對應的論文做支撐,一定程度地把思考鏈的做法公開出來。DeepSeek 的突破是在較小算力完成等同成果,從這個標準來說算是執行得很成功。他們用的技術有不少已經存在,但整合起來相當精巧。
他們用了很多方法精簡化整個效能,使用所謂混合專家模型(Mixture of Experts,MoE),他們有6,710億個參數,但每個 token 只用 370 億個參數參與計算。另外使用模型蒸餾技術(Model Distillation),講通俗點就是用大模型訓練小模型。還有使用多頭潛在注意力機制(Multi-Head Latent Attention,MHLA)。多頭注意力機制已經存在一陣子,主要是同時並行的運行多個獨立的 Transfomer 注意力機制,Deepseek 對這個技術做了更多的壓縮,藉此增強資料效能。此外訓練依賴的是強化學習獎勵工程來引導模型。上述這些技術就幾件事情--壓縮運算量,在較小的算力基礎上達到等同效能。
這個目標執行得頗為成功。關於 DeepSeek 的工作細節跟文章跟邏輯非常多,但我認為較早出來的文件不是很可靠,因為它通常有幾個問題。
他們不是很清楚或理解,相關的技術整合在過去其實沒有那麼罕見,因為 DeepSeek 是用更高的效能跟非常有效的成本,把這個邏輯做出來,即便他們有滿好的強化在裡面的一些技術,但並不意味這些技術是他們所發明的。不管是模型蒸餾或是混合專家模型,都不是從天上掉下來的技術,事實上 MoE 一直是法國 Mistral AI的強項,所以這次 Mistral 可以說是首當其衝(當然他們很快就推出對應的模型更新,並號稱推論比 DeepSeek 快很多)。
再來是成本的部分。雖然宣稱只花 600 萬美金,但 DeepSeek 並未把很多前置的訓練成本計算進來,只算了最後最後的訓練成本。這在宣傳上是可以理解的,但這樣評估顯然是一種宣傳的邏輯。如果說只有花 600 萬美金,但實際上的部署費用可能達 5 億~ 10 億美元,還是用了 5 萬張GPU,算力可能等同至少有 2 萬張較高效能的卡。
600 萬美元的說法就類似那個老笑話:小資族存錢 10 年就買到房子,沒說的是自己存錢 10 年是付了 5%的頭期款,但爸媽可是出了 95% 的房貸啊!
扣除這些過度宣傳的爭議,總結 DeepSeek 最大的貢獻有以下 3 個。
第一,它因為開源(這點當然也有人在爭議),所以相對可以自行部署,也有釋出對應的開發邏輯。本身對應的論文有把它的食譜一定程度地公開,所以這對整個 AI 領域是有幫助的。
第二,它證明在這幾個大廠之外,是有可能做出來一些新的空間。本來因為 GPU 成本問題,很多比較小的科技公司都放棄了基礎模型,如今有機會重新殺入戰局。大家對於工程上的解決方案感覺多了很多可能性,這對整個市場的投資是好事。
第三個貢獻是產生漣漪效應,讓這些大廠願意比較競爭,或是釋出更多的做法。如果不是 DeepSeek 的挑戰,我們想用超便宜的谷歌 Gemini API (到 2025 年 2 月Gemini 又重新變成最便宜的API)跟 GPT 的深度研究恐怕還要很多時間。
DeepSeek 對我們最大的幫助,是讓我們了解到 AI 本體的工程解還有很大的可能性,所以不一定只能仰賴大廠,這是一個我覺得蠻好的邏輯。雖然 5 億美金還是很多,但拿得出來的人也是很多。另外做法本身也是工程優化,所以成本降了一到兩個數量級,DeepSeek 公開後很多人用類似的工程手段做出類似的模型,例如 AI 數據教母李飛飛的團隊只花了 20 美元的算力就又蒸餾出一個類似的模型,整個 AI 產業可以清楚感受到,現在可以發揮很多有趣的可能性。
最佳賣點 : AI 的歷史全景與未來競局!本書帶你回顧 AI 技術的發展歷程,解析各大陣營的策略布局與競爭優勢,揭示這場技術革命如何重塑全球格局。是深入認識 AI 演變與未來趨勢的必讀之作!