分類: AI 應用
「AI 應用」分類的 AI 新聞與論文。
-
思考機器實驗室希望讓AI模型更具一致性
思科機器實驗室(Thinking Machines Lab)憑藉兩十億美元的種子資金和前 OpenAI 研究人員組成的頂尖團隊,引發了廣泛關注。該實驗室於九日十日透過部落格文章首次公開其核心專案,旨在開發能產生可重複回應的 AI 模型。這篇標題為「擊敗大型語言模型推理中的非確定性」的文章,由研究者霍勒斯·赫(Horace He)撰寫,深入探討了導致 AI 模型回應隨機性的根本原因。文章指出,隨機性主要源於 GPU 核(GPU kernels)在推理處理過程中的編排方式,這些核是執行於 Nvidia 晶片內的小型程式。赫建議透過精確控制這一層次的協同工作,有可能使 AI 模型變得更加確定性。 實驗室認為,讓 AI 模型生成可重複的回應不僅能提升企業和科學家的使用可靠性,還能改善強化學習(RL)訓練過程。由於強化學習依賴對正確答案的獎勵,若模型回應略有不同,資料就會產生雜訊,導致訓練過程不穩定。實驗室計劃利用強化學習為企業客製化 AI 模型,並承諾頻繁發布部落格文章、程式碼等資訊,以促進公眾利益並改善內部研究文化。前 OpenAI 技術長米拉·穆拉提(Mira Murati)表示,實驗室的首款產品將在幾個月內推出,預計將對開發客製化模型的研究人員和創業公司有用。儘管實驗室估值達一兆二億美元,但其能否解決這些前沿問題並推出相應產品仍待觀察。此部落格系列名為「Connectionism」,涵蓋從核數值到多種研究主題。
-
出售給 Spotify 後,Anchor 的創辦人重返 Oboe,一款用 AI 技術學習的應用程式
前 Spotify 聯合創始人尼爾·齊赫曼(Nir Zicherman)與邁克爾·米尼亞諾(Michael Mignano)在出售最後一家創業公司 Anchor 給 Spotify 後,推出了名為 Oboe 的新專案。Oboe 是一款由 AI 驅動的教育應用程式,允許使用者只需輸入提示詞,即可建立涵蓋科學、歷史、外語、新聞、流行文化及人生轉變等主題的輕量級、靈活性高的學習課程。該名稱靈感來自日語中「學習」一詞的詞根。 Oboe 於推出時提供九種不同的課程格式,包括文字與視覺、音訊課程、遊戲、互動測驗等,旨在讓使用者以偏好的方式學習。其核心技術架構為自研的複雜多智慧體系統,各部分並行運轉,能在數秒內生成高品質且完全個人化的課程內容。這些智慧體負責開發課程架構、驗證基礎材料、撰寫播客指令碼以及從網際網路拉取真實圖片與視覺素材,而非使用 AI 生成影象。部分智慧體還會審核內容以確保準確性與高品質。 Oboe 團隊正開發推薦引擎,幫助使用者深入探索特定主題。使用者可選擇獲取淺層知識或深入學習。在價格方面,使用者可免費消費他人創作的課程,每月可免費建立五個課程。付費層級包括每月 15 美元提供額外 30 個課程的 Oboe Plus,以及每月 40 美元提供 100 個課程的 Oboe Pro。服務初期僅在網頁及移動網頁上可用,iOS 和 Android 原生應用程式即將推出。該團隊由五名全職員工組成,米尼亞諾現為風投機構 Lightspeed 的合夥人,同時擔任 Oboe 董事會成員並保留共同創辦人頭銜。Oboe 的 400 萬美元種子輪由 Eniac Ventures 領投,其他投資方包括 Haystack、Factorial Capital、Homebrew、Offline Ventures、Scott Belsky、Kayvon Beykpour、Nikita Bier、Tim Ferriss 和 Matt Lieber。
-
前谷歌X團隊成員希望其AI成為你的第二腦 并剛籌得600萬美元實現這個目標
前 Google X 科學家丹尼爾·喬治(Daniel George)與前同事史尼·唐(Sunny Tang)及馬希·卡里姆(Mahi Karim)共同創立了 TwinMind,這是一款旨在透過 AI 應用程式為使用者提供虛擬第二大腦的創新產品。該公司於 2024 年 3 月成立,近期已籌得 570 萬美元種子資金,估值達 6000 萬美元,並推出了 Android 與 iPhone 版本,同時發布了支援超過 140 種語言的 TwinMind Ear-3 語音模型。TwinMind 的核心功能在於透過純 Swift 編寫的系統服務,在使用者許可下於背景中持續捕捉環境音訊,將口頭思考、會議、講座等轉化為結構化的個人知識圖譜。其語音模型擁有 5.26% 的詞誤率與 3.8% 的說話者識別誤率,並支援即時翻譯超過 100 種語言。 該應用程式具備離線運作能力,可連續錄製 16 至 17 小時而不顯著耗電,並僅儲存轉錄文字而非原始音訊,以保護隱私。除了手機應用程式,TwinMind 還提供 Chrome 擴充功能,利用視覺 AI 掃描瀏覽器標籤頁內容,整合來自電子郵件、Slack 及 Notion 等平臺的資訊。該擴充功能曾協助公司從 854 份申請中篩選出最優秀的四名實習生。目前 TwinMind 擁有超過 30,000 名使用者,其中約 15,000 名為活躍使用者,美國為最大市場,同時在印度、巴西、菲律賓等多國獲得 traction。公司團隊現有 11 人,並計劃擴充套件設計團隊與業務發展團隊,同時推出 Pro 訂閱服務,月費 15 美元,提供高達 200 萬 token 的上下文視窗及 24 小時內郵件支援。
-
蘋果智慧:你需要知道的關於蘋果AI模型與服務的所有資訊
Apple Intelligence 於 2024 年 10 月正式進入 Apple 生態系統,旨在與 Google、OpenAI 及 Anthropic 等競爭對手抗衡,打造最佳 AI 工具。該平臺被標榜為「為我們所有人打造的 AI」,利用生成式 AI 在文字與影象生成方面的優勢來最佳化現有功能。其文字功能由大型語言模型(LLM)驅動,提供寫作工具,可用於摘要長文、校對及撰寫訊息,支援 Mail、Messages、Pages 等應用。影象功能則整合了 Genmoji 自定義表情符號及獨立應用 Image Playground。Siri 也進行了重大升級,透過螢幕邊緣發光提示狀態,並能跨應用操作,例如編輯照片後直接插入訊息。 Apple Intelligence 的首波功能於 2024 年 10 月底隨 iOS 18.1、iPadOS 18.1 及 macOS Sequoia 15.1 更新推出,初期僅支援美國英語,後續擴充至澳洲、加拿大、紐西蘭、南非、英國英語,並計畫於 2025 年加入中文、印度英語、新加坡英語、法語、德語、義大利語、日語、韓語、葡萄牙語、西班牙語及越南語。使用此功能需具備特定硬體,包括 iPhone 16 全系列、iPhone 15 Pro Max 及 Pro、iPad Pro、iPad Air、iPad mini、MacBook Air、MacBook Pro、iMac、Mac mini、Mac Studio 及 Mac Pro(M1 或更新晶片)。 Apple 採用小模型專屬訓練方式,部分任務可在裝置端執行以節省資源,複雜查詢則使用基於 Apple Silicon 的私人雲端運算。雖然曾有與 OpenAI 合作傳聞,但最終 ChatGPT 整合僅作為補充知識庫與寫作工具,於 iOS 18.2 更新中推出。Apple 亦於 WWDC 2025 宣佈視覺智慧(Visual Intelligence)與即時翻譯功能,預計於 2025 年 iOS 26 推出。此外,Apple 於 WWDC 2025 公佈基礎模型框架,允許開發者離線使用 AI 模型。關於 Siri 的進一步改進,Apple 表示需更多時間達到高品質標準,並可能因開發延遲