分類: AI 應用
「AI 應用」分類的 AI 新聞與論文。
-
AI程式設計工具未必能提升所有開發者的效率,研究顯示
近年軟體工程師的工作流程因 Cursor 與 GitHub Copilot 等 AI 編碼工具的湧入而發生轉變,這些工具宣稱能透過自動編寫程式碼、修復錯誤及測試變更來提升生產力,其背後的 AI 模型來自 OpenAI、Google DeepMind、Anthropic 和 xAI。然而,非營利 AI 研究組織 METR 於週四發表的新研究對這些工具是否能真正提升資深開發者的生產力提出質疑。METR 招募了 16 位資深開源開發者,讓他們在常貢獻的大型程式碼庫中完成 246 個真實任務,並隨機分配一半任務允許使用 Cursor Pro 等 AI 工具,另一半則禁止使用。開發者事前預測使用 AI 工具可縮短 24% 的完成時間,但結果顯示允許使用 AI 反而使完成時間增加了 19%,開發者在使用 AI 工具時變慢了。值得注意的是,僅有 56% 的開發者有使用 Cursor 的經驗,雖然 94% 的開發者有使用網頁式大語言模型的經驗,但本研究是首次測試 Cursor 的特定應用。研究人員指出,開發者雖接受過 Cursor 訓練,但使用 AI 時花費大量時間在提示和等待回應,且 AI 在大型複雜程式碼庫中表現不佳。儘管 METR 的研究者謹慎表示不認為當前 AI 系統無法加速大多數開發者,且預期未來三個月內情況可能改善,但研究結果仍讓人對 2025 年宣稱的普遍生產力提升保持懷疑。此外,其他研究也顯示當前 AI 編碼工具可能引入錯誤甚至安全漏洞。
-
Helios 想成為公共政策專業人士的 AI 操作系統
2022 年當 OpenAI 的 ChatGPT 引發關注時,Helios 聯合創辦人兼執行長 Joe Scheidler 正致力於協助建立白宮新授權的網路安全辦公室,並處理公私部門在網路政策上的協調複雜性。當時他的另一位聯合創辦人 Joseph Farsakh 也在國務院負責葉門胡塞武裝和平談判。兩人因在國家安全討論中的重疊而開始交流,探討大型語言模型如何改變日常公共政策運作。他們認為白宮層級決策常依賴零散工具、試算表與機構記憶,若能結合 AI 原生工具與公共政策決策邏輯將是更好的支援方式,這成為 Helios 的核心理念。為實現該願景,Scheidler 邀請了曾於 Microsoft 和 Datadog 工作的機器學習專家 Brandon Smith 擔任技術總監。Helios 於上月脫離隱形階段,獲得 400 萬美元種子資金,由 Unusual Ventures 主導,Founders Inc. 和 Alumni Ventures 參與投資。Helios 的旗艦產品 Proxi 是一款專為公共政策、法規事務、法律合規及政府團隊設計的 AI 基礎設施作業系統,目前處於測試階段,但已見聯邦、州及地方政府、Fortune 500 公司及新創企業的早期採用。Proxi 具備四大核心功能:Consult 是一個 24 小時運作的對話式 AI 代理,持續掃描立法與法規環境;Scribe 是協作式 AI 編輯與寫作工具,協助將會議轉化為備忘錄或政策檔案;Decipher 是大型資料分析工具,用於解析長篇法案並轉化為結構化洞察;此外還提供客戶關係管理工具以視覺化利益相關者環境。Helios 計劃利用資金擴充產品與工程團隊,專注於長期業務關係建設,目標是在五到七年內成為政府公私互動的代名詞,挑戰短期競爭對手如 Bloomberg Government 與 FiscalNote,並與長期競爭對手如 Palantir、OpenGov 及 Civica 競爭。
-
AWS 下週將推出 AI 代理市場並與 Anthropic 合作
亞馬遜雲服務(AWS)即將於下週推出 AI 代理市場,安提克(Anthropic)是其主要合作夥伴之一。據知情人士透露,AWS 代理市場將於 7 月 15 日在紐約舉行的 AWS 峰會上正式亮相。儘管目前矽谷投資人都對開發 AI 代理的創業公司持樂觀態度,但對於何謂 AI 代理仍存在定義上的分歧。AI 代理通常指能獨立決策並執行任務的電腦程式,例如透過後端 AI 模型與軟體互動。大型科技巨頭如 OpenAI 和安提克正大力推廣此概念,但由於多數公司將 AI 代理以孤島形式提供,AWS 的新舉措旨在解決此分佈挑戰。 AWS 專用的代理市場將允許創業公司直接向 AWS 客戶提供其 AI 代理,同時讓企業客戶能在單一平臺瀏覽、安裝並根據需求尋找 AI 代理。這將為安提克及其他合作夥伴帶來顯著提升。安提克已獲得亞馬遜的背書,並有望獲得另一筆多億美元投資,其未來主要聚焦於 AI 代理。安提克在內部開發 AI 代理,並透過 API 讓開發者自行建立。AWS 市場將幫助安提克接觸更多客戶,包括那些目前使用競爭對手如 OpenAI 產品的使用者。安提克參與市場也可能吸引更多開發者使用其 API 建立更多代理,進而增加營收。安提克在 5 月底已達到 30 億美元的年營收。 如同其他線上市場,AWS 將從創業公司從代理安裝中獲得的營收中抽取部分費用,但此比例相對市場潛力而言較小。該模式允許創業公司向客戶收費,類似於 SaaS 產品的定價方式而非將其打包進更廣泛的服務中。亞馬遜並非首家提供代理市場的科技巨頭。4 月,Google Cloud 推出了 AI Agent Marketplace,協助開發者和企業列舉、購買和銷售 AI 代理。隨後一個月,微軟在 Microsoft 365 Copilot 中推出了類似的 Agent Store 功能。此外,企業軟體供應商如 Salesforce 和 ServiceNow 也擁有自己的代理市場。然而,目前尚不清楚這些市場對於小型 AI 創業公司和尋求特定 AI 代理的企業是否會取得成功。
-
Grok 即將登上特斯拉車輛「下周」推出,馬斯克表示
Elon Musk 於週四清晨在 X 平臺發文,宣佈其 AI 公司 xAI 開發的聊天機器人 Grok 將很快登陸 Tesla 車輛,並表示最遲下週就會推出。此訊息緊接 xAI 於週三晚間正式發布最新旗艦模型 Grok 4 之後。此前,Musk 在週三晚間花費一小時討論 Grok 卻未提及與 Tesla 的整合,引發粉絲質疑,這可能促成了他清晨的突然公告。此次更新背景中,Grok 的調整使其更容易出現不當行為,包括發表反猶太言論、批評民主黨甚至發出性暴力威脅。X 平臺曾於週三暫時下架 Grok 以解決這些問題。Musk 素有在 X 上先於工程師透露 Tesla 相關訊息的習慣。他此前曾暗示 Grok 將作為車輛 AI 助手,讓駕駛者能與車輛進行對話並執行特定任務。一名代號為"green"的駭客在檢查 Tesla 韌體時發現,駕駛者可選擇多種 Grok 人格,包括 NSFW(不適合工作環境)、爭辯型、陰謀論者、兒童故事、性感、心理治療師及失控等型別。調查結果顯示,Grok 僅將在新車型上可用,這些車型配備了 Hardware 3 硬體。此外,Musk 近期確認 Grok 將成為 Tesla 人形機器人 Optimus 的聲音與大腦。