來源:@21世紀商業(yè)評論微博
記者|楊松
編輯|鄢子為
8月底,在北京一家餐廳,《21CBR》記者見到跨維智能創(chuàng)始人賈奎??蒲?、教學、創(chuàng)業(yè)……他的日程表排得滿滿當當。
“晚上10點前,我都有事情做。”他創(chuàng)業(yè)后,工作量大增。
賈奎是學者型創(chuàng)業(yè)者。他畢業(yè)于倫敦大學,獲得計算機科學博士學位,曾在多家高校執(zhí)教,是人工智能、計算機視覺等領域專家,發(fā)表論文百余篇,在TIP、TMLR等學術期刊擔任副主編。
2021年6月,賈奎創(chuàng)立跨維智能。從學者到創(chuàng)業(yè)者,從技術到產業(yè),賈奎稱,轉型有兩個原因:
一是,近年來,AI“大廠”以豐厚的算力、數(shù)據資本發(fā)力,學界有滯后于產業(yè)界的趨勢。
二是自己也想嘗試新方法?!皩W術上,只要論證長期有用就行了,而企業(yè)的創(chuàng)新,要產生真正的社會價值,要考慮針對的人群,滿足的需求,產品的功能、性價比等因素?!?/p>
賈奎帶領的跨維智能團隊,研發(fā)人員占比達70%以上,核心團隊成員多擁有頂尖高校人工智能專業(yè)博士、碩士學歷。
以自研的DexVerse?具身智能引擎為技術底座,跨維智能已形成包括純視覺空間與具身智能傳感器、新一代機器人控制器、PickWiz軟件、高精度通用移動操作機器人等在內的產品矩陣,并實現(xiàn)商業(yè)落地。
賈奎坦言,每天都在思考,產品如何卡準位置,實現(xiàn)商業(yè)化。
以下為其自述,經整理:
歸國創(chuàng)業(yè)
2016年,我啟程回國,進入華南理工大學,做計算機視覺方面的研究。
彼時,在人臉識別、圖像理解領域,國內“AI四小龍”做得很好。
我選擇了一條小眾賽道,將人工智能技術應用于三維空間。圖像是一個二維平面,三維就像一個杯子,是曲面、不規(guī)則圖像。如何處理這樣的信號?
這需要運用機器學習、計算機視覺、圖形學、機器人等交叉學科的知識。直至2015年,學術界才開始研究此類問題。
早期,團隊成立了“幾何感知與智能實驗室”。當時,大廠尚未涉足這一領域,我們是國內最早將AI應用到三維空間的團隊。
文本、圖像,是二維的,互聯(lián)網上有現(xiàn)成的海量數(shù)據(維權)。三維空間,是立體的,包含位置、角度、尺寸等信息,需要精準標定,不能采用之前的方式獲取數(shù)據。
舉個例子,如果目標是讓機器人抓取世界上任何一個鼠標,團隊就需要集合成千上萬、甚至世界上所有鼠標的數(shù)據。這意味著,實驗室需要從早到晚,去不同的環(huán)境里采集數(shù)據。
Sim2Real是適合空間智能、具身智能、機器人的范式,借助物理引擎、物理仿真,它能夠自動計算、自動生成數(shù)據,來訓練大模型。
就是說,鼠標上面的顏色、紋理、材質,全部是解耦的。在引擎空間,你只用改變材質空間參數(shù),就可以把一個木頭鼠標變成金屬的。
到了2020年,我發(fā)現(xiàn),做AI研究,需要足夠多的算力、數(shù)據以及場景,高校能做的事情有限,不如大廠。
隨著技術逐步成熟,我于2021年開啟創(chuàng)業(yè)之路。創(chuàng)業(yè)三年多,我逐漸適應了企業(yè)家身份。
初期,我像一個學者;現(xiàn)在,更看重商業(yè)化場景,解決客戶痛點才是最重要的。
創(chuàng)業(yè)艱難,我每天都在踩坑。碰到問題后,在實踐中學習。
經過多年歷練,我的能力變得更綜合、全面,臉皮厚了。有些性格弱點,克服不了的,可以通過其他人彌補,認清自己,有所不為,有所不能。
沿途下蛋
團隊研究的技術方向,跟具身智能、空間智能有關。
我們一開始就是按照Sim2Real(simulation to reality,從仿真到現(xiàn)實)的方式,希望通過智能的“眼睛”,感知空間,實現(xiàn)通用的技能。
一家公司的CEO,需要具備技術洞察力,選擇恰當?shù)募夹g路徑,針對某個場景或痛點,拿出解決方案。在走訪一系列應用領域后,我選擇從智能制造開始。辦公司、在大廠上班與教書,是三種完全不同的生活。我既要找準商業(yè)化場景,也要找到合伙人。
跨維智能聯(lián)合創(chuàng)始人吳迪,是相機硬件專家,曾在華為、騰訊等公司工作,擁有十余件發(fā)明專利。依托原有經驗及技術積淀,跨維推出了一系列3D成像和感知設備。
做銷售業(yè)務,需要找有經驗的。聯(lián)合創(chuàng)始人解銳,是一名連續(xù)創(chuàng)業(yè)者,曾擔任動視云科技聯(lián)合創(chuàng)始人,為通信、云計算與人工智能領域專家。
幾人組團創(chuàng)業(yè),致力于給機器人安裝智能“眼睛”,提升空間感知能力,錘煉智慧的“大腦”,習得“具身智能”技能。
沿著這條路徑走,我們逐步實現(xiàn)了規(guī)模化商業(yè)落地。
目前,在多個商業(yè)場景中,跨維智能已經實現(xiàn)了利用100%合成數(shù)據,在毫米/亞毫米的操作精度要求下,達到99.9%以上的任務成功率。
在虛擬空間層面,我們不斷錘煉“大腦”——底層自研的DexVerse?具身智能引擎。這是公司的技術底座。
在工業(yè)和一些商業(yè)場景中,我們已實現(xiàn)了無需研發(fā)人員介入的自動化操作。只需輸入一個操作對象,系統(tǒng)就能自動生成數(shù)據、標注計算,并在線傳遞給相應的AI模型進行訓練。
整個過程無需存儲數(shù)據,高效且精準,是當前實現(xiàn)具身智能通用化技能的最佳路徑之一。
我們還持續(xù)升級“眼睛”——純視覺空間智能傳感器。
傳統(tǒng)的3D相機,需要光線投射,才能獲得3D信號,作用距離有限,且容易受環(huán)境光的影響而跨維自研的純視覺空間智能傳感器,利用兩個相機從不同角度捕捉圖像,可以在復雜或半室外強光條件下成像,提升視覺系統(tǒng)的穩(wěn)定性。
其最快可以實現(xiàn)每秒30幀頻率,接近人眼感知世界的方式。
這套3D成像和感知設備,可以安裝在機器人身上,適配主流機械臂與機器人,指揮其在工業(yè)和商業(yè)場景里運作。
以終為始
上一代的控制器,做一個從A點到B點的簡單動作,都需要機器人工程師單獨寫個程序。它沒有眼睛,通過特定程序,精確地做動作。
新一代機器人控制器,像人一樣有大腦、眼睛,可以指揮胳膊和手的動作,理解自然語言。
我們在研的新一代機器人控制器,有眼睛,還能通過自然語言的方式溝通,自動理解任務,并將其轉換成機器人可以執(zhí)行的代碼。
其將會落地兩個場景:工業(yè)柔性裝配和室內清潔操作。
在工業(yè)柔性裝配領域,即使要抓取的東西是無序的,Ropilot也可以指揮機械臂去完成動作。
如果機器人需要做好幾個動作,比如把內存條插入電腦,中間有幾根線擋著,其也能靈巧地撥開線,完成任務。
舉個例子,目前室內掃地機器人沒有胳膊,只能在地上操作?;赗opilot產品,其在酒店場景下,可以完成清掃馬桶、更換牙刷等復雜動作。
終端客戶不關心技術路線,重視價格。
市場上存在著大量人不愿意干或者不能干的場景。現(xiàn)在,年輕人寧愿送外賣,也不去工廠干活。這種情況下,客戶有強烈的需求,將機器人變得自動化、智能化、無人化。
這是一個不可逆轉的趨勢。
商業(yè)變現(xiàn)上,跨維智能出售成像感知套件,供應給集成商,安裝到機械臂、靈巧手上,再應用到家電、汽車零部件等行業(yè)。
隨著能力的增強,公司未來能夠支撐更多機器人的技能,這個市場會越來越大,工業(yè)、農業(yè)、商業(yè)……人類總是希望智能體在生活中輔助我們。
為什么用具身智能的范式做傳統(tǒng)的事?因為它是剛需,是痛點。
公司預計,今年營收可達數(shù)千萬元人民幣,下一年有望過億。
對一個CEO來說,最重要的是具備洞察力,選擇合適的技術路徑,找到志同道合的人,把產品做出來。
對一個企業(yè)來說,永遠的話題是:下一個利潤增長點在哪里?要找到有決定價值的商業(yè)場景,在關鍵時間節(jié)點,找清自己的生態(tài)位,每一步都要看準。
發(fā)表評論