Kafka
此條目的引用需要清理,使其符合格式。 (2020年11月2日) |
開發者 | Apache軟體基金會,領英 |
---|---|
首次釋出 | 2011年1月[2] |
目前版本 | 3.0.0(2021年9月21日 | )
原始碼庫 | |
程式語言 | Scala、Java |
作業系統 | 跨平台 |
類型 | 串流處理, 訊息中介軟體 |
授權條款 | Apache授權條款 2.0 |
網站 | kafka |
Kafka是由Apache軟體基金會開發的一個開源流處理平台,由Scala和Java編寫。該專案的目標是為處理即時資料提供一個統一、高吞吐、低延遲的平台。其持久化層本質上是一個「按照分散式事務紀錄檔架構的大規模釋出/訂閱訊息佇列」,[3]這使它作為企業級基礎設施來處理串流資料非常有價值。此外,Kafka可以通過Kafka Connect連接到外部系統(用於資料輸入/輸出),並提供了Kafka Streams——一個Java串流處理庫。
Kafka的歷史
[編輯]Kafka最初是由領英開發,並隨後於2011年初開源,並於2012年10月23日由Apache Incubator孵化出站。2014年11月,幾個曾在領英為Kafka工作的工程師,建立了名為Confluent的新公司,[5],並著眼於Kafka。根據2014年Quora的貼文,Jay Kreps似乎已經將它以作家弗朗茨·卡夫卡命名。Kreps選擇將該系統以一個作家命名是因為,它是「一個用於最佳化寫作的系統」,而且他很喜歡卡夫卡的作品。[6]
Kafka的架構
[編輯]Kafka儲存的訊息來自任意多被稱為「生產者」(Producer)的行程。資料從而可以被分配到不同的「分割區」(Partition)、不同的「Topic」下。在一個分割區內,這些訊息被索引並連同時間戳儲存在一起。其它被稱為「消費者」(Consumer)的行程可以從分割區查詢訊息。Kafka執行在一個由一台或多台伺服器組成的叢集上,並且分割區可以跨叢集結點分布。
Kafka高效地處理即時串流資料,可以實現與Storm、HBase和Spark的整合。作為群集部署到多台伺服器上,Kafka處理它所有的釋出和訂閱訊息系統使用了四個API,即生產者API、消費者API、Stream API和Connector API。它能夠傳遞大規模串流訊息,內建容錯功能,已經取代了一些傳統訊息系統,如JMS、AMQP等。
Kafka架構的主要術語包括Topic、Record和Broker。Topic由Record組成,Record持有不同的資訊,而Broker則負責複製訊息。Kafka有四個主要API:
- 生產者API:支援應用程式釋出Record流。
- 消費者API:支援應用程式訂閱Topic和處理Record流。
- Stream API:將輸入流轉換為輸出流,並產生結果。
- Connector API:執行可重用的生產者和消費者API,可將Topic連結到現有應用程式。
相關術語
[編輯]- Topic 用來對訊息進行分類,每個進入到Kafka的資訊都會被放到一個Topic下
- Broker 用來實現資料儲存的主機伺服器
- Partition 每個Topic中的訊息會被分為若干個Partition,以提高訊息的處理效率
- Producer 訊息的生產者
- Consumer 訊息的消費者
- Consumer Group 訊息的消費群組
設計目標
[編輯]Kafka的效能
[編輯]由於其廣泛整合到企業級基礎設施中,監測Kafka在規模執行中的效能成為一個日益重要的問題。監測端到端效能,要求跟蹤所有指標,包括Broker、消費者和生產者。除此之外還要監測ZooKeeper,Kafka用它來協調各個消費者。[7][8]目前有一些監測平台可以追蹤Kafka的效能,有開源的,如領英的Burrow;也有付費的,如Datadog。除了這些平台之外,收集Kafka的資料也可以使用工具來進行,這些工具一般需要Java,包括JConsole。[9]
Consumer Group
[編輯]Kafka檔案格式
[編輯]00000000000000000000.index 00000000000000000000.log 00000000000000000000.timeindex 00000000000000782248.snapshot leader-epoch-checkpoint
使用Kafka的企業
[編輯]下面的列表是曾經或正在使用Kafka的知名企業:
參見
[編輯]參考資料
[編輯]- ^ GitHub仓库镜像. [2014-04-09]. (原始內容存檔於2020-08-16).
- ^ Open-sourcing Kafka, LinkedIn's distributed message queue [開源的Kafka,LinkedIn的分散式訊息佇列]. [2016-10-27]. (原始內容存檔於2021-01-11).
- ^ Monitoring Kafka performance metrics [監控Kafka效能資料]. Datadog官方部落格. [2016-05-23]. (原始內容存檔於2020-11-08) (英語).
- ^ The Log: What every software engineer should know about real-time data's unifying abstraction [The Log: What every software engineer should know about real-time data's unifying abstraction]. 領英官方部落格. [2014-05-05]. (原始內容存檔於2014-03-17) (英語).
- ^ Primack, Dan. LinkedIn engineers spin out to launch 'Kafka' startup Confluent [領英工程師推遲釋出Kafka啟動Confluent]. [2015-02-10]. (原始內容存檔於2020-10-22) (英語).
- ^ What is the relation between Kafka, the writer, and Apache Kafka, the distributed messaging system? [作家卡夫卡和Apache Kafka那個分散式訊息系統之間有什麼關係?]. [2017-06-12] (英語).
- ^ Monitoring Kafka performance metrics [監測Kafka效能指標]. 2016-04-06 [2016-10-05]. (原始內容存檔於2020-11-08) (英語).
- ^ Mouzakitis, Evan. Monitoring Kafka performance metrics [監測Kafka效能指標]. 2016-04-06 [2016-10-05]. (原始內容存檔於2020-11-08) (英語).
- ^ Collecting Kafka performance metrics - Datadog [收集Kafka效能指標-Datadog]. 2016-04-06 [2016-10-05]. (原始內容存檔於2020-11-27) (英語).
- ^ More data, more data [更多資料,更多資料]. [2017-12-22]. (原始內容存檔於2018-10-21) (英語).
- ^ Kafka Usage in Ebay Communications Delivery Pipeline [Kafka在Ebay通訊傳遞管道中的用途]. [2017-12-22]. (原始內容存檔於2019-02-16) (英語).
- ^ Doyung Yoon. S2Graph : A Large-Scale Graph Database with HBase [S2Graph:基於HBase的大規模圖形資料庫]. [2017-12-22]. (原始內容存檔於2016-03-09) (英語).
- ^ Cheolsoo Park and Ashwin Shankar. Netflix: Integrating Spark at Petabyte Scale [Netflix:在Pb級規模整合Spark]. [2017-12-22]. (原始內容存檔於2016-03-04) (英語).
- ^ Shibi Sudhakaran of PayPal. PayPal: Creating a Central Data Backbone: Couchbase Server to Kafka to Hadoop and Back (talk at Couchbase Connect 2015) [PayPal:建立中心資料骨幹:Couchbase Server到Kafka到Hadoop和Back(在Couchbase Connect 2015上的講話)]. Couchbase. [2016-02-03]. (原始內容存檔於2016-09-17) (英語).
- ^ Josh Baer. How Apache Drives Spotify's Music Recommendations [Apache如何驅動Spotify的音樂推薦]. [2017-12-22]. (原始內容存檔於2016-03-09) (英語).
- ^ Streaming Messages from Kafka into Redshift in near Real-Time [從Kafka到Redshift的串流訊息接近於即時]. Yelp. [2017-07-19]. (原始內容存檔於2017-06-03) (英語).
- ^ Boerge Svingen. Publishing with Apache Kafka at The New York Times [在紐約時報使用Kafka進行出版]. [2017-09-19]. (原始內容存檔於2017-09-17) (英語).
- ^ OpenSOC: An Open Commitment to Security [OpenSOC:一份公開的安全承諾]. 思科部落格. [2016-02-03]. (原始內容存檔於2016-03-09) (英語).
- ^ Apache Kafka for Item Setup [Kafka用於專案設定]. medium.com. [2017-06-12]. (原始內容存檔於2019-05-03) (英語).
- ^ Stream Processing in Uber [優步的串流處理]. InfoQ. [2015-12-06]. (原始內容存檔於2015-12-05) (英語).
外部連結
[編輯]- Apache Kafka網站(頁面存檔備份,存於網際網路檔案館)(英文)
- 專案設計討論(頁面存檔備份,存於網際網路檔案館)(英文)
- Github鏡像 (頁面存檔備份,存於網際網路檔案館)
- Morten Kjetland對Apache Kafka的介紹(頁面存檔備份,存於網際網路檔案館)(英文)
- Quora上與RabbitMQ的對比(英文)
- Kafka開發者郵寄清單中與RabbitMQ的對比(頁面存檔備份,存於網際網路檔案館)(英文)
- Stackoverflow上與RabbitMQ和ZeroMQ的對比(頁面存檔備份,存於網際網路檔案館)(英文)
- Apache Kafka中的叢集內部回應(頁面存檔備份,存於網際網路檔案館)(英文)
- Kafka使用者郵寄清單討論(英文)