討論:GB 2312

此條目已被學術論文引用。該論文為：

申慶永 , 張建忠 , 何雲 , 楊潔於2007年03期發表在《計算機工程與應用》的《中文垃圾郵件過濾系統中的實時分詞算法設計》。

請同時到Wikipedia:論文中引用維基百科的內容處加入有關資料。（為免自我提及，本模板僅限於放在討論頁的頁頂，敬請留意！）

空格

GB和2312之間到底有沒有空格？--zy26 (Talk) 14:27 2005年3月22日 (UTC)

中國的國家標準化管理委員會的標準編號是有空格的，即「GB 2312」

作為經IANA所註冊的編碼表名稱，「GB2312」是沒有空格的。

--Hello World! 15:07 2005年4月13日 (UTC)

特殊符號區

文章中說GB 2312的符號區（01-09區）共有682個符號，但是另一些資料中帶有的符號數明顯大於這個數字。請問682個符號的出處是什麼地方？-- 208.53.138.212 2007年9月26日 (三) 08:01‎

1981年發佈的 GB 2312，只有 682 個符號。後來的字型標準如 GB 5007.1 和 GB 6345.1 等，在 0xA8BB–A8C0 補上 6 個拼音符號：ɑ ḿ ń ň ǹ ɡ，又在第 10 區（內碼 0xAAA1–AAFE）補充 94 個半形 ASCII 符號、在第 11 區（內碼 0xABA1–ABC0）補充漢語拼音 a, e, i, o, u, ü 的四聲半形字符 (4×6=24) 和 ê, ɑ, ḿ, ń, ň, ǹ, ɡ 的半形字符共 32 個。經這些標準添加後，符號的數目就變成了多至 814 個。至於 GB 2312 本身，從未出現過更新版，即是說，比如「鍾」誤植為「鍾」等，仍然是強制性國家標準內的一部分。-✉Hello World! 2016年4月10日 (日) 09:17 (UTC)[回覆]

按照文章的描述，GB2312應該是直接支持俄文（西里爾文）【07區】。也就是說中文系統是可以輸入輸出俄文的。但為什麼顯示或者識別的俄文都是按照漢字全形模式了？在特殊符號01~09區到底是怎麼來定義識別的方式是全形還是半角？按理英文字符是半角字符，當然我們也能看到全形的輸出，那麼俄文應該也是半角輸出。我對這個概念始終無法理解，有人清楚嗎。--125.41.17.75 2013年11月6日 (三) 07:28‎

中文字形01-09區是全形符號（後來第10區和第11區加了半形符號，見上）。西文字形沒有全形符號這回事，只有半形符號輸出。--✉Hello World! 2016年4月10日 (日) 09:02 (UTC)[回覆]

GB 2312-1980 更名 GB/T 2312-1980

在中國國家標準委官網上，寫明「根據2017年第7號公告和強制性標準整合精簡結論，自2017年3月23日起,該標準轉化為推薦性標準，不再強制執行。」Wikipedia是否可以將之更名？ NFSL2001（留言） 2020年4月3日 (五) 12:06 (UTC)[回覆]

解釋一下為何要移除某些章節

主要是條目涉及到的章節沒有可靠來源支撐（Wikipedia:BURDEN中提到「如果某一主題得不到來自可靠第三方來源來的支持，則關於該主題的條目不應出現在維基百科上。」），而這方面的內容確實是屬於只有用戶生成來源關注，並無寫入維基百科的必要（GB2312是GB2312, 通規表是通規表）。寫入百科有暗示讀者「GB2312收入了不該收入的字」這一觀點，屬於原創研究。其內容也多有不準確的潛在爭議成分（如某些對《簡化字總表》的解讀）和一些瑣碎信息等，按照Wikipedia:非原創研究的方針，有爭議無來源的內容應當移除。--Kosaraju7（留言） 2023年6月25日 (日) 10:54 (UTC)[回覆]

按照所附 GB 19966，這幾個字確實屬於不規範字（確實就是「GB2312收入了不該收入的字」），而其Unicode來源（或 GB13000/同等 ISO/IEC 10646）也只有 G0 源（即GB 2312），因此證明 Unicode 收錄該三字（瀋、鏇、鍾）是僅限來源於 GB 2312。綜合《簡化字總表》《通用規範漢字表》的「規範字」定義，可以得出「GB2312收入了不該收入的字」。「鍾」的特例是只有通用規範漢字表後期為人名使用恢復。可以參考 https://zhuanlan.zhihu.com/p/33731580 （瀋、鏇、鍾、後），https://zhuanlan.zhihu.com/p/352877265 （後、麴）， https://www.zhihu.com/question/29199314/answer/43527245 （瀋、鏇，另提鍾）都有明確指示是 GB 2312 先收錄這些不規範字。https://www.zhihu.com/question/24364602/answer/27581531 提及為什麼 GB 2312 收錄「後」。 NFSL2001（留言） 2023年6月25日 (日) 15:24 (UTC)[回覆]

我再澄清一下，我不是再討論這些是不是規範字、能不能用的問題，我的意思是，這些沒有可靠的第三方來源支撐，只有一些用戶生成的平台（如知乎等）上有相關討論（參見：維基百科:可靠來源/常見有爭議來源列表），而維基百科認為這些是不可靠來源，是不能作為佐證的，無論其說法究竟是不是可靠。事實上，GB2312是GB2312, 通用規範漢字表是通用規範漢字表，二者是性質完全不同的東西，本人並不贊同（即本人質疑）所謂的「不規範字」就不應該收錄進入編碼字符集這種說法，既然這些內容有暗示這一觀點、沒有第三方可靠來源支撐，按照維基百科的方針Wikipedia:非原創研究，受質疑沒有可靠來源支撐的內容應當移除。另外閣下提到的GB 19966, 這裡面GB 13000是20000+字，要比GB 2312大，不等同GB 2312, 所以引用這一材料屬於是原創總結。不過就算假設GB 19966直接說是GB2312收錄了錯字吧，此來源（GB 19966）屬於是國家標準文件，相關人員並非語言文字法等方面的專業人員（到底這是不是「錯字」大體是屬於這一領域專業的判定範圍），也未必是可靠的來源。--Kosaraju7（留言） 2023年6月25日 (日) 16:52 (UTC)[回覆]

另外這裡說一下另外一個話題，閣下最新的版本提到的「但是 ISO-2022-CN-EXT 最終未給國標除了 GB/T 2312 以外的其他輔助集提供逃逸字符串」感覺這是過度細節了，沒有給第二、第四輔助集提供Escape sequence的問題和GB 2312其實關係不大，我個人是不建議寫入到條目中，可能如果有總體囊括GB2312, 第二、第四輔助集或者講第二、第四輔助集的條目的話（只是假設有）再寫比較合適一些。--Kosaraju7（留言） 2023年6月25日 (日) 16:57 (UTC)[回覆]