Ngôn ngữ nào có số lượng từ vựng lớn nhất?

The biggest vocabulary?

There's no meaningful way to show that "English has the most words of any language"

STEPHEN FRY, whom I always enjoy, makes a claim (at about 6:10 of the video)

[English] certainly has the largest vocabulary ... by a long, long, long long, way. Rather as China is to the rest of the world in population, English is in the population of its words.

Is that true, a friend e-mails me to ask?

There's a longish answer. For the summary version, skip to the end. For the really short version, though, the answer is "Sorry, Mr Fry." English is certainly rich in vocabulary, but this claim is nearly always made by enthusiastic lovers of English who don't really know how the many varieties of language beyond English work. It's not that another language has more words. The comparison simply can't be made in any agreed apples-to-apples way. 

The simplest problem is inflection.  Do we count "run", "runs" and "ran" as separate?  The next problem is multiple meanings. "Run" the verb and "run" the noun:  one or two? What about "run" as in the long run of a play on Broadway?  Different enough from a jog around the park for its own entry? Different enough from a run in cricket?

Do we count compounds?  Is "home run" one word or two?  Are the names of new chemical compounds, which could virtually infinite, words?  What role does mere orthographic convention play? Is "home run" two words, but "homerun" (as it's often written) one? What sense does that make?

These may seem to be quibbles, but discussing other languages, they become fundamental. Some languages inflect much more than English. The Spanish verb has dozens of forms—estoyestásestá, "I am," "you are," "he is" and so on.  Some languages inflect much less. (Chinese is famously ending-free). So whether we count inflected forms will have a huge influence on final counts.

Moreover, many languages habitually build long words from short ones. German is obvious; it is a trifle to coin a new compound word for a new situation, as mentioned here. Are compounds new words?  Is the German Unabhängigkeitserklärung, "declaration of independence", one word? It's certainly written that way in German. Given the possibilities for compounds, German would quickly outstrip English, with new legitimate German "words", which Germans would accept without blinking, coined every day.

Just one quick glance at the Frankfurter Allgemeine Zeitung's home-page finds Abschiedsvorstellung ("leave-taking performance", about South Africa putting on a display for the departing French in the World Cup), Weltmarktführer ("world market leader"), Stromtarifrechner("electricity bill calculator")  and so on. There's no reason to say "it's incredible how the Germans have a word for 'leave-taking performance'," because to create such words ad hoc is banal in German.

This is even truer for Turkish, mentioned in that posting above. It not only crams words together but does so in ways that make whole, meaningful sentences. "Were you one of those people whom we could not make into a Czechoslovak?" translates as one word in Turkish. We write it without spaces, pronounce it in one breath in speaking, it can't be interrupted with digressions, and so forth.  

So Turkish and German and a host of others like them have "more words" than English. And no fair disallowing Turkish and German's flexible word-coinage. If we do that, we have to throw out English compounds, too; no "shoelace", "windowsill", "phrasebook", "boatswain" and so on. We'd also have to throw out foreign-derived compounds like "television" and "geography". A mess. 

What about a claim like "English has more basic words" or "word roots" or some such?  Now we're in the territory of what linguists call "morphemes", usable roots or pieces of words. But in the domain of morphemes we also have to include "un-" as a morpheme, and "methyl-" and many other things that traditionalists wouldn't include under "words", and it's not at all clear English has the largest number of them either.

Meanwhile, this disadvantages the Semitic languages like Arabic and Hebrew. They use a smallish number of three-letter roots to coin huge numbers of words. ktb has the basic "to write", but it generates at least 30 words (many of them, like verbs, inflecting into many more forms still). These take up two full pages in my dictionary, from katib, "writer", to istiktab, "dictation". So counting only "roots" or "basic words" gets us nowhere either, since counting ktb just once would be senseless.

What if we just asked "which language has the biggest dictionary?"  Again, that will differ for many reasons unrelated to lexical richness. Which country has the best-developed dictionary industry? The best archives? Do you count obsolete words? Dialectal ones? How many scientific words are included? Going back to our foreign languages, Germans don't put Stromtarifrechner in the dictionary because its meaning is easily pieced together from its parts, and including every plausible compound would make the dictionary the size of the Encyclopedia Galactica. (I could coin a new word right now: Wortschatzprahlerei, "vocabulary boasting", to describe what Mr Fry was up to.)  Spanish dictionaries won't have separate entries for "estoy" and "estás". 

Chinese people don't even deal primarily with our concept of "word"—their basic unit is the single one-syllable character, even though these are quite often combined into words. Zhongguo (中国) is "China".  You can't just go looking for "Zhongguo" in the dictionary, though. You look up zhong (中, middle), and the entry will tell you what 中 combines with to get different meanings. Part of Chinese education is learning what characters mean when used together. They are printed with no spaces. Does that mean Zhongguo isn't a word?

We could go on in this vein for quite a while, but that will do for now. If I had to give a short answer to the question "does English have the biggest vocabulary?," I'd say "Who cares?" English is a rich and beautiful language, not least because England has been conquered by Vikings and Normans, and has happily been open to foreign influence through its history.

We know more of its wonderful rare words because English has been written for over a thousand years, and its many dialects are well described. That's good enough for me.  We shouldn't need it to have the biggest vocabulary—which can't be defined in any sensible way—to enjoy it.

Source: The Economist


Nguồn từ vựng lớn nhất?

Không có cách diễn đạt nào đầy đủ ý nghĩa để thể hiện rằng "Tiếng Anh có nhiều từ vựng hơn bất kỳ ngôn ngữ nào khác"

STEPHEN FRY, người tôi luôn mến mộ, đã đưa ra một lời tuyên bố (ở khoảng phút 6:10 của video)

[Tiếng Anh] chắc hẳn có nguồn từ vựng lớn nhất ... tạo thành bởi một phương pháp rất, rất, rất dài. Thay vì như Trung Quốc là phần còn lại của thế giới về dân số (đông dân), tiếng Anh "đông" về số từ ngữ của nó.

Điều đó có đúng không, một người bạn đã gửi mail hỏi tôi?

Câu trả lời thì rất là dài dòng. Để tóm gọn lại, chúng ta nên nhảy luôn qua phần kết. Mặc dù vậy, câu trả lời thật sự ngắn gọn là "Rất tiếc, thưa ông Fry." tiếng Anh dĩ nhiên là giàu về từ vựng nhưng tuyên bố này gần như luôn luôn được phát biểu bởi những người có lòng đam mê nhiệt tình với tiếng Anh, những người không thật sự biết rõ nhiều trạng thái muôn màu muôn vẻ của ngôn ngữ vượt xa tiếng Anh. Điều đó không có nghĩa rằng có một ngôn ngữ khác có nhiều từ vựng hơn. Sự so sánh này đơn giản là không thể khép vào bất kỳ phép so sánh hợp lý nào được.

Vấn đề dễ thấy nhất là biến tố. Liệu chúng ta có thể tính những từ "run", "runs" và "ran" là riêng biệt? Vấn đề kế tiếp là từ đa nghĩa. "Run" động từ và "run" danh từ: tính là một hay hai từ? Còn từ "run" trong cụm 'in the long run of a play on Broadway' (kết quả sau cùng của một vở kịch ở Broadway) thì sao? Liệu có đủ khác biệt với từ "run" trong việc chạy bộ quanh công viên để tìm cổng vào không? Đủ khác biệt với từ "run" (cú ghi điểm) trong môn cricket không?

Chúng ta tính luôn cả từ ghép được không? "home run" (thuật ngữ trong bóng chày/thành công ấn tượng) là một hay hai từ? Liệu tên của những phức hợp hóa học mới gần như là vô hạn có tính là các từ? Chẳng qua quy ước chính tả đóng vai trò gì? Có phải "home run" là hai từ nhưng "homerun" (cách viết thường dùng) là một từ? Chúng làm nên ý nghĩa gì?

Đây có vẻ như đang nguy biện nhưng khi bàn luận những ngôn ngữ khác, chúng lại trở thành những nguyên tắc cơ bản. Một số ngôn ngữ biến hóa còn nhiều hơn cả tiếng anh nhiều. Tiếng Tây Ban Nha có hàng tá hình thái—estoy, estás, está, "tôi là," "bạn là," "anh ấy là" và v.v. Một số ngôn ngữ lại biến hóa ít hơn. (Tiếng Trung Quốc nổi tiếng là không có âm kết thúc). Vậy liệu chúng ta có tính những hình thái biến tố sẽ ảnh hưởng lớn đến tổng số từ cuối cùng hay không.

Hơn thế nữa, nhiều ngôn ngữ tạo dựng những từ dài từ những từ ngắn. Tiếng Đức là một ví dụ hiển nhiên: nó là một thành phần nhỏ để tạo ra một từ ghép mới dùng trong một tình huống mới, như được đề cập ở đây. Những từ ghép có phải là từ ngữ mới không? Từ tiếng Đức Unabhängigkeitserklärung, "bản tuyên ngôn độc lập", có phải là một từ? Nó chắc hẳn phải được viết như vậy trong tiếng Đức. Nêu ra những khả năng về từ ghép, tiếng Đức sẽ nhanh chóng vượt xa tiếng Anh, với "những từ ngữ" chính thống mới của tiếng Đức, tiếng Đức được tạo mới và thừa nhận mỗi ngày mà không hề ngắt quãng.

Chỉ cần một cái liếc nhanh qua trang chủ của Frankfurter Allgemeine Zeitung tìm kiếm Abschiedsvorstellung ("buổi biểu diễn tiễn biệt", về việc Nam Phi phô trương "tiễn" Pháp rời World Cup), Weltmarktführer ("người dẫn đầu thị trường thế giới"), Stromtarifrechner ("máy tính hóa đơn điện") và v.v. Chẳng có lý do gì để nói "cái cách người Đức có một từ để diễn tả "buổi biểu diễn tiễn biệt" thật là lạ thường," bởi vì để tạo ra những từ đặc biệt như vậy là chuyện bình thường trong tiếng Đức.

Điều này thậm chí còn đúng hơn khi xét tới tiếng Thổ Nhĩ Kỳ, đã đề cập trong bài viết trên. Thứ tiếng này không chỉ nhồi đầy các từ lại với nhau mà còn áp dụng phương thức đó để tạo những câu hoàn chỉnh, đầy đủ ý nghĩa. "Có phải bạn là một trong số những người mà chúng tôi không thể khiến trở thành một Czechoslovak?" dịch thành một từ trong tiếng Thổ Nhĩ Kỳ. Khi viết từ đó, chúng ta không để khoảng cách, phát âm từ đó trong một hơi, từ đó không bị ngắt quãng do lạc đề, và v.v.

Vậy tiếng Thổ Nhĩ Kỳ và tiếng Đức, cũng như đại diện của những ngôn ngữ khác tương tự như vậy đều có "nhiều từ" hơn tiếng Anh. Và như vậy là không công bằng khi không công nhận những từ ngữ linh hoạt mới được tạo của tiếng Đức và tiếng Thổ Nhĩ Kỳ. Nếu chúng ta làm như thế, chúng ta cũng phải vứt bỏ những từ ghép trong tiếng Anh; không "dây giày", không "ngưỡng cửa sổ", không "sách cụm từ và thành ngữ", không "viên quản lý neo buồm" và v.v. Chúng ta cũng phải ném đi những từ ghép vay mượn từ tiếng nước ngoài như "ti vi" và "địa lý học". Một mớ hỗn độn.

Một hoặc một số luận điệu như là "tiếng Anh có nhiều từ cơ bản" hay "gốc từ" hơn thì sao? Hiện tại chúng ta đang trong phạm vi mà các nhà ngôn ngữ học gọi là "hình vị", những gốc từ khả dụng hoặc các mảnh của từ. Nhưng trong lĩnh vực của các hình vị chúng ta cũng có thể tính "un-"(không) là một hình vị, và "methyl-" cũng như nhiều thứ khác mà những người theo chủ nghĩa truyền thống sẽ không kể đến dưới cái danh "từ ngữ", và có phải tiếng Anh có số lượng các hình vị lớn nhất hay không vẫn là điều chưa hoàn toàn rõ ràng.

Trong khi đó, những bất lợi này những ngôn ngữ hệ Xê-mít như tiếng Ả-rập và tiếng do Thái. Họ sử dụng một con số nho nhỏ các gốc từ 3 ký tự để tạo ra một số lượng lớn các từ. ktb có nghĩa cơ bản là "viết" (động từ), nhưng những từ phát sinh từ gốc này có ít nhất là 30 từ (nhiều từ trong số đó, giống như các động từ, biến thể thành nhiều dạng hơn nữa). Những từ này chiếm hết hai trang giấy trong cuốn từ điển của tôi, từ katib, "tác giả", cho đến istiktab, "đọc chính tả". Vì vậy, việc chỉ đếm số lượng "gốc từ" hoặc "từ cơ bản" cũng chẳng mang chúng ta đến đâu, bởi lẽ việc đếm ktb chỉ một lần thôi thì cũng là điều vô nghĩa.

Sẽ như thế nào nếu chúng ta chỉ hỏi "ngôn ngữ nào có cuốn từ điển lớn nhất?" Một lần nữa, chuyện đó sẽ khác vì nhiều lý do không liên đến sự phong phú của từ vựng. Nước nào có ngành công nghiệp từ điển phát triển nhất? Thành tựu nhiều nhất? Bạn có tính đến từ ngữ cổ không? Có bao nhiêu từ khoa học được kể đến? Quay trở lại với những ngoại ngữ của chúng ta, người Đức không cho Stromtarifrechner vào từ điển là vì nghĩa của từng phần trong từ đó đều dễ hiểu, việc kể đến mỗi từ ghép có vẻ hợp lý sẽ khiến từ điển to như cuốn Bách khoa toàn thư Liên hành tinh. (Tôi có thể tạo một từ mới ngay bây giờ: Wortschatzprahlerei, "niềm kiêu hãnh về từ vựng", để mô tả những gì Mr Fry đã nói.) Từ điển tiếng Tây Ban Nha không phân biệt mục từ cho "estoy" và "estás".

Người Trung Quốc thậm chí không chia khái niệm chính về "từ" như chúng ta—đơn vị cơ bản của họ là chữ một âm tiết đơn, mặc dù những chữ này hầu như thường được kết hợp lại thành từ. Zhongguo (中国) là "Trung Quốc". Dù vậy, bạn sẽ không tìm thấy "Zhongguo" trong từ điển. Bạn tìm zhong (中, ở giữa), và mục từ sẽ cho bạn biết 中 kết hợp với gì để có những nghĩa khác nhau. Vai trò của giáo dục tiếng Trung là học nghĩa của các chữ là gì khi được dùng chung với nhau. Khi in, giữa các chữ này không có khoảng cách. Điều đó tức là Zhongguo không phải là một từ sao?

Chúng ta có thể tiếp tục theo hướng này một lúc khá lâu nữa, nhưng đến đây thôi. Nếu phải đưa ra một câu trả lời ngắn gọn cho câu hỏi "có phải tiếng Anh có nguồn từ vựng lớn nhất không?," tôi sẽ nói "Ai quan tâm?". Tiếng Anh là một ngôn ngữ đa dạng phong phú và tuyệt đẹp, nhất là bởi vì nước Anh bị người Viking và Norman xâm chiếm, và hân hoan mở cửa cho những ảnh hưởng từ nước ngoài vào trong suốt dòng lịch sử của đất nước.

Chúng ta biết nhiều hơn về những từ hiếm có tuyệt diệu của tiếng Anh vì ngôn ngữ này đã được viết hơn ngàn năm qua, và rất nhiều tiếng địa phương của Anh ngữ đã được miêu tả. Như vầy đối với tôi là đủ tốt rồi. Chúng ta không cần tiếng Anh có nguồn từ vựng lớn nhất—điều không thể xác định được bằng bất cứ phương pháp cảm tính nào—để yêu thích nó.


Dịch bởi: Phamkhanhlinh1008

