Tu i Teraz

,,Boże, Ci wszyscy, którzy tu bywają, czego nam życzą, niechaj sami mają”. Praw Wszelkich Zastrzeżono: UCC 1 - 308; 3 - 402; Bez uprzedzeń/bez regresu; kopia i autoryzacja nigdy na wynajem; copyright/copyclaim. :ⰽⱃⰸⰻⱄⰸⱅⱁⱇ ~ ⱂⰹⱁⱅⱃ )}][{( ⰂⰂⰀCⰎⰀⰂⰂ - Ⱇⰰⰱⰹcⱈ ©®™

Data is a singular noun / Dane to rzeczownik w liczbie pojedynczej (UK/PL)

 

Data is a singular noun

Can we just clear this up now: the word ‘data’, in english, is a singular mass noun. It is thus a grammatical and stylistic error to use it as a plural.


Plural use is barbaric: amongst other crimes, it is a deliberate archaism, and thus a symptom of bad writing.

The persistent URL for this page is http://purl.org/nxg/note/singular-data

1 History


2 Usage


3 Other versions of the same argument


4 Notes


First, some history

1 History

This section is here because the quasi-historical argument ‘data is a plural latin word’ is trotted out far too often, as justification for treating ‘data’ as a plural noun in english. This section is here to acknowledge that this statement is true, but observe that it is irrelevant, since etymology informs, but cannot control, how we use words in our living language.

Why don't you go right on to Usage, which has a much more important argument?

1.1 Latin

The latin word data (pronounced ‘dah-tah’) is the neuter plural past participle of the first conjugation verb dare, ‘to give’ (it's actually also the feminine singular past participle, but that really, really, doesn't matter). The english word ‘data’ (pronounced ‘dah-tah’ or ‘day-tah’) is a noun referring variously to measurements, observations, images, and the other raw materials of scientific enquiry. In this sense it originated in the physical sciences and computing in the mid twentieth century, and is busily and cheerfully spreading into other areas. The two words are, not surprisingly, etymologically related.

As a past participle, latin data is precisely analogous to the english word ‘given’, as in ‘I have given’. In latin as in english, past participles can be used as adjectives – ‘...accomplishing a given end’ – and even as nouns – ‘”The English language”...from the point of view of any individual speaker...is a “given”, it is not something he creates for himself’; using adjectives as nouns is more common in latin than in english (these examples, like most of the others in this note, along with essentially all of the history, comes from the OED).

As a noun, latin datum is in the second declension, and neuter.

So much for latin

1.2 English

Latin data appears to have made its way into english in the mid 17th century (according to the OED, again), with english ‘data’ making an appearance in the 1646 sentence ‘From all this heap of data it would not follow that it was necessary’, illustrating the OED's sense 1a: ‘A thing given or granted; something known or assumed as fact, and made the basis of reasoning or calculation; an assumption or premiss from which inferences are drawn.’ (note that this very first appearance of the word in english refers to a quantity of data, a ‘heap’, rather than a number). Datum – the neuter singular past participle – makes its first appearance almost a hundred years later, in the same sense. Sense 2, for the OED, is ‘Facts, esp. numerical facts, collected together for reference or information’, first sighted in 1899. ‘Data’ as a computing term is first spotted in 1946, in the Annals of the Computation Laboratory, Harvard University: ‘Two card feeds for supplying the machine with empirical or other data’. Interestingly, this is listed as sense 1d, meaning that the OED editors think this usage is closer in meaning to the ‘thing given or granted’ of sense 1a, than to the more scientific sense of sense 2: I'm not sure I would agree.

That 1646 quotation doesn't suggest that the word was a particularly novel one, so that it will likely have had some prehistory amongst english-speakers. But that prehistory was as likely in latin as in english: it was in the seventeenth century that intellectuals across Europe were remaking science, and doing it, radically, in english, french and other vernaculars, rather than latin. As they remade science, they remade, reworked, and simply invented their technical vocabularies, against the background of the substantial technical vocabularies of the late latin in which they had been educated, and this is when words like english ‘data’ appear.

What that means is that there was almost certainly no latin word for the concept that we now identify by the english word ‘data’, and that to the extent that data was a technical term in late latin, and hence in early modern english, it surely meant nothing, or nothing much, beyond the slightly specialised mathematical meaning of the english word ‘given’ (as in ‘Given ten goats...’ as the preamble to a rather tedious algebra problem). If you know otherwise, I'd be delighted to hear.

Put another way, that means that the word ‘data’, as a technical term referring to the ore of observations, which can be painstakingly reduced to extract knowledge, is not a latin word at all. It's a native english word with a latin past, which means, bluntly, that we get to choose how to use it, and if its meaning changes over time – as it has – then its grammatical analysis can reasonably and properly migrate also.

Put yet another way, this whole section is redundant. Etymology can satisfy our curiousity about our language, or give colour, texture and ripeness to the words we use, but it can do no more than suggest how we actually use the words, when we do use them, ourselves, now.

2 Usage2.1 Other ‘latin’ plurals

English includes many words originally press-ganged from latin, which have changed their grammatical type.

‘Stamina’ and ‘agenda’ are two well-known ones, and ‘media’ is apparently becoming one. Separately from its botanical sense, a ‘stamen’ was the warp of a fabric, or figuratively some essential element of a thing; the word ‘stamina’ now refers to a completely different concept, which has no need, and no room, for a singular form – it makes no sense to speak of one of the things of which stamina is the plural. We can even watch the word changing its grammatical ‘number’, from plural to singular. In the list of OED usages for this sense (3a) of ‘stamina’ – from ‘her stamina could not last much longer’ (the earliest, in 1726) to ‘his stamina is gone entirely’ (1834) – we see a century or so where the word is used in contexts where its number is ambiguous; and in the first case in this list where its number is clear, it is clearly singular, and the word is being used in its modern sense. The OED's last spotting of the relevant sense of ‘stamen’ used as a singular is in 1794.

‘Agendum’ isn't quite obsolete yet, but if the chairman of a meeting talks of ‘moving on to the next agendum’, she is being deliberately and unattractively pompous, or being facetious, and if she asks ‘how many agenda are still to be discussed?’, she should be thrown bodily from the room. In any case, ‘agenda’ no longer means just a collection of ‘agendums’: it now refers to the list of agendums as a separate notion, and that meaning has expanded (unattractively and unnecessarily in my opinion) to refer to secret and probably malevolent aspirations, as in ‘I don't trust X – she has a personal agenda’.

Using ‘agenda’ or ‘stamina’ as a plural is now a grammatical error in english. This isn't being prescriptive, but descriptive, in the sense that native english speakers do not naturally use these words as plurals, and detect them as a mistake when they hear or read them thus used.

‘Media’ is edging the same way, in the sense that the word has accumulated at least one meaning beyond the simple plural of ‘medium’. This is arguably a good thing, though I wouldn't go to the stake for it, as it makes a nice distinction possible. If you're told ‘the media are outside’, you know that radio and TV have turned up – how nice: you should tell your mother to watch the evening news. If, on the other hand, you're told ‘the media is outside’, you brace yourself to bodycharge a mob of slavering hacks asking if you've stopped beating your wife, photographing what cleavage they can, and demanding that Something Must Be Done about the lurid crimes they so lovingly describe.

Using ‘phenomena’, ‘criteria’ or ‘strata’ as singulars is a grammatical no-no – these are simply irregular plurals of still-useful and still-current singulars.

In this spectrum (not ‘spectra’, of course), ‘data’ is clearly located near ‘agenda’. The difference is that, though I know what an ‘agendum’ is (and have very certain opinions about folk who use the word), I really have very little clue what a ‘datum’ is – it's certainly not one of the things that makes up data.

2.2 Using ‘data’

The strongest argument against plural ‘data’ is that plural ‘data’ looks weird; thus it is distracting; thus it is bad writing.

When you read in the middle of a sentence ‘...the data are analysed by...’, you stumble: your subconscious grammatical consistency checks raise an alarm! – you have misparsed them (yes, like that). You automatically go back to the beginning for another go, more carefully this time, but realise, too late, that you are simply reading the work of an author in his weddings-and-funerals suit, writing as he would never speak. You regather your concentration, and press on.

Because almost no-one does speak like that. This is not an argument about formal versus informal use, but about the distinction between usage and prescription. The majority of writers who would dutifully pluralise ‘data’ in writing naturally and consistently use it as a mass noun in conversation: they ask how much data an instrument produces, not how many; they talk of how data is archived, not how they are archived; they talk of less data rather than fewer; and they always talk of data with units, saying they have a megabyte of data, or 10 CDs, or three nights, and never saying ‘I have 1000 data’ and expecting to be understood.

If challenged, they will respond (with a slightly nervous smugness) that ‘data is a latin plural’. Agree to this, for the sake of professional harmony, and carry on the conversation, making sure to mention that ‘the telescope has data many odd images tonight’ (it's a past participle, remember), suggest looking at the data raw images (...or an adjective) and that you both examine the datorum variance (surely they recall the genitive plural); suggest they give you the datis (...the dative), so that you can redo the analysis with their datis (...and the ablative). If they object to all this nonsense – as well they might – ask them to explain their sentimental attachment to the nominative plural, that they would use that in all cases, in brute defiance of good latin grammar (screech ‘never did me any harm!’ – twitch and boggle at this point for maximum effect, and on a good day, you'll have them run screaming from the room).

Isn't it lucky english is now genderless, making ‘data’ neuter, else we'd have to memorise masculine dati (dati dati datos datorum datis datis) and feminine datae (whatever...), too? Isn't it simpler just to speak english?

2.3 There's no such thing as a ‘datum’

As we saw above, the word ‘stamina’ was used ambiguously for a century or so, until the word of which it was the plural – ‘stamen’ – lost its relevant meaning. Exactly analogously, the OED's quotations for ‘data’ in the computer sense are ambiguous as to number in 1946 (twice), 1958, 1960, and 1967, unambiguously singular in 1964 and 1970 (twice), and unambiguously plural in 1969. Its ‘numerical facts’ sense has seven quotations from 1899 to 1971, of which only two, in 1946 and 1958, are clearly plural. After 1807 there are precisely zero uses of ‘datum’ in the relevant senses 1a, 1d or 2 (sense 1b is the combinative sense, as in ‘datum-line’, sense 1c is a technical sense in philosophy, and sense 3 is the combinative sense of ‘database’, ‘data processing’, and the like).

That obviously doesn't mean that the word ‘datum’ hasn't been used in these senses after 1807, but it does rather suggest that the word is going the way of non-botanical ‘stamen’, being a word for an idea that is evaporating from our language.

Ask a scientist or engineer how many data she has (go on, try it). She'll tell you how many gigabytes she has, or how many datapoints, or how many observations, or how many photocopied articles. No no, you say, not how much, but how many ‘datums’? She will look at you, I guarantee, in A Funny Way. What on earth are you asking? No-one knows, because the word ‘datum’ has lost any useful meaning (for almost everyone – see below). On those occasions when you need to refer to some indivisible atom of data, you talk of bytes, or datapoints or observations as appropriate. But never of a datum.

The word ‘datum’ is still in use by surveyors, and other folk who need datum-lines, datum-marks, datum-planes and miscellaneous datum-combinations. In precise geodesy, for example, a ‘datum’ is the term for one of several models of the shape of the earth, relative to which the heights of mountains and the positions of telescopes are measured. This usage, which has nothing to do with our atom of data, has the perfectly regular plural ‘datums’, so that in texts which discuss these things, we can read sentences like ‘Frequently, users or creators of geospatial data are unaware or unsure of the projection or datum geospatial data are in’ – this is in ‘a quick, non-technical guide on the use of datums and projections’ (this 1999 publication of the USGS Center for Biological Informatics used to be here and here, but all I can now find is a indirect reference here). This is effectively the OED's sense 1b, but not in a combinative sense. This still carefully treats the second occurrence of ‘data’ as a plural, but can you imagine the confusion in this context if this word's putative singular were still live?

People who scrupulously write ‘data’ as a plural are frequently confused when it comes to more complicated sentences. There are plenty of examples such as (in a computational grids context) a reference to ‘quantities of data so large that it is no longer feasible to analyse these data at a single central site’, thus presenting an example of ‘data’ being used as both a mass-singular and a plural in the same sentence. Similarly, and more crashingly, I have read a serious document which asked ‘What is HEP data? The data themselves...’: it is impossible for these successive sentences to be both grammatically correct. Even a conventional phrase like ‘data preservation’ is suspect: it is unusual in english for nouns used as adjectives to be in the plural – you would not talk of ‘chairs preservation’.

The word of which ‘data’ is purportedly the plural has simply disappeared; this means two things. Firstly, passively, it creates a linguistic space into which ‘data’ can drop – there is no ambiguity in using ‘data’ in a singular sense. Secondly, and more importantly, if ‘datum’ has effectively disappeared, it tells us that ‘data’ cannot be simply its plural; unanchored, it has moved away from this simply derived meaning, to a distinct and independent meaning of its own. It has accordingly accreted usage rules of its own, unencumbered by any latin past.

‘Data’ no longer means just one (damn) datum after another. Twentieth-century ‘data’ refers to a mass of raw information, which we measure rather than count, and this is as true now as it was when the word made its 1646 debut. This universal perception of data as measured rather than counted puts the word firmly and unambiguously in the same grammatical category as ‘coal’, ‘wheat’ and ‘ore’, which is that of the mass, or aggregate, noun. As such, it is always and unavoidably grammatically singular. We would never ask ‘how many wheat do you have?’ or say that ‘the ore are in the train’ if we wished to be thought a competent speaker of english; in the same way, and to the same extent, we may not ask ‘how many data do you have?’ or say ‘the data are in the file’ without committing a grammatical error.

3 Other versions of the same argument

Now here I am obviously being at least a little prescriptive. But more descriptive than it might at first appear: native speakers naturally use ‘data’ as a singular noun until someone in authority tells them not to, whether that is a journal style guide or someone with the ‘latin plural’ schtick. Thus the plural usage is maintained in the language only artificially, as a status marker – it will soon die.

As far as dictionaries go, the OED stigmatises data ‘in pl. form with sing. construction’ as (delightfully) ‘catachrestic and erroneous’, in the teeth of all their evidence I've adduced above. They rather cheekily include in their quotations illustrating this wickedness a bald and authoritative 1965 statement that ‘Incidentally, by general usage data is now accepted as a singular collective noun’. Oddly, the OED marks ‘datum’ as a ‘not naturalized, alien’ noun, but doesn't so mark ‘data’ – I feel this rather proves the point than undermines it. Despite that, the OED's ‘draft additions 2004’ refer to ‘the automated gathering of data in a form in which it can be processed by a computer’ and ‘data warehouse ... a database in which data collected from several operational systems is integrated’: none of their definitions in this draft use data as a plural, and although this is all listed under ‘datum’, the last use of that word in the entry is in (philosophical) sense 1c, and the longest senses 1d, 2 and 3 don't mention it at all.

Oxford's askoxford.com is generally good (it has the Correct opinion of split infinitives), but still cleaves doughtily to the ‘data is latin’ cause.

Looking at online dictionaries, the American Heritage Book of English Usage (not online) is rather evasive, and ends with the extraordinary remark that ‘When plural, data has the unusual characteristic of not being capable of modification by cardinal numbers. You may have various data but you will never have five or ten data.’ This has the unusual characteristic of indicating squarely that it's not a plural at all.

Merriam-Webster Online has a nice note on usage, saying ‘Data leads a life of its own quite independent of datum, of which it was originally the plural’ (indeed), and ending with a resigned sigh, ‘The plural construction is more common in print, evidently because the house style of several publishers mandates it’.

There's a general consensus amongst those who care enough to post about it. I suppose I'm not surprised the topic has been much blogged: entries I found include pieces by John QuigginJohn August and Kevin Drum. Though I saw these after writing this piece, there's a fair overlap in arguments and examples.

This piece also draws in spirit, and in some examples, from the chapter on ‘Data’ in Philip Howard's excellently entertaining Weasel Words (Corgi, 1978, now apparently out of print).

There are few sources which argue unashamedly that ‘data’ is a plural, beyond the authors' ritual incantation that ‘data is a latin plural’, which they seem to feel is argument enough, and the world-weary suggestion that they hear, in singular ‘data’, the hordes battering at the gates.

Much-delayed update: The exception to that dearth is a brief discussion on Andy Lawrence's blog in 2008, which led to a very detailed response from Peter Coles. That posting is entertaining, and I agree with lots of it, but the argument ultimately boils down to Peter's assertion that a sentence “If I had fewer data I would not be able to obtain an astrometric solution” is a legitimate sentence in english. I think it's not, but that's an only apparently prescriptivist conclusion arising from a descriptivist argument, namely that I believe that such a sentence would not be spontaneously produced, or recognised as correct, by a native speaker of generally ‘correct’ english who had not heard of the argument about ‘data’ (I'm taking it that Peter constructed that sentence to illustrate the point, rather than field-collected it). Since such a person would probably be a very rare beast, the question might be not be decidable through usage, which I maintain is the only truly legitimate way. That being said...

The data is in: it is massive, and it is singular.

4 Notes4.1 Acknowledgements

I am indebted to Steve Draper for pointers, and Peter Coles for the best counter-arguments.

4.2 History

2012 March 3Fixed typo (thanks, Peter Wiseman!), and took the opportunity to fiddle with some punctuation
2010 October 24Pointer to, and discussion of, a good counter-argument
2005 October 21Fix historical details; fix dative/ablative mixup (blush!)
2005 January 2Details on geodesy's use of ‘datum’

https://nxg.me.uk/note/2005/singular-data/


Dane to rzeczownik w liczbie pojedynczej


Czy możemy to teraz wyjaśnić: słowo 'data', w języku angielskim, jest rzeczownikiem masowym w liczbie pojedynczej. Używanie go w liczbie mnogiej jest więc błędem gramatycznym i stylistycznym.


Używanie liczby mnogiej jest barbarzyńskie: oprócz innych przestępstw, jest to celowy archaizm, a zatem objaw złego pisania.


Stały adres URL dla tej strony to http://purl.org/nxg/note/singular-data.


1 Historia


2 Użycie


3 Inne wersje tego samego argumentu


4 Uwagi


Najpierw trochę historii


1 Historia


Ta sekcja jest tutaj, ponieważ quasi-historyczny argument "data is a plural latin word" jest zbyt często powtarzany jako uzasadnienie dla traktowania "data" jako liczby mnogiej rzeczowników w języku angielskim. Ta sekcja jest po to, by przyznać, że to stwierdzenie jest prawdziwe, ale zauważyć, że jest nieistotne, ponieważ etymologia informuje, ale nie może kontrolować, jak używamy słów w naszym żywym języku.


Dlaczego nie przejdziesz od razu do Używania, które ma o wiele ważniejszy argument?


1.1 Łacina


Łacińskie słowo data (wymawiane 'dah-tah') jest nijakim imiesłowem biernym liczby mnogiej pierwszej koniugacji czasownika dare, 'dawać' (w rzeczywistości jest to również żeński imiesłów bierny liczby pojedynczej, ale to naprawdę, naprawdę, nie ma znaczenia). Angielskie słowo 'data' (wymawiane jako 'dah-tah' lub 'day-tah') jest rzeczownikiem odnoszącym się w różny sposób do pomiarów, obserwacji, obrazów i innych surowców naukowych. W tym sensie wywodzi się on z nauk fizycznych i informatyki w połowie dwudziestego wieku, a obecnie pracowicie i radośnie rozprzestrzenia się na inne dziedziny. Te dwa słowa są, co nie jest zaskakujące, powiązane etymologicznie.


Jako imiesłów bierny, łacińskie data jest dokładnie analogiczne do angielskiego słowa 'given', jak w 'I have given'. W języku łacińskim, podobnie jak w angielskim, imiesłów bierny może być użyty jako przymiotnik - "...osiągający dany cel" - a nawet jako rzeczownik - ""Język angielski"... z punktu widzenia każdego pojedynczego mówcy... jest "dany", nie jest czymś, co tworzy on dla siebie"; użycie przymiotników jako rzeczowników jest bardziej powszechne w łacinie niż w angielskim (te przykłady, podobnie jak większość innych w tej notatce, wraz z zasadniczo całą historią, pochodzą z OED).


Jako rzeczownik, łacińskie datum jest w drugiej deklinacji i jest nijakie.


Tyle o łacinie


1.2 Angielski


Wydaje się, że łacińskie dane przedostały się do języka angielskiego w połowie XVII wieku (według OED, ponownie), z angielskim "data" pojawiającym się w zdaniu z 1646 roku "From all this heap of data it would not follow that it was necessary", ilustrującym sens 1a OED: "A thing given or granted; something known or assumed as fact, and made the basis of reasoning or calculation; an assumption or premiss from which inferences are drawn". (zauważ, że to bardzo pierwsze pojawienie się słowa w języku angielskim odnosi się do ilości danych, 'heap', a nie do liczby). Datum - neuter singular past participle - pojawia się po raz pierwszy prawie sto lat później, w tym samym znaczeniu. Sense 2, dla OED, to 'Facts, esp. numerical facts, collected together for reference or information', first sighted in 1899. 'Data' jako termin informatyczny jest po raz pierwszy zauważony w 1946 roku, w Annals of the Computation Laboratory, Harvard University: 'Two card feeds for supplying the machine with empirical or other data'. Co ciekawe, jest to wymienione jako sens 1d, co oznacza, że redaktorzy OED uważają, że to użycie jest bliższe w znaczeniu 'rzeczy danej lub przyznanej' sensu 1a, niż bardziej naukowego sensu sensu 2: nie jestem pewien, czy bym się z tym zgodził.


Cytat z 1646 roku nie sugeruje, że słowo to było szczególnie nowatorskie, więc prawdopodobnie miało pewną prehistorię wśród anglistów. Ale ta prehistoria była równie prawdopodobna w łacinie, jak i w języku angielskim: to właśnie w XVII wieku intelektualiści w całej Europie przebudowywali naukę i robili to, radykalnie, w języku angielskim, francuskim i innych językach wernakularnych, a nie w łacinie. W miarę jak przerabiali naukę, przerabiali, przerabiali i po prostu wymyślali swoje techniczne słowniki, na tle znacznych technicznych słowników późnej łaciny, w której zostali wykształceni, i to właśnie wtedy pojawiają się słowa takie jak angielskie "data".


Oznacza to, że prawie na pewno nie było łacińskiego słowa na pojęcie, które teraz identyfikujemy przez angielskie słowo "data", i że w stopniu, w jakim data była terminem technicznym w późnym łacinie, a więc i we wczesnej nowożytnej angielszczyźnie, z pewnością nie oznaczała nic, lub niewiele, poza nieco specjalistycznym matematycznym znaczeniem angielskiego słowa "given" (jak w "Given ten goats..." jako wstęp do dość żmudnego problemu z algebry). Jeśli wiesz inaczej, byłbym zachwycony, aby usłyszeć.


Ujmując rzecz inaczej, oznacza to, że słowo 'data', jako termin techniczny odnoszący się do rudy obserwacji, którą można żmudnie zredukować, by wydobyć z niej wiedzę, wcale nie jest słowem łacińskim. It's a native english word with a latin past, which means, bluntly, that we get to choose how to use it, and if its meaning changes over time - as it has - then its grammatical analysis can reasonably and properly migrate also.


Mówiąc jeszcze inaczej, cały ten rozdział jest zbędny. Etymologia może zaspokoić naszą ciekawość dotyczącą naszego języka lub nadać kolor, fakturę i dojrzałość słowom, których używamy, ale nie może zrobić nic więcej niż zasugerować, jak faktycznie używamy tych słów, kiedy sami ich używamy, teraz.


2 Użycie2.1 Inne 'latynoskie' liczby mnogie


Język angielski zawiera wiele słów oryginalnie wyciśniętych z łaciny, które zmieniły swój rodzaj gramatyczny.


'Stamina' i 'agenda' to dwa dobrze znane, a 'media' najwyraźniej staje się jednym z nich. W oderwaniu od swojego botanicznego znaczenia, 'stamen' był osnową tkaniny, lub w przenośni jakimś istotnym elementem rzeczy; słowo 'stamina' odnosi się teraz do zupełnie innego pojęcia, które nie potrzebuje i nie ma miejsca na formę pojedynczą - nie ma sensu mówić o jednej z rzeczy, których stamina jest liczbą mnogą. Możemy nawet obserwować, jak słowo to zmienia swoją gramatyczną 'liczbę', z liczby mnogiej na pojedynczą. Na liście użyć OED dla tego znaczenia (3a) 'stamina' - od 'her stamina could not last much longer' (the earliest, in 1726) do 'his stamina is gone entirely' (1834) - widzimy około stulecia, gdzie słowo jest używane w kontekstach, gdzie jego liczba jest niejednoznaczna; a w pierwszym przypadku na tej liście, gdzie jego liczba jest jasna, jest wyraźnie pojedyncza, a słowo jest używane w swoim nowoczesnym znaczeniu. The OED's last spotting of the relevant sense of 'stamen' used as a singular is in 1794.


'Agendum' nie jest jeszcze całkiem przestarzałe, ale jeśli przewodniczący zebrania mówi o 'przejściu do następnego porządku obrad', to jest celowo i nieatrakcyjnie pompatyczny, lub jest facetem, a jeśli pyta 'ile porządku obrad pozostało do omówienia?', to powinien zostać wyrzucony z sali. W każdym razie "agenda" nie oznacza już tylko zbioru "agend": odnosi się teraz do listy agend jako odrębnego pojęcia, a znaczenie to rozszerzyło się (moim zdaniem nieatrakcyjnie i niepotrzebnie) na tajne i prawdopodobnie złośliwe dążenia, jak w przypadku "nie ufam X - ma osobistą agendę".


Używanie 'agenda' lub 'stamina' jako liczby mnogiej jest obecnie błędem gramatycznym w języku angielskim. To nie jest nakaz, ale opis, w tym sensie, że native english speakers nie używają naturalnie tych słów jako liczby mnogiej i wykrywają je jako błąd, kiedy słyszą lub czytają je w ten sposób użyte.


Media" zmierzają w tym samym kierunku, w tym sensie, że słowo to nabrało co najmniej jednego znaczenia poza prostą liczbą mnogą "medium". Jest to prawdopodobnie dobra rzecz, choć nie poszedłbym za nią na stos, ponieważ umożliwia ona ładne rozróżnienie. Jeśli mówi się "media są na zewnątrz", wiadomo, że pojawiło się radio i telewizja - jak miło: należy powiedzieć matce, żeby oglądała wieczorne wiadomości. Jeśli, z drugiej strony, powiedziano ci, że "media są na zewnątrz", przygotowujesz się do szarży na tłum zacietrzewionych hochsztaplerów pytających, czy przestałeś bić swoją żonę, fotografujących co się da z dekoltem i domagających się, aby coś zostało zrobione z tymi ohydnymi przestępstwami, które tak pięknie opisują.


Używanie 'phenomena', 'criteria' lub 'strata' jako liczby pojedynczej jest gramatycznym nie-nie - są to po prostu nieregularne liczby mnogie wciąż użytecznych i wciąż aktualnych liczb pojedynczych.


W tym spektrum (nie 'spektrum', oczywiście) 'dane' znajdują się wyraźnie blisko 'agendy'. Różnica polega na tym, że choć wiem, czym jest 'agenda' (i mam bardzo pewne opinie o ludziach, którzy używają tego słowa), to naprawdę mam bardzo małe pojęcie o tym, czym jest 'data' - z pewnością nie jest to jedna z rzeczy, które składają się na dane.


2.2 Używanie 'danych'


Najsilniejszym argumentem przeciwko liczbie mnogiej 'danych' jest to, że liczba mnoga 'danych' wygląda dziwnie; dlatego rozprasza; dlatego jest to złe pisanie.


Kiedy czytasz w środku zdania "...dane są analizowane przez...", potykasz się: twoja podświadoma kontrola spójności gramatycznej podnosi alarm! - Źle je przeczytałeś (tak, w ten sposób). Automatycznie wracasz do początku, tym razem ostrożniej, ale zbyt późno zdajesz sobie sprawę, że czytasz po prostu dzieło autora w garniturze ślubnym i pogrzebowym, piszącego tak, jak nigdy by nie mówił. Odzyskujesz koncentrację i kontynuujesz.


Bo prawie nikt nie mówi w ten sposób. To nie jest spór o formalne i nieformalne użycie, ale o rozróżnienie między użyciem a przepisaniem. Większość pisarzy, którzy z zapałem używaliby liczby mnogiej w piśmie, naturalnie i konsekwentnie używa jej jako rzeczownika masowego w rozmowie: pytają, ile danych produkuje dany instrument, a nie ile danych; mówią o tym, jak dane są archiwizowane, a nie jak są archiwizowane; mówią o mniejszej ilości danych, a nie o mniejszej; i zawsze mówią o danych w jednostkach, mówiąc, że mają megabajt danych lub 10 płyt CD, lub trzy noce, a nigdy nie mówią "mam 1000 danych" i oczekują, że zostaną zrozumiani.


Jeśli zostaną zakwestionowani, odpowiedzą (z lekko nerwowym uśmiechem), że "dane to łacińska liczba mnoga". Zgódź się na to, dla dobra zawodowej harmonii, i kontynuuj rozmowę, upewniając się, że wspomniałeś, że 'teleskop ma dziś wieczorem wiele dziwnych obrazów' (to imiesłów bierny, pamiętaj), zasugeruj spojrzenie na surowe obrazy danych (...lub przymiotnik) i że obaj zbadacie wariancję datorum (na pewno pamiętają o rodzajniku liczby mnogiej); zasugeruj, że dadzą Ci dane (...dative), tak byś mógł powtórzyć analizę z ich danymi (...i ablative). Jeśli sprzeciwią się tym wszystkim bzdurom - a mogą - poproś ich o wyjaśnienie ich sentymentalnego przywiązania do mianownika liczby mnogiej, że użyliby go we wszystkich przypadkach, w brutalnym zaprzeczeniu dobrej gramatyki łacińskiej (skrzecz 'never did me any harm!' - twitch and boggle at this point for maximum effect, and on a good day, you'll have them run screaming from the room).


Czy to nie szczęście, że angielski jest teraz bezpłciowy, co czyni 'data' nijakim, inaczej musielibyśmy zapamiętać męskie dati (dati dati datos datorum datis datis) i żeńskie datae (whatever...), też? Czy nie prościej jest po prostu mówić po angielsku?


2.3 Nie ma czegoś takiego jak 'datum'.


Jak widzieliśmy powyżej, słowo 'stamina' było używane dwuznacznie przez około sto lat, dopóki słowo, którego było liczbą mnogą - 'stamen' - nie straciło swojego istotnego znaczenia. Dokładnie analogicznie, cytaty OED dla 'data' w sensie komputerowym są niejednoznaczne co do liczby w 1946 (dwukrotnie), 1958, 1960 i 1967, jednoznacznie pojedyncze w 1964 i 1970 (dwukrotnie), i jednoznacznie mnogie w 1969. Jego 'numerical facts' sense has seven quotations from 1899 to 1971, of which only two, in 1946 and 1958, are clearly plural. Po 1807 roku nie ma dokładnie żadnych zastosowań 'datum' w odpowiednich znaczeniach 1a, 1d lub 2 (znaczenie 1b jest znaczeniem kombinacyjnym, jak w 'datum-line', znaczenie 1c jest znaczeniem technicznym w filozofii, a znaczenie 3 jest znaczeniem kombinacyjnym 'bazy danych', 'przetwarzania danych' i tym podobnych).


To oczywiście nie oznacza, że słowo 'datum' nie było używane w tych znaczeniach po 1807 roku, ale raczej sugeruje, że słowo to idzie drogą niebotanicznego 'pręcika', będąc słowem dla idei, która wyparowuje z naszego języka.


Zapytaj naukowca lub inżyniera, ile ma danych (dalej, spróbuj). Powie ci, ile ma gigabajtów, ile punktów danych, ile obserwacji, ile skserowanych artykułów. Nie nie, powiecie, nie ile, ale ile "datapunktów"? Ona spojrzy na ciebie, gwarantuję, w Zabawny sposób. O co, u licha, pytasz? Nikt nie wie, ponieważ słowo 'datum' straciło jakiekolwiek użyteczne znaczenie (dla prawie wszystkich - patrz poniżej). Przy tych okazjach, kiedy trzeba odnieść się do jakiegoś niepodzielnego atomu danych, mówi się o bajtach, punktach danych lub obserwacjach, odpowiednio do sytuacji. Ale nigdy o układzie odniesienia.


Słowo "układ odniesienia" jest nadal używane przez geodetów i innych ludzi, którzy potrzebują linii odniesienia, znaków odniesienia, płaszczyzn odniesienia i różnych kombinacji układów odniesienia. W geodezji precyzyjnej, na przykład, 'układ odniesienia' jest terminem dla jednego z kilku modeli kształtu ziemi, względem którego mierzone są wysokości gór i pozycje teleskopów. To użycie, które nie ma nic wspólnego z naszym atomem danych, ma doskonale regularną liczbę mnogą 'datums', tak że w tekstach, które omawiają te rzeczy, możemy przeczytać zdania w rodzaju 'Frequently, users or creators of geospatial data are unaware or unsure of the projection or datum geospatial data are in' - to w 'a quick, non-technical guide on the use of datums and projections" (ta publikacja USGS Center for Biological Informatics z 1999 roku była kiedyś tutaj i tutaj, ale jedyne co mogę teraz znaleźć to pośrednie odniesienie tutaj). To jest skutecznie OED's sens 1b, ale nie w sensie kombinacyjnym. To nadal ostrożnie traktuje drugie wystąpienie 'danych' jako liczbę mnogą, ale czy możesz sobie wyobrazić zamieszanie w tym kontekście, gdyby ten wyraz w liczbie pojedynczej był nadal żywy?


Osoby, które skrupulatnie zapisują 'dane' jako liczbę mnogą, często są zdezorientowane, gdy chodzi o bardziej skomplikowane zdania. Istnieje mnóstwo przykładów, takich jak (w kontekście sieci obliczeniowych) odniesienie do "ilości danych tak dużych, że nie jest już możliwe analizowanie ich w jednym centralnym miejscu", co stanowi przykład użycia "danych" jako liczby pojedynczej i mnogiej w tym samym zdaniu. Podobnie, i co bardziej zdumiewające, czytałem poważny dokument, w którym pytano "Czym są dane HEP? Same dane...": niemożliwe jest, aby te kolejne zdania były jednocześnie poprawne gramatycznie. Nawet tak konwencjonalny zwrot jak 'data preservation' jest podejrzany: w języku angielskim nietypowe jest, że rzeczowniki używane jako przymiotniki występują w liczbie mnogiej - nie mówiłbyś o 'chairs preservation'.


Słowo, którego "dane" jest rzekomo liczbą mnogą, po prostu zniknęło; oznacza to dwie rzeczy. Po pierwsze, pasywnie, tworzy to przestrzeń językową, w którą mogą wpaść 'dane' - nie ma dwuznaczności w używaniu 'danych' w liczbie pojedynczej. Po drugie, i co ważniejsze, jeśli 'datum' faktycznie zniknęło, mówi nam to, że 'data' nie może być po prostu liczbą mnogą; niezakotwiczone, odeszło od tego prostego, pochodnego znaczenia, na rzecz odrębnego i niezależnego znaczenia własnego. Nie zakotwiczone, odeszło od tego prostego, pochodnego znaczenia na rzecz odrębnego i niezależnego znaczenia.


'Dane' nie oznaczają już tylko jednej (cholernej) liczby danych po drugiej. Dwudziestowieczne 'dane' odnoszą się do masy surowych informacji, które raczej mierzymy niż liczymy, i jest to tak samo prawdziwe teraz, jak w momencie debiutu tego słowa w 1646 roku. To powszechne postrzeganie danych jako mierzonych, a nie liczonych, stawia to słowo zdecydowanie i jednoznacznie w tej samej kategorii gramatycznej, co "węgiel", "pszenica" i "ruda", czyli w kategorii rzeczowników masowych lub zbiorczych. Jako taki, jest on zawsze i nieuchronnie gramatycznie w liczbie pojedynczej. Nigdy nie zapytalibyśmy "how many wheat do you have?" ani nie powiedzielibyśmy, że "the ore are in the train", gdybyśmy chcieli uchodzić za kompetentnych użytkowników języka angielskiego; w ten sam sposób i w tym samym stopniu nie możemy zapytać "how many data do you have?" ani powiedzieć "the data are in the file" bez popełnienia błędu gramatycznego.


3 Inne wersje tego samego argumentu

Teraz oczywiście jestem co najmniej trochę nakazowy. Ale bardziej opisowy niż mogłoby się wydawać na początku: rodzimi użytkownicy naturalnie używają "danych" jako rzeczownika w liczbie pojedynczej, dopóki ktoś z autorytetów nie powie im, żeby tego nie robili, czy to będzie przewodnik po stylu czasopism, czy ktoś z "łacińską liczbą mnogą". Tak więc liczba mnoga jest utrzymywana w języku tylko sztucznie, jako wyznacznik statusu - wkrótce umrze.


Jeśli chodzi o słowniki, OED piętnuje dane 'in pl. form with sing. construction' jako (rozkosznie) 'catachrestic and erroneous', w zębach wszystkich ich dowodów, które przytoczyłem powyżej. W swoich cytatach ilustrujących tę niegodziwość dość bezczelnie umieszczają łysą i autorytatywną deklarację z 1965 roku, że 'Incidentally, by general use data is now accepted as a singular collective noun'. Co dziwne, OED zaznacza 'datum' jako rzeczownik 'nie naturalizowany, obcy', ale nie zaznacza 'data' - mam wrażenie, że to raczej udowadnia, a nie podważa. Pomimo tego, 'draft additions 2004' OED odnosi się do 'zautomatyzowanego gromadzenia danych w formie, w której mogą być przetwarzane przez komputer' i 'hurtowni danych ... bazy danych, w której dane zebrane z kilku systemów operacyjnych są zintegrowane': żadna z ich definicji w tym projekcie nie używa danych jako liczby mnogiej, i chociaż to wszystko jest wymienione pod 'datum', ostatnie użycie tego słowa w wpisie jest w (filozoficznym) znaczeniu 1c, a najdłuższe znaczenia 1d, 2 i 3 w ogóle o nim nie wspominają.


Oxfordzki askoxford.com jest ogólnie dobry (ma Poprawną opinię o split infinitives), ale nadal trzyma się dzielnie sprawy 'data is latin'.


Patrząc na słowniki online, American Heritage Book of English Usage (nie online) jest raczej wymijający, i kończy się niezwykłą uwagą, że 'When plural, data has the unusual characteristic of not being capable of modification by cardinal numbers. You may have various data but you will never have five or ten data". Ma to niezwykłą cechę wskazywania wprost, że nie jest to liczba mnoga w ogóle.


Merriam-Webster Online ma miłą notatkę na temat użycia, mówiąc 'Data leads a life of its own quite independent of datum, of which it was originally the plural' (indeed), i kończąc z rezygnacyjnym westchnieniem, 'The plural construction is more common in print, evidently because the house style of several publishers mandates it'.


Istnieje ogólny konsensus wśród tych, którym zależy na tyle, by o tym pisać. Nie jestem zaskoczony, że temat ten jest szeroko komentowany na blogach: znalazłem wpisy Johna Quiggina, Johna Augusta i Kevina Druma. Choć zobaczyłem je już po napisaniu tego artykułu, argumenty i przykłady pokrywają się w znacznym stopniu.


Ten kawałek również czerpie w duchu i w niektórych przykładach z rozdziału "Data" w znakomicie rozrywkowej książce Philipa Howarda Weasel Words (Corgi, 1978, obecnie najwyraźniej wyczerpany nakład).


Niewiele jest źródeł, które bez skrępowania twierdzą, że "dane" to liczba mnoga, poza rytualnym zaklęciem autorów, że "dane to łacińska liczba mnoga", co wydaje im się wystarczającym argumentem, oraz znużoną sugestią, że w liczbie pojedynczej "dane" słyszą hordy dobijające się do bram.


Opóźniona aktualizacja: Wyjątkiem jest krótka dyskusja na blogu Andy'ego Lawrence'a w 2008 roku, która doprowadziła do bardzo szczegółowej odpowiedzi Petera Colesa. Ten post jest zabawny i zgadzam się z wieloma jego fragmentami, ale argument ostatecznie sprowadza się do twierdzenia Petera, że zdanie "Gdybym miał mniej danych, nie byłbym w stanie uzyskać rozwiązania astrometrycznego" jest uzasadnionym zdaniem w języku angielskim. Ja uważam, że nie jest, ale to tylko pozornie preskryptywistyczny wniosek wynikający z argumentu deskryptywistycznego, mianowicie uważam, że takie zdanie nie zostałoby spontanicznie wyprodukowane, ani uznane za poprawne, przez native speakera ogólnie "poprawnego" english, który nie słyszał o argumencie o "danych" (przyjmuję, że Piotr skonstruował to zdanie dla zilustrowania punktu, a nie zebrał je w terenie).


Ponieważ taka osoba byłaby prawdopodobnie bardzo rzadką bestią, pytanie może nie być rozstrzygalne poprzez użycie, które utrzymuję, że jest jedynym naprawdę prawomocnym sposobem. To powiedziawszy...


Dane już są: są ogromne i są pojedyncze.


4 Uwagi4.1 Podziękowania


Jestem wdzięczny Steve'owi Draperowi za wskazówki i Peterowi Colesowi za najlepsze kontrargumenty.


4.2 Historia


2012 March 3Poprawiłem literówkę (dzięki, Peter Wiseman!) i skorzystałem z okazji, żeby popisać się trochę interpunkcją.

2010 October 24Pointer do, i omówienie, dobrego kontrargumentu

2005 październik 21Poprawić szczegóły historyczne; poprawić pomieszanie w mianowniku i w bierniku (rumieniec!)

2005 styczeń 2Szczegóły dotyczące użycia 'datum' w geodezji


https://nxg.me.uk/note/2005/singular-data/




Przetłumaczono z www.DeepL.com/Translator (wersja darmowa)

Brak komentarzy:

Prześlij komentarz

» niechaj ci sie darzy«zdrawiam«

WEJRZYJ POLECANE RADOMOŚCI

wszystkie umowy były i są od samego początku ab initio nieważne ...

 Nemo·Me·Impune·Lacessit· „Albowiem nic możemy uczynić przeciw Prawdzie, albowiem dla Prawdy" ... ab initio do wszystkich wszelkich umó...

≈ Radomość ~