1. Giới thiệuTừ điển học chăm sóc tới nghĩa và cách sử dụng từ ngữ. Từ điển học truyền thống cuội nguồn chỉ khảo sát nghĩa của từ và những từ đồng nghĩa tương quan hay trái nghĩa của nó. Với sự tăng trưởng và ứng dụng kho ngữ liệu can đảm và mạnh mẽ trong thời hạn vài thập niên gần đây, những nghiên cứu và điều tra và ứng dụng đã lan rộng ra ra nhiều góc nhìn khác của sử dụng từ ngữ như : 1 ) Sự tương đương và độc lạ trong sử dụng của những từ trái nghĩa ; 2 ) Sự tương đương giữa những nghĩa của một từ đa nghĩa ; 3 ) Các từ có link mạng lưới hệ thống với nhau như thế nào ; 4 ) Các từ có link mạng lưới hệ thống với nhau trong những ngữ vực ( registers ) và phương ngữ đơn cử không. Đây là những yếu tố thường gặp phải của người biên soạn từ điển. Tuy nhiên, những yếu tố tựa như mang tính lí thuyết từ điển học thuần tuý này lại đồng thời là đối tượng người dùng nghiên cứu và điều tra của ngôn ngữ học miêu tả và ngôn ngữ học ứng dụng. Nhiều nhà ngôn ngữ học biện luận rằng những nghiên cứu và phân tích ngữ pháp thích hợp phải phối hợp ngặt nghèo với thông tin từ điển về những từ riêng không liên quan gì đến nhau ( xem Römer và Schulze, 2009 ). Đối với ngôn ngữ học ứng dụng những nghiên cứu và điều tra từ điển cung ứng nguồn thông tin quan trọng cho người dạy và học tiếng. Chẳng hạn, trong khi cách tiếp cận truyền thống cuội nguồn là nhận diện nhóm từ đồng nghĩa tương quan thì với nghiên cứu và điều tra từ điển học dựa vào ngữ liệu lại nỗ lực chỉ ra những từ tương quan được sử dụng theo những cách khác nhau trong ngữ cảnh khác nhau như thế nào .Bạn đang xem : Ngữ liệu là gì

Trong các lĩnh vực của ngôn ngữ học có lẽ từ điển là ngành đã có ảnh hưởng lâu nhất của phương pháp dựa vào ngữ liệu. Trong lịch sử từ điển học phương Tây, ngay từ năm 1755 Johnson đã sử dụng kho ngữ liệu văn bản tập hợp các cách dùng khác nhau của từ làm thí dụ trong cuốn từ điển tiếng Anh do ông biên soạn (Johnson, 1755 <1979>). Vào cuối những năm 1800, một tập hợp trích dẫn văn bản đã được thu thập làm cơ sở cho bộ từ điển OED (xuất bản hoàn chỉnh lần 1 năm 1928 và tái bản lần 2 năm 1989, đến tháng 6 năm 2010 đã hoàn chỉnh bản thảo tái bản lần 3 từ vần M đến rococoesque). Tuy nhiên, lối dùng các phiếu ngữ cảnh trích dẫn này khác so với cách tiếp cận dựa trên ngữ liệu hiện nay ở những điểm sau:

– Các kho ngữ cảnh trước đây không nhằm mục đích lấy mẫu mang tính đại diện thay mặt cho ngôn từ tương quan, hoặc không đạt đến nhu yếu đó ;- Các cách sử dụng trong khẩu ngữ rất hiếm trong những kho phiếu ngữ cảnh này .Ngày nay, nhờ những tân tiến trong ngành máy tính và công nghệ thông tin, tất cả chúng ta hoàn toàn có thể có những nghiên cứu và điều tra lí thuyết và thực hành thực tế từ điển dựa trên những kho ngữ liệu. Về cơ bản thuận tiện hơn nhiều so với trước đây ở những điểm sau : ( 1 ) Nhờ vận tốc xử lí và dung tích tàng trữ thông tin của máy tính, lúc bấy giờ tất cả chúng ta hoàn toàn có thể tích lũy, tàng trữ và truy xuất những kho ngữ liệu lớn cỡ hàng triệu đến hàng tỉ từ xuất phát từ nhiều nguồn khác nhau ; ( 2 ) Các tích lũy này gồm có hàng loạt văn bản hoặc đoạn trích lớn của những văn bản chứ không hạn chế là những ngữ cảnh chỉ gồm một hoặc một vài câu như trước kia ; ( 3 ) Nhờ năng lực tàng trữ nhiều văn bản hơn, tất cả chúng ta hoàn toàn có thể phong cách thiết kế những kho ngữ liệu mang tính đại diện thay mặt cao hơn cho ngôn từ hoặc biến thể ngôn từ cần nghiên cứu và điều tra ; ( 4 ) Máy tính hoàn toàn có thể tìm kiếm tổng thể những ngữ cảnh của một từ nhất định trong kho ngữ liệu trong khi con người rất dễ bỏ lỡ nhiều từ khi chọn ngữ cảnh ; ( 5 ) Máy tính hoàn toàn có thể nghiên cứu và phân tích những khuôn sử dụng, tức là những quy mô những từ đứng cạnh từ nút ( node word ) và sắp xếp chúng chỉ trong vài phút trong khi đây là một việc làm tốn nhiều thời hạn và công sức của con người so với con người ( tựa như như việc làm sắp xếp phiếu lỗ trước đây ) .Tóm lại, toàn bộ những đặc trưng như kích cỡ kho ngữ liệu lớn hơn, mang tính đại diện thay mặt cao hơn, nghiên cứu và phân tích tổng lực và phức tạp hơn đã được cho phép thực thi những việc làm điều tra và nghiên cứu lí thuyết và thực hành thực tế biên soạn từ điển vốn khó khả thi trước đây. Theo Biber, Conrad, và Reppen ( 1998, pp. 23-24 ) những điều tra và nghiên cứu từ điển học dựa trên ngữ liệu ngày này tập trung chuyên sâu vào sáu yếu tố lớn sau :1. Các nghĩa link với một từ đơn cử là gì ?2. Tần số của một từ tương quan tới những từ khác thế nào ?3. Một từ đơn cử có những khuôn link ngoài ngôn ngữ học nào ( thí dụ với ngữ vực ( register ), những tiến trình lịch sử dân tộc, hay phương ngữ ) ?4. Các từ thường đi với một từ đơn cử khác là gì, phân bổ của những chuỗi đồng hiện ( collocation ) này trong những ngữ vực là gì ?5. Các nghĩa và cách sử dụng của một từ được phân bổ thế nào ?6. Các từ đồng hoặc gần nghĩa được sử dụng và phân phối trong những cách khác nhau như thế nào ?Các yếu tố này giúp tất cả chúng ta hiểu được tại sao cách sử dụng từ ngữ của con người lại theo khuôn mẫu một cách mạng lưới hệ thống. Đó là, phần nghĩa lan rộng ra của một từ là cách nó được sử dụng một cách nổi bật link với những từ khác hoặc trong link với những góc nhìn ngoài ngôn từ đơn cử. Dưới đây chúng tôi sẽ trình diễn những ứng dụng của công nghệ thông tin nói chung và ngôn ngữ học ngữ liệu nói riêng trong công tác làm việc điều tra và nghiên cứu và biên soạn từ điển .2. Khái niệm kho ngữ liệu và ngôn ngữ học ngữ liệu2.1. Chỉ mục ngữ cảnh2. Khái niệm kho ngữ liệu và ngôn ngữ học ngữ liệu2. 1. Chỉ mục ngữ cảnhMột trong những trách nhiệm quan trọng của người biên soạn từ điển là phải tìm ra nghĩa của một từ nhất định là gì và diễn đạt nó ra như thế nào ? Theo cách tiếp cận truyền thống lịch sử, người ta nghĩ ngay đến việc lục tìm nó trong đầu ( tức cách tiếp cận nội quan ) hoặc tìm nó trong những từ điển khác ; xa hơn một chút ít là tìm nó trong kho phiếu ngữ cảnh trích dẫn ( với điều kiện kèm theo là trước đấy đã kiến thiết xây dựng được kho ngữ cảnh trích dẫn rồi – một việc làm tốn nhiều thời hạn, công sức của con người và tài lộc nhưng cũng có hạn chế dưới ánh sáng của ngôn ngữ học ngữ liệu ). Cách tiên phong được chú ý quan tâm trong từ điển học, và bất kỳ nhà từ điển “ cứng tay ” nào cũng cần có một trực giác ngôn từ nhạy bén về cách sử dụng của từ và nghĩa của chúng. Tuy nhiên cách này có những hạn chế như rất dễ bỏ lỡ nhiều nghĩa hay cách sử dụng nào đó, hoặc mang nhiều tính chủ quan của người biên soạn : mỗi người biên soạn khác nhau sẽ có những quan điểm khác nhau về cái gì là quan trọng hoặc nổi trội. Cách thứ hai hoàn toàn có thể dùng nhưng không nên phụ thuộc vào nó quá vì ngôn từ, nhất là từ vựng, luôn luôn đổi khác. Cách thứ ba chính là thời kì sơ khai tiên phong của từ điển học ngữ liệu trước khi có máy vi tính. Các nhà biên soạn từ điển trước đây như Samuel Johnson và James Murray trong từ điển học tiếng Anh ; hay như Phòng Từ điển học – Viện Ngôn ngữ học trước đây đã sử dụng một số lượng lớn những phiếu ngữ cảnh trích dẫn như là kho ngữ liệu. Số lượng phiếu ngữ cảnh trích dẫn giúp cho việc biên soạn bộ từ điển đồ sộ OED gồm hơn 20 triệu phiếu, mỗi phiếu là một ví dụ trích dẫn cho cách sử dụng của một từ. Cuốn Từ điển tiếng Việt do Hoàng Phê chủ biên ( Hoàng, 1988 ) được biên soạn dựa trên gần ba triệu phiếu ngữ cảnh trích dẫn cách sử dụng từ đơn cử .Thời kì thứ hai của kho ngữ liệu cho từ điển dựa vào năng lực tàng trữ, sắp xếp, và tìm kiếm giống như vai trò của người chọn gạch ngữ cảnh, xếp phiếu và rút phiếu tư liệu trước kia trong kho ngữ cảnh. Tuy nhiên máy tính thực thi những việc làm này khách quan hơn nhiều ; người đọc chọn ngữ cảnh hoàn toàn có thể chỉ chọn những trích dẫn cho những từ hiếm gặp, hoặc nó được sử dụng theo cách lạ, do đó những trích dẫn tập trung chuyên sâu vào những từ “ không bình thường ” nhưng lại ít chú ý quan tâm đến những từ “ thông thường ”. Điều này chính là do chủ quan tính của người đọc chọn ngữ cảnh. Chính J. A. H. Murray ( chủ biên tiên phong của bộ từ điển OED ) đã từng phàn nàn rằng “ người biên soạn hay trợ lí chỉnh sửa và biên tập đã dành nhiều giờ quý giá để tìm kiếm ví dụ của những từ thông dụng mà người gạch ngữ cảnh đã bỏ lỡ … Do đó, chúng tôi đã tìm thấy 50 phiếu ngữ cảnh trích dẫn cho từ abusion ( lạm dụng – từ cổ ) mà chưa đến 5 phiếu cho từ abuse ( lạm dụng ) ” ( Murray, 1977, p. 178 ) .*trái lại, máy tính thực thi việc làm này khách quan một cách triệt để. Nó sẽ tìm kiếm và đưa ra tổng thể những ngữ cảnh từ chuẩn tắc cho tới ngoại lệ theo nhu yếu từ trong kho ngữ liệu. Một trong những giải pháp và cách tiếp cận cơ bản thường được dùng nhất trong ngôn ngữ học ngữ liệu đó là tính năng tìm kiếm và rút trích tài liệu dưới dạng chỉ mục từ khoá trong ngữ cảnh ( concordance ). Nhiều người sử dụng ngữ liệu thường dựa hầu hết vào chỉ mục ngữ cảnh và cách diễn giải nó. Cách này đặc biệt quan trọng thích hợp cho những người sử dụng kho ngữ liệu hàng ngày để giảng dạy ngôn từ hay dịch thuật, tức là cho những người có phản xạ ngữ cảm với tài liệu tức thời hơn là dựa vào cách tiếp cận thống kê .Chức năng chỉ mục ngữ cảnh sẽ trình diễn những ngữ cảnh của từ tìm kiếm theo một bố cục tổng quan thuận tiện cho việc đọc và diễn dịch, đó là mỗi dòng sẽ trình diễn một ngữ cảnh của một từ nút ( hay cũng gọi là từ đầu mối ) được gióng hàng vào vị trí giữa dòng, như Hình 2 dưới đây. Người sử dụng hoàn toàn có thể đọc lướt qua hàng loạt từ khoá đó, hoàn toàn có thể trong bước đầu nắm được nghĩa của từ khoá đó hay từ ghép mà nó đóng vai trò thành phần. Như đã trình diễn ở trên, nhiều thông tin rút ra từ việc đọc chỉ mục ngữ cảnh hoàn toàn có thể bị bỏ sót nếu tất cả chúng ta chỉ dựa vào giải pháp nội quan mà không dựa vào kho ngữ liệu ( xem Hình 2 ) .*Bên cạnh tính năng tìm kiếm và trình diễn theo dạng chỉ mục, một số ít công dụng phức tạp được cho phép sắp xếp, lấy mẫu ngẫu nhiên, lọc, xem ngữ cảnh rộng hơn và tìm kiếm nâng cao .Sắp xếp : Việc sắp xếp chỉ mục ngữ cảnh có công dụng lớn vì nó đưa toàn bộ những trường hợp có dạng thức giống nhau về một chỗ giúp người sử dụng xem xét và xác định nghĩa thuận tiện hơn. Cách thức sắp xếp hoàn toàn có thể là sắp xếp từ đầu mối ( vì có những truy vấn tìm kiếm nhiều dạng thức khác nhau của một hoặc nhiều từ đầu mối ), sắp xếp phía bên trái của từ đầu mối, và sắp xếp phía bên phải của từ đầu mối. Thậm chí, hoàn toàn có thể sắp xếp nâng cao phức tạp hơn như sắp xếp ngược, sắp xếp từ thứ hai hoặc ba phía bên trái hoặc bên phải của từ khoá .Lấy mẫu ngẫu nhiên : Việc này hữu dụng khi kho ngữ liệu lớn và số lượng ngữ cảnh của một từ đầu mối quá nhiều để người sử dụng hoàn toàn có thể xem xét hết được, ví dụ điển hình, có những từ thông dụng có số lượng ngữ cảnh lên tới hàng chục nghìn dòng chỉ mục ngữ cảnh. Việc lấy mẫu hoàn toàn có thể chọn ngẫu nhiên những dòng chỉ mục đó, thí dụ cứ 100 dòng thì lấy một dòng hoặc trong 1000 dòng lấy 10 dòng ngẫu nhiên .Lọc : Chức năng lọc có tương quan đến những thông tin siêu dữ liệu của những văn bản trong kho ngữ liệu, ví dụ điển hình như những thông tin về ngôn từ nói và ngôn từ viết, thể loại văn bản, thời hạn xuất bản của tài liệu, độ tuổi, v.v. ( xem Hình 3 )*Mở rộng ngữ cảnh : Thông thường chỉ mục ngữ cảnh được cho phép tuỳ biến số lượng kí tự bên phải và bên trái từ khoá, ví dụ điển hình từ 20 đến 50 hoặc hơn. Đối với người biên soạn từ điển, hành lang cửa số cho mỗi bên khoảng chừng 25 hoàn toàn có thể là đủ. Tuy nhiên, so với người làm điều tra và nghiên cứu ngữ pháp hay ngữ dụng hoặc nghiên cứu và phân tích diễn ngôn thì hành lang cửa số như vậy hoàn toàn có thể là chưa đủ để phân phối thông tin cho họ. Do đó, những tính năng chỉ mục ngữ cảnh thường được cho phép mở ra ngữ cảnh rộng hơn, hoàn toàn có thể là hàng loạt văn bản .Tìm kiếm nâng cao : Bên cạnh việc hoàn toàn có thể tìm kiếm những từ đơn thuần, người sử dụng cũng hoàn toàn có thể tìm kiếm những ngữ hoặc những cấu trúc phức tạp hơn. Chức năng tìm kiếm tốt được cho phép những tìm kiếm phức tạp nhưng vẫn rất thân thiện với người sử dụng ( xem Hình 4 ) .Xem thêm : Tổng Hợp Tất Tần Tật Về Parabolic Sar Là Gì ? Cách Sử Dụng Psar Chi Tiết*Đối với người biên soạn từ điển, việc sử dụng chỉ mục ngữ cảnh rút ra từ kho ngữ liệu có vẻ như cung ứng được rất nhiều nhu yếu trong việc làm của họ trước và trong khi thực thi viết định nghĩa cho mục từ. Tuy nhiên, với năng lực xử lí và tàng trữ tiềm tàng của máy tính lúc bấy giờ, cộng với nhu yếu thu thập dữ liệu nhiều hơn, những kho ngữ liệu ngày càng lớn hơn. Nếu như thời kì đầu của lịch sử vẻ vang ngôn ngữ học ngữ liệu chỉ có những kho ngữ liệu chứa khoảng chừng một triệu từ thì đến những năm 1990 nó đã là 100 triệu từ ( như BNC ). Năm 2006 Tập đoàn Dữ liệu ngôn ngữ học ( LDC ) đã thông tin cho sinh ra kho ngữ liệu tiếng Anh cỡ Gigaword, tức là hàng tỉ từ. Các tài liệu trên mạng Internet chắc như đinh còn lớn hơn hàng nghìn lần kho ngữ liệu đó. Điều này tốt vì càng có nhiều tài liệu của một ngôn từ ta càng có một bức tranh vừa đủ hơn về ngôn từ đó. Tuy nhiên nó cũng gây ra yếu tố xử lí số lượng lớn chỉ mục ngữ cảnh của những từ có tần số sử dụng cao. Để xử lý yếu tố này Sinclair ( 1999 ) đã chủ trương chọn ngẫu nhiên 30 dòng chỉ mục ngữ cảnh rồi tìm ra khuôn sử dụng trong đó, sau đó chọn 30 dòng khác tìm khuôn sử dụng mới, và liên tục chọn 30 dòng khác, và cứ như vậy cho tới khi không thấy khuôn sử dụng mới nào nữa. Phương pháp này cũng được cải tiến thành giải pháp “ kiểm tra giả thuyết ” trong đó lựa chọn một số lượng nhỏ những dòng chỉ mục ngữ cảnh để làm cơ sở cho tập hợp những giả thuyết về một khuôn sử dụng nào đó. Các tìm kiếm khác sau đó sẽ được dùng để kiểm tra những giả thuyết đã lập và rút ra những giả thuyết mới nếu không thấy tương thích với những giả thuyết trước đó ( Gries, 2009, pp. 183 – 189 ) .

Chỉ mục ngữ cảnh giúp ích rất nhiều cho người biên soạn từ điển, nhưng “các dòng chỉ mục ngữ cảnh trình bày thông tin; chúng không tự giải thích. Việc giải thích hay diễn dịch nó đòi hỏi trực cảm thấu đáo của người quan sát” (Hunston, 2002, p. 65). Đúng vậy, các dòng chỉ mục ngữ cảnh là công cụ rất hữu ích để khai thác ngữ liệu, nhưng sử dụng chúng tối ưu đến đâu lại phụ thuộc vào khả năng xử lí thông tin của người quan sát, đặc biệt đối với các từ thông dụng vốn có tần số sử dụng rất cao và thường có tần số xuất hiện rất lớn trong kho ngữ liệu. Trong hai phần sau chúng tôi sẽ trình bày hai phương pháp khai thác kho ngữ liệu vượt ra ngoài các dòng chỉ mục ngữ cảnh bao gồm sử dụng danh sách tần số và đồng hiện từ vựng (collocation) – hai phương pháp dùng các tính toán thống kê kho ngữ liệu.

2.2. Danh sách tần số2.2. Danh sách tần sốViệc tạo list tần số của một từ nhất định gồm hai quy trình tiến độ :- tách văn bản thành những từ ;- đếm những dạng thức từ giống nhau .Giai đoạn đầu nhu yếu xác lập ranh giới giữa những từ để máy hoàn toàn có thể hiểu được. Giai đoạn này không đơn thuần trong ngôn từ đơn lập như tiếng Việt bởi ranh giới từ ghép không được biểu lộ bằng tín hiệu hình thức nào mà chỉ có ranh giới giữa những chữ ( hay âm tiết hoặc tiếng ) mà thôi. Sau khi văn bản đã được phân tách thành những từ riêng không liên quan gì đến nhau, chúng hoàn toàn có thể được sắp xếp để đếm. Có thể vận dụng hai cách tiếp cận chính để xử lý việc này. Cách tiên phong đơn thuần hơn gồm 3 bước :- tạo ra một file chứa tổng thể những từ tìm thấy, mỗi từ trên một dòng ;- sắp xếp file này theo trật tự alphabet để toàn bộ những dạng thức giống nhau xếp dồn lại ;- đếm số lần Open của từng dạng thức từ Open trong list mới sắp xếp ở trên .Dưới đây là 55 từ có tần số cao nhất trích trong kho ngữ liệu gồm bộ ba cuốn sách dạy tiếng Việt cho người quốc tế do GS Đoàn Thiện Thuật chủ biên ( Đoàn, 2004 – 05 ). Kích cỡ của kho ngữ liệu này gồm 1.387.286 từ, với tổng số hiện dạng ( tokens ) là 110,678, tổng số điển dạng ( types ) là 5,883. Kho ngữ liệu gồm có 73 bài học kinh nghiệm được lấy từ nguồn nói trên. Bảng được trình diễn theo cách sắp xếp tần số từ cao xuống thấp ( xem Bảng 1 ) .*2.3. Đồng hiện từ vựngĐồng hiện từ vựng là khuynh hướng những từ thường Open với nhau. Chẳng hạn, Hunston đã có quan sát mê hoặc sau trong tiếng Anh, từ toys ( đồ chơi ) Open với từ children ( trẻ con ) liên tục hơn là với từ men ( đàn ông ) hay women ( phụ nữ ). Hiện tượng đồng hiện từ vựng này được cho là có lí do ( motivated ), theo đó có cách lý giải hợp lý cho nó, ví dụ điển hình trong trường hợp trên toys là dành cho trẻ con chứ không phải cho người lớn. Tuy nhiên, những trường hợp đồng hiện khác lại không được coi là có lí do, như strong tea ( chè đặc ), strong wine ( rượu mạnh ), powerful computer ( máy tính mạnh ) ( xem Halliday và Kress, 1976, p. 73 ). Đồng hiện từ vựng hoàn toàn có thể quan sát được qua những thí dụ trong ngôn từ qua chiêu thức nội quan ( tức là dựa vào trực cảm ngôn từ ) hay qua quan sát trên văn bản trong thực tiễn. Nhưng độ đúng chuẩn và an toàn và đáng tin cậy sẽ cao hơn nếu ta thống kê giám sát nó theo giải pháp thống kê với số liệu được rút ra từ kho ngữ liệu. Có thể xem nó như xu thế đồng hiện của hai từ hoặc xu thế đồng hiện của một từ lôi cuốn từ kia .*Lí do phải có một lượng tài liệu lớn để tính đồng hiện là để lấy mọi năng lực đồng hiện từ vựng, kể cả trường hợp ít có ý nghĩa thống kê để so sánh với những đơn vị chức năng có ý nghĩa thống kê .Như trên đây đã trình diễn về list tần số, so với list tần số thô tất cả chúng ta không hề biết được tầm quan trọng đúng chuẩn của những số lượng đó. Chẳng hạn, liệu những từ ở đầu list này quan trọng hơn hay nó hoàn toàn có thể Open với bất kể từ nào khác ? Để vấn đáp cho câu hỏi này tất cả chúng ta hoàn toàn có thể sử dụng chiêu thức giám sát tầm quan trọng của từng trường hợp đồng hiện từ vựng. Có ba cách tính thông dụng nhất để tính độ quan trọng là : điểm số thông tin hai chiều MI ( Mutual information – MI score ), điểm số t ( t-score ), và điểm số z ( z-score ). Về cách tính thì điểm số t và điểm số z giống nhau hơn, nhưng về hiệu quả đầu ra thì điểm số z và điểm số MI giống nhau hơn. Có thể khám phá kĩ hơn về yếu tố này trong những tài liệu Church và Hanks ( 1989 ), Stubbs ( 1995 ), Barnbroo ( 1996 ), McEnery và Wilson ( 2001 ), Biber et al. ( 1998 ), Oakes ( 1998 ), Hunston ( 2002 ) .Dưới đây chỉ tập trung chuyên sâu vào hai cách tính điểm số t và điểm số MI. Cả hai cách tính này đều phụ thuộc vào vào : 1 ) có bao nhiêu trường hợp từ đồng hiện trong khoanh vùng phạm vi đã chọn của từ nút ( những số lượng này gọi là giá trị quan sát được – Observed, kí hiệu là O ) ; có bao nhiêu trường hợp hoàn toàn có thể Open trong khoanh vùng phạm vi đó, với tần số của từ đồng hiện là hàng loạt từ trong kho ngữ liệu ( những số lượng này gọi là giá trị kì vọng – Expected, kí hiệu là E ). Thêm vào đó, điểm t sử dụng cách tính của độ lệch chuẩn, có tính đến cả Xác Suất đồng hiện từ vựng của từ nút và những từ đi cùng nó và số hiện dạng ( tokens ) trong khoanh vùng phạm vi đã chọn ở tổng thể những dòng .Điểm số t được tính bằng cách lấy giá trị quan sát được trừ đi giá trị kì vọng, sau đó chia cho độ lệch chuẩn ( standard deviation ). Công thức tính như sau :*Điểm số MI được tính bằng cách lấy giá trị quan sát được chia cho giá trị kì vọng, sau đó chuyển nó về logarit 2. Công thức tính như sau :*Điểm số MI cho biết độ an toàn và đáng tin cậy của đồng hiện từ vựng. Nó so sánh sự đồng hiện thực sự của hai đơn vị chức năng với những đồng hiện kì vọng được sử dụng trong kho ngữ liệu Open trong trật tự trọn vẹn ngẫu nhiên. Nói cách khác, điểm số MI tính toán số những trường hợp không ngẫu nhiên khi hai từ Open cùng nhau. Nếu điểm số MI lớn hơn hoặc bằng 3 thì được coi là có ý nghĩa thống kê. Chẳng hạn, Hunston ( 2002 ) đã xác lập đồng hiện từ vựng với điểm số MI cao trong kho ngữ liệu Ngân hàng tiếng Anh ( Bank of English ) như sau : ballpoint ( đầu bi ) + pen ( bút ) ( điểm số MI là 11,6 ) ; distinctly ( rõ ràng ) + unenthusiastic ( không nhiệt tình ) ( điểm số MI là 12,7 ) ; kith ( bè bạn ) + kin ( họ hàng ) ( điểm số MI là 18,1 ) ; hardly ( phần đông không, chẳng ) + surprising ( quá bất ngờ ) ( điểm số MI là 7,8 ). Dưới đây là 15 dòng đồng hiện từ vựng của từ gaze có điểm số MI cao nhất ( Hunston, 2002, pp. 71-73 ) :Bảng sau trình diễn 15 đồng hiện từ vựng của từ gaze có điểm số t cao nhất**thấy có sự khác nhau mặc dầu đều tính điểm đồng hiện cho một từ. Sự khác nhau này hoàn toàn có thể do những đồng hiện phụ thuộc vào vào những phần đơn cử trong kho ngữ liệu chúng không Open, nhưng cũng hoàn toàn có thể do tần số thô khác nhau. Ví dụ như trường hợp đồng hiện từ vựng của the ( ‘ mạo từ xác lập ’ ) và gaze ( nhìn chằm chằm ) không có điểm số t cao do tại the Open ở đầu list tần số do nó là một từ có tần số Open lớn chứ không phải mối liên hệ của nó với từ gaze. Tuy nhiên trong trường hợp của từ his ( của anh ấy ), điểm số t chứng tỏ rằng đồng hiện từ vựng của từ này với từ gaze không phải chỉ do tần số cao của từ his mà là do sự “ ưa thích ” từ vựng của nó với từ gaze. His và gaze không có điểm số MI cao chính do his cũng đồng hiện cùng với rất nhiều từ khác, nhưng có nhiều trường hợp trong kho ngữ liệu cho sự đồng hiện của chúng do đó chúng có điểm số t cao .Như vậy, sự độc lạ cơ bản giữa điểm số MI và điểm số t hoàn toàn có thể được tóm lược như sau ( xem bảng 2 ) :*

Các tính toán của điểm số MI và điểm số t đều có giá trị riêng của chúng, và tất nhiên cả hai đều cần phải được hiểu kĩ càng. Hunston (2002) đã minh hoạ luận điểm này bằng cách chọn trong kho ngữ liệu Ngân hàng tiếng Anh (BoE) tất cả các trường hợp “trạng từ (adverd) đi trước từ significant (quan trọng, đáng chú ý, có ý nghĩa)” sau đó chọn các thông tin về cường độ (strength) và độ chắc chắn (certainty) của đồng hiện giữa các trạng từ và từ significant. Những đồng hiện từ vựng đầu tiên theo thang điểm số MI (tức là các đồng hiện mạnh mẽ nhất) là các từ radiologically (thuộc về tia X quang), statistically (thuộc về thống kê), electorally (thuộc về bầu cử), militarily (về quân đội), symbolically (mang tính tượng trưng). Những từ này gợi nhắc cho chúng ta nhớ rằng significant có các ý nghĩa cụ thể trong các lĩnh vực học thuật khác nhau, và mục đích của trạng từ có thể để nói rõ rằng “có ý nghĩa ở loại gì” trong từng hoàn cảnh cụ thể đó. Tuy nhiên, mặc dù sự đồng hiện từ vựng mạnh mẽ cũng không phải tất cả đều chắc chắn. Chẳng hạn, trường hợp electorally significant chỉ xuất hiện 5 lần trong toàn bộ kho ngữ liệu. Các đồng hiện xuất hiện đầu danh sách theo thang điểm số t (tức các đồng hiện chắc chắn nhất) là các từ more (hơn), most (nhất), very (rất), statistically (thuộc về thống kê), highly (rất, lắm, cao), not (không), particularly (đặc biệt). Những từ này ít mang tính kĩ thuật hơn và cho chúng ta biết ít hơn về “cái gì có ý nghĩa” ở đây. Trái lại, nó chỉ ra rằng từ significant thường được dùng trong các so sánh và các trạng từ nào thường được sử dụng với nó nhất. Sự xuất hiện của cụm từ statistically significant (có ý nghĩa thống kê) trong cả hai danh sách cho thấy nó quan trọng trong tất cả các danh sách. Nó vừa là một đồng hiện từ vựng mạnh mẽ vừa là một đồng hiện từ vựng chắc chắn.

Một điểm cần quan tâm nữa khi thống kê giám sát đồng hiện từ vựng là trong một số ít trường hợp chúng cần có một khoanh vùng phạm vi rộng hơn thông thường. Điều này đặc biệt quan trọng thiết yếu khi giám sát những đồng hiện mệnh đề ( clause collocations ) khi xu thế một loại mệnh đề Open cùng với một mệnh đề khác. Chẳng hạn, mệnh đề mở màn với không những hoàn toàn có thể Open với những mệnh đề mở màn với mà, mà còn, mà … Còn ( xem hình 6 ) .*

ABSTRACTFor all lexicographers, a preparation of linguistic corpora is the first and very important job. However, how to use the corpora appropriately and effectively plays a decisive role in making dictionaries. The author discusses some issues of corpora and corpus linguistics. Hopefully it is of help to the dictionary making with the application of information technology.

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *