Google Translate의 성별 문제(Bing Translate, 그리고 Systran의...)

Google 번역 및 기타 인기 있는 번역 플랫폼은 종종 의도치 않게 성차별적인 번역을 제공합니다. 의사들 남자이고 교사 여성입니다. 그 이유는 알고리즘, 언어학 및 소스 자료의 복잡한 혼합과 관련이 있습니다.

Google Translate의 성별 문제(Bing Translate, 그리고 Systran의...)

Google 번역은 세계에서 가장 인기 있는 웹 번역 플랫폼이지만, 한 스탠포드 대학 연구원은 Google 번역이 성별과 젠더를 제대로 이해하지 못한다고 말합니다. 스탠포드 대학을 운영하는 Londa Schiebinger 젠더 혁신 프로젝트는 Google의 소스 데이터베이스 선택으로 인해 번역에서 남성 명사와 동사에 대한 통계적 편향이 발생한다고 말합니다. 에 관한 논문에서 성별 및 자연어 처리 , Schiebinger는 Google의 번역 알고리즘과 함께 사용된 원본 텍스트가 의도하지 않은 성차별로 이어진다는 설득력 있는 증거를 제공합니다.

기계 번역 및 성별



2013년에 발표된 동료 검토 사례 연구에서 Schiebinger는 Google 번역이 성 중립적인 영어 단어(예: NS, 또는 다음과 같은 직업 이름 교수 그리고 박사님 ) 단어가 번역되면 다른 언어의 남성 형태로 변환됩니다. 그러나 특정 성 중립적인 영어 단어는 여성형으로 번역됩니다. . . 그러나 특정 성별 고정 관념을 따를 때만 가능합니다. 예를 들어, 성 중립적인 영어 용어는 피고 그리고 간호사 다음과 같이 독일어로 번역 피고 그리고 간호사. 피고 남성으로 번역되지만 간호사 여성으로 자동 번역됩니다.

Schiebinger는 Google 번역이 실제로 문제가 되는 부분은 영어로 번역될 때 다른 언어로 된 성 중립적 단어에 대한 컨텍스트가 부족하다고 주장합니다. Schiebinger는 스페인어 신문에 자신의 작업에 대한 기사를 실었습니다. 이 나라 Google 번역과 경쟁 플랫폼인 Systran을 통해 영어로 번역됩니다. Google 번역과 Systran은 모두 Schiebinger가 여성이라는 사실에도 불구하고 성 중립적인 스페인어 단어 suyo와 dice를 자신의 것으로 번역했으며 그는 말했습니다.



이러한 종류의 단어는 Bing Translate, Google 번역, Systran 및 기타 인기 있는 기계 번역 플랫폼에서 특정 문제를 야기합니다. Translate에서 일하는 Google 엔지니어들은 Co.Labs에 성별을 포함한 모든 단어의 번역은 주로 온라인에서 찾은 번역된 문서 쌍의 통계적 패턴에 의해 가중치가 부여된다고 말했습니다. 주사위는 그가 말한 대로 또는 그녀가 말한 대로 번역할 수 있기 때문에 Translate의 알고리즘은 주사위의 조합과 인접 단어의 조합을 확인하여 이러한 조합의 가장 빈번한 번역이 무엇인지 확인합니다. 주사위가 Google이 말한 대로 얻은 번역에서 더 자주 렌더링되면 Translate는 일반적으로 그것을 여성이 아닌 남성으로 렌더링합니다. 또한 Google 번역 팀은 플랫폼이 컨텍스트에 대해 개별 문장만 사용한다고 덧붙였습니다. 인접 문장의 젠더 명사 또는 동사는 맥락을 설정하는 측면에서 가중치를 두지 않습니다.

출처 자료, 문화적 맥락 및 성별



Schiebinger는 Co.Labs에 이 프로젝트가 자연어 처리 문제를 연구하던 학생이 작성한 논문에서 발전했다고 말했습니다. 2012년 7월, 외부 연구원들과 함께 스탠포드 대학에서 워크숍이 열렸고, 이 워크숍은 동료 검토를 거쳐 기계 번역 논문으로 바뀌었습니다.

전 세계의 언어를 실시간으로 정확하게 번역한다는 거의 불가능한 목표에 직면해 있는 Google 번역은 수년 동안 젠더 문제에 직면해 있습니다. Google의 신용으로 Mountain View는 번역 부정확성을 수정하기 위해 Google 번역의 알고리즘을 정기적으로 조정합니다. 언어 번역 알고리즘은 악명 높기로 까다롭습니다. Google, Bing, Systran 및 기타 회사의 엔지니어는 문법만 고려할 필요가 없습니다. 컨텍스트, 하위 텍스트, 함축된 의미, 문화적 특이점 및 기타 백만 가지 주관적인 요소를 고려해야 합니다. . . 그런 다음 코드로 변환합니다.

그러나 그럼에도 불구하고 이러한 부정확성은 존재합니다. 특히 성별에 대해 그렇습니다. 작년의 한 사례에서 사용자는 번역하는 남자는 남자이고 남자는 부엌을 청소해야 한다는 것을 발견했습니다. 독일어로 남자는 남자가 되었고 여자는 부엌을 청소해야 합니다. 여성 부엌을 청소해야 합니다. 다른 독일어 Google 번역 사용자를 찾았습니다. 여러 언어로 된 직업 편견 – 젠더-네추럴 영어 용어 프랑스어 교사, 보육 교사, 그리고 요리 선생님 Google 번역의 프랑스어 및 독일어 버전에서는 모두 여성형으로 표시되었고 엔지니어, 의사, 저널리스트 및 사장은 남성형으로 번역되었습니다.



작가 나탈리 켈리 번역에서 발견: 언어가 우리의 삶을 형성하고 세상을 변화시키는 방법, 누구의 회사 언어 기술 제품을 제공한다고 Co.Labs는 기계 번역의 남성 편향이 매우 일반적이라고 말했습니다. 번역을 생성하기 위해 통계적 접근 방식을 사용하는 경우 시스템은 모든 과거 번역을 마이닝하고 빈도를 기반으로 올바른 번역의 가능성이 가장 높은 후보를 제공합니다. Kelly는 남성 대명사가 대부분의 언어와 문화에서 역사적으로 과도하게 표현되었다는 점을 감안할 때 기계 번역은 이러한 역사적 성 편견을 반영하는 경향이 있다고 말했습니다.

결과는 매우 혼란스럽거나 부정확할 수 있습니다. 예를 들어 Google 번역에서 번역하면 공학자 스페인어에서는 남성형으로 나온다. 공학자, 하지만 넣으면 여성 엔지니어, 당신은 얻는다 여성 성 엔지니어, 이것은 다음과 같은 것을 의미합니다. 페미닌 성의 남성 엔지니어. 이것은 아무리 줄잡아 말하더라도 스페인어로 꽤 이상하게 들립니다! 입력하면 여성 엔지니어 Bing 번역으로, 당신은 얻을 공학자, 기술적으로 올바른 것입니다. 그러나 여전히 지정해야 합니다. 여자 여성스러운 결과를 내기 위해 지정하지 않아도 됩니다 남성 엔지니어 얻기 위해 공학자. 입력만 하면 됩니다 공학자. 대부분의 기계 번역 시스템에는 고유한 성별 편견이 있습니다.

코퍼스의 통계적 성격

이런 일이 일어나는 이유는 통계적입니다. Google 번역이 작동하는 모든 언어에서 알고리즘은 이전에 업로드된 수많은 문서를 통해 의미, 문법 및 컨텍스트를 처리합니다. 언어마다 다른 이러한 문서는 Google 번역이 실제로 작동하는 방식을 결정합니다. 번역에 사용된 소스 자료에 한 성별이 다른 성별보다 선호된다는 점에서 집계된 편향이 있는 경우 사용자가 받는 번역에 반영됩니다.



Google 그룹스의 사용자가 질문할 때 히브리어 번역의 남성 성 편견 2010년 Google의 Xi Cheng은 Google 번역이 기계에 의해 완전히 자동화된다고 언급했습니다. 아무도 명시적으로 규칙을 부과하지 않습니다. 번역은 우리가 가지고 있는 말뭉치의 통계적 특성에 따라 생성됩니다.

Schiebinger에 따르면 Google 번역과 같은 기계 번역 시스템은 두 가지 종류의 말뭉치를 사용합니다. 한 언어의 텍스트가 있는 병렬 코퍼스는 다른 언어의 번역을 비교하는 데 사용되는 반면, 번역 대상 언어의 대규모 단일 언어 코퍼스는 문법 및 단어 배치를 결정하는 데 사용됩니다. 사용된 말뭉치에서 남성 또는 여성 형태의 단어가 체계적으로 선호되는 경우 알고리즘이 해당 특정 성별에 유리하게 번역되도록 합니다.

기계 번역은 궁극적으로 알고리즘과 그들이 사용하는 소스 자료에 컨텍스트를 제공하는 번역가와 언어학자에 달려 있습니다. Google 번역, Bing 번역 및 Systran은 모두 놀라운 언어 배열로 즉시 번역을 제공하는 놀라운 일을 합니다. 번역 플랫폼 개발자의 과제는 제품을 더욱 개선하고 정확도를 높이는 방법입니다. 이는 앞으로 더 많이 보게 될 것입니다.

[ 교사 이미지: 에버렛 컬렉션 Shutterstock을 통해 ]